OpenAI Sora hay Google Veo 3: Công cụ tạo video AI nào tốt hơn?

Nếu Veo 3 là Regina George của video AI, thì Sora là Cady Heron. Đó là kết luận tôi rút ra sau khi thử nghiệm nghiêm ngặt các công cụ tạo video AI phổ biến.
Veo 3 của Google là mô hình video AI đầu tiên giới thiệu tính năng âm thanh đồng bộ, và nó đã gây ra rất nhiều sự chú ý trong làn sóng công nghệ AI tạo sinh mới nhất này. Sora của OpenAI là cô gái mới đến thị trấn, gặp gỡ sự nhiệt tình và ngưỡng mộ, với một thứ gì đó mới để cung cấp. Giống như trong bộ phim Mean Girls, cả hai đều tiết lộ những sự thật xấu xí nhưng cơ bản về nơi mà xã hội chúng ta đang hướng tới khi “AI slop” (nội dung rác do AI tạo ra) tràn ngập trên các trang mạng xã hội của chúng ta.
Trong giai đoạn thử nghiệm ban đầu của tôi, Sora 2 và Veo 3 dường như ngang sức nhau. Chúng có nhiều khả năng và tính năng giống nhau. Về cơ bản, mỗi công cụ đều tạo ra các clip video AI thực tế có âm thanh. Một công cụ miễn phí trong thời gian giới hạn; một công cụ bắt đầu với giá $20 một tháng. Nhưng công cụ miễn phí lại chậm hơn so với mô hình đứng sau bức tường trả phí.
Tôi đã sử dụng và đánh giá rất nhiều công cụ tạo hình ảnh và video AI, nhưng việc cố gắng chọn ra người chiến thắng thật sự khó khăn — đặc biệt là trong bối cảnh những lo ngại đáng kể rằng sự trỗi dậy của công nghệ video AI đang dẫn đến deepfakes dễ tiếp cận hơn và khiến việc phân biệt giữa đâu là thực và đâu là AI trở nên khó khăn hơn.
Sau khi tạo ra một loạt video AI, một người chiến thắng cuối cùng đã xuất hiện. Một dịch vụ chỉ tốt hơn một chút. Các video trôi chảy mượt mà hơn và có âm thanh sạch hơn, phù hợp hơn. Cả hai đều xuất sắc trong những gì chúng tuyên bố làm được. Nhưng chỉ có thể có một “Queen Bee” (Nữ hoàng) tại trường Trung học North Shore. Dưới đây là kết quả thử nghiệm của chúng tôi về các mô hình video AI mới là Sora 2 và Veo 3.
Tổng quan về Sora
Sora là công cụ tạo video của OpenAI. Bạn có thể biết đến OpenAI là công ty tạo ra chatbot cực kỳ phổ biến ChatGPT. Sora cũng là tên của ứng dụng mạng xã hội kiểu TikTok của OpenAI. Cho mục đích đánh giá này, chúng tôi đang so sánh mô hình Sora 2, không phải ứng dụng mạng xã hội, với mô hình Veo 3 của Google. Ứng dụng mạng xã hội AI là độc đáo, nhưng có nhiều lo ngại xoay quanh khả năng nhanh chóng và dễ dàng tạo ra deepfakes và thông tin sai lệch của nó.
Sora ra mắt vào Tháng 12 năm 2024, và mô hình Sora 2 mới mang lại những nâng cấp rất cần thiết. Video Sora có thể dài từ 10 đến 15 giây, có âm thanh (với Sora 2) và độ phân giải lên đến 1080p. Bạn có thể sử dụng Sora miễn phí và không cần mã mời nữa. Bạn có thể mở khóa nhiều tính năng hơn với các gói trả phí của ChatGPT.
Để nhận dạng một clip do AI tạo ra, video Sora có siêu dữ liệu C2PA và một hình mờ nổi bật, hình đám mây, nảy lên. Chính sách quyền riêng tư của OpenAI cho phép bạn tắt tính năng đào tạo AI trên nội dung của mình, và cách tiếp cận của họ đối với việc tạo hình ảnh và video phác thảo cách họ cố gắng ngăn chặn việc tạo ra nội dung có hại và không phù hợp.
Tổng quan về Veo 3
Phải đến thế hệ thứ ba của Veo thì công cụ tạo video AI của Google mới thực sự phát triển. Kinh nghiệm thất vọng của tôi với Veo 2 đã nhanh chóng được khắc phục. Tính năng quan trọng nhất mà Veo 3 giới thiệu cũng là lần đầu tiên đối với một công ty công nghệ lớn hoặc AI: Video AI với âm thanh được tạo ra bởi AI và đồng bộ hóa. Điều này có vẻ không phải là vấn đề lớn bây giờ, nhưng nó là một bước đột phá lớn khi Google phát hành mô hình mới tại hội nghị I/O năm 2025.
Video Veo 3 dài 8 giây ở độ phân giải 720p trong ứng dụng Gemini (mặc dù các thông số kỹ thuật đó có thể được thay đổi trong các công cụ AI khác của Google, như chương trình làm phim AI của họ, Flow). Video Veo 3 có hình mờ “Veo” hiển thị ở góc dưới bên phải (trừ khi bạn muốn trả $250 cho gói Ultra để loại bỏ nó) và hình mờ SynthID vô hình được nhúng vào siêu dữ liệu.
Chính sách quyền riêng tư của Gemini thuộc Google nói rằng công ty có thể sử dụng thông tin cá nhân của bạn để cải thiện công nghệ của họ, đó là lý do tại sao họ khuyến nghị không chia sẻ thông tin nhạy cảm hoặc bí mật với nó. Chính sách sử dụng nghiêm cấm AI tạo sinh của Google tìm cách ngăn chặn việc tạo ra nội dung lạm dụng và bất hợp pháp.
Chất lượng Video và Âm thanh
Sora cho phép bạn tạo video dài hơn (10 đến 15 giây, 25 giây cho người dùng Pro) và chọn giữa hướng dọc (portrait) và ngang (landscape) trước khi tạo. Video Veo luôn dài 8 giây và ở định dạng ngang (landscape) — bạn không thể thay đổi điều này, và việc cố gắng thực hiện điều đó trong câu lệnh (prompt) có khả năng sẽ không thành công. (Tuy nhiên, các nhà phát triển có thể điều chỉnh tỷ lệ khung hình của Veo).
Ngoài các thông số kỹ thuật của mỗi video, điều làm nên sự khác biệt của một video AI tốt là một phép thử đơn giản: Liệu nó có tuân theo các định luật vật lý của hành tinh chúng ta không? Khi tôi yêu cầu mỗi dịch vụ tạo ra một nữ diễn viên múa ba lê đang nhảy, tôi muốn cô ấy lướt đi nhẹ nhàng trên sàn nhà — chứ không phải lơ lửng cách sàn 3 feet, chẳng hạn.
Sora và Veo lại một lần nữa ngang tài ngang sức ở điểm này. Vũ công ba lê của Sora trông giống thật hơn nhiều, nhưng sinh vật ngoài hành tinh của Veo lại không mọc thêm cánh tay và chân trong clip đấu vũ đạo. Đây là một ví dụ tuyệt vời cho thấy ngay cả những chương trình được cho là tốt nhất cũng sẽ mắc lỗi hoặc ảo giác (hallucinate) ở một thời điểm nào đó.
Cả hai chương trình đều đồng bộ hóa âm thanh tốt, mặc dù tôi hài lòng hơn với âm thanh tổng thể của Sora. Nó thường thêm nhạc hoặc tiếng ồn trắng/tiếng động nền phù hợp mà không cần tôi yêu cầu. Ví dụ, Sora đã thêm nhạc cổ điển cho vũ công ba lê của tôi và một cuộc trò chuyện giữa một nhân viên pha chế và một khách hàng đang lấy cà phê latte ở ngoài khung hình trong video quán cà phê của tôi. Âm thanh của Veo tốt, và nó là công cụ đầu tiên bổ sung âm thanh vào khả năng của mình, nhưng hiện tại tôi phải dành sự ưu ái cho Sora vì đã đi xa hơn một bước.
Tuân thủ Lời nhắc (Prompt Adherence) và Tốc độ
Sora và Veo 3 đều có khả năng tuân thủ lời nhắc tốt, nghĩa là chúng tạo ra video mà tôi yêu cầu. Một trong những cách tốt nhất để kiểm tra khả năng tuân thủ lời nhắc là yêu cầu nó bao gồm văn bản hoặc âm thanh cụ thể. Veo 3 đã làm tốt hơn trong việc tạo ra văn bản rõ ràng, như bạn có thể thấy trong các video về “Katelyn’s Cafe.” Tên của tôi từng bị viết sai tệ hơn, nhưng tôi đã thất vọng với sự ảo giác của Sora ở điểm đó.

Một cách khác để đo lường khả năng tuân thủ lời nhắc là sử dụng các lời nhắc phức tạp hơn. Lời nhắc của bạn không cần phải quá cầu kỳ, nhưng các mô hình AI trước đây đã gặp khó khăn với các đặc điểm phủ định hoặc loại trừ — những thứ bạn không muốn nó đưa vào. Tôi rất hài lòng khi cả hai đều xuất sắc trong việc thực hiện các chỉ dẫn phủ định, chẳng hạn như “không thay đổi họa tiết hoa trên đĩa.” Các nâng cấp từ các mô hình trước đây có lẽ là lý do cho lợi ích này.
Khả năng tuân thủ lời nhắc là quan trọng vì không chương trình nào có cách tốt để chỉnh sửa video của bạn sau khi chúng đã được tạo. Nút “chỉnh sửa video” của Sora trong thư mục nháp của bạn chỉ cho phép bạn viết lại lời nhắc và tạo lại. Các yêu cầu tiếp theo gửi cho Gemini không phải lúc nào cũng hoạt động. Điều này gây khó chịu, nhưng tôi hy vọng cả hai công ty sẽ tập trung vào vấn đề này trong tương lai.
Veo tạo video nhanh hơn, dù chỉ khoảng một phút. Nhưng cả hai đều có tốc độ tạo video trung bình từ hai đến năm phút.
Giá cả
Trong khi Sora 2 miễn phí trong thời gian giới hạn sau khi ra mắt, điều này không đảm bảo rằng nó sẽ kéo dài mãi mãi. Bạn sẽ cần mã mời để sử dụng Sora, thông qua ứng dụng xã hội hoặc web.
Bạn không thể sử dụng Veo 3 miễn phí; cách rẻ nhất để sử dụng nó là với gói AI Pro của Google với giá $20 mỗi tháng. Veo 3 cũng có sẵn thông qua Vertex AI, API Gemini và Flow. Nếu bạn không biết các công cụ tập trung vào nhà phát triển này là gì, có khả năng bạn không có quyền truy cập vào chúng.
Bạn có thể cần nâng cấp gói Google của mình nếu bạn cần tạo nhiều video; giới hạn tạo video tăng lên theo mỗi cấp. Tôi đã đạt đến giới hạn của mình sau năm video, khiến tôi bị khóa trong 4 giờ. Tôi khuyên bạn nên bắt đầu với gói thấp nhất có thể và nâng cấp sau khi bạn đã thử nghiệm công cụ và hiểu nó sẽ phù hợp với quy trình làm việc của bạn như thế nào.
Sora rõ ràng là người chiến thắng về mặt giá cả, nhưng OpenAI có khả năng sẽ yêu cầu chúng ta trả tiền để sử dụng mô hình mới này cuối cùng. Ngay cả khi đó, gói ChatGPT Plus của OpenAI cũng là $20, bằng với gói AI thấp nhất của Google. Từ đó, nó sẽ phụ thuộc vào cách giới hạn tạo video khác nhau. OpenAI đã không trả lời yêu cầu bình luận về việc Sora sẽ miễn phí trong bao lâu tính đến thời điểm xuất bản.
Nhận định: Trong một thực tại đang suy thoái, Sora có lợi thế mong manh
Tôi đã đánh giá các phần mềm sáng tạo AI tạo sinh gần như kể từ khi chúng xuất hiện. Nhưng có điều gì đó đặc biệt kinh hoàng khi xem Veo 3 và Sora chạy song song và cho ra các video siêu thực trong vòng chưa đầy 5 phút.
Video AI không còn là một sự mê hoặc thích hợp nữa mà là một phần của thực tại mới của chúng ta. Tôi là một chuyên gia AI, nhưng tôi sẽ không thể biết liệu một số video này có phải do AI tạo ra hay không nếu không có hình mờ. Đó là một cảm giác đáng lo ngại, ít nhất là phải nói như vậy, và việc thử nghiệm Sora và Veo đã nhắc nhở tôi tại sao việc gắn nhãn nội dung AI lại quan trọng đến thế.
Sora và Veo là những chương trình ấn tượng, có khả năng đáp ứng nhu cầu của bạn. Nếu bạn đã trả tiền cho ChatGPT hoặc Gemini, thì không cần phải chuyển sang dịch vụ kia. Công cụ tạo video AI tương ứng của mỗi công ty sẽ hoạt động tốt cho phần lớn các dự án.
Tôi phải dành lợi thế cuối cùng cho Sora. Các video nó tạo ra có chuyển động mượt mà hơn, âm thanh phù hợp và ít ảo giác hơn. Các video tạo ra có thể chậm hơn Gemini vài giây, nhưng kết quả đó sẽ đáng để chờ đợi. Hình mờ nảy của nó, không giống như hình mờ tĩnh của Veo, khiến tôi cảm thấy đỡ lo lắng hơn một chút về khả năng tạo ra deepfakes thực tế miễn phí. Từ góc độ kỹ thuật, Sora là nhà vô địch hiện tại.
Tôi không thể bỏ qua một sự thật rằng cả hai mô hình video AI này đều khiến việc nhầm lẫn giữa thực tế và AI trở nên dễ dàng hơn, và đều gặp khó khăn trong việc ngăn chặn việc tạo ra nội dung lạm dụng. Tính năng chính của Sora trong ứng dụng mạng xã hội của nó là khả năng sử dụng hình ảnh của bạn và những người khác trong hầu hết mọi loại video AI. Những người nổi tiếng như diễn viên Bryan Cranston của Breaking Bad, các cơ quan tài năng và công đoàn lao động đã thúc đẩy OpenAI đưa ra các hàng rào bảo vệ nghiêm ngặt hơn cho Sora, điều mà họ đã thực hiện. Nhưng những hàng rào bảo vệ đó không hoàn hảo. Mối quan ngại của Cranston được đưa ra vài ngày sau khi OpenAI phải tạm thời tạm dừng việc tạo ra hình ảnh của Martin Luther King Jr., theo yêu cầu của quỹ quản lý di sản của ông, sau khi những deepfakes kỳ lạ và phân biệt chủng tộc về nhà lãnh đạo dân quyền này tràn ngập ứng dụng. Google cũng đã phải vật lộn với các vấn đề tương tự với Veo 3 và các mô hình hình ảnh AI của họ.
Ngành công nghiệp AI đang phải cố gắng tạo ra và thực hiện các chính sách và hàng rào bảo vệ kỹ thuật hiệu quả để bảo vệ chủ sở hữu bản quyền, người nổi tiếng và nhân vật công chúng — và tất cả chúng ta, những người xem những video này trực tuyến. Hai gã khổng lồ này không miễn nhiễm với những thách thức đó.
Cũng cần lưu ý rằng video AI là một lĩnh vực phát triển nhanh chóng. Một bản cập nhật mới cho một trong hai mô hình có thể khiến tính hữu dụng của nó tăng vọt hoặc giảm mạnh. Việc Sora cho phép truy cập miễn phí trong thời gian giới hạn là một lợi thế hiện tại, nhưng Veo có thể trở thành lựa chọn tốt hơn về tổng thể nếu OpenAI đưa Sora vào bức tường trả phí với các gói đăng ký đắt hơn.