Google Nano Banana đối đầu GPT-4o Image 1: Công cụ tạo hình ảnh AI nào vượt trội hơn?

Đăng bởi

11/09/2025

Vào 11/09/2025

Vào ngày 26 tháng 8 năm 2025, Nano Banana (tên chính thức là Gemini 2.5 Flash Image) đã ra mắt và nhanh chóng nhận được sự chú ý đáng kể từ công chúng và các nhà sáng tạo trên toàn thế giới. Tuy nhiên, ở một khía cạnh khác, GPT-4o Image 1 vẫn là công cụ tạo hình ảnh AI được sử dụng rộng rãi nhất trong số những người dùng phổ thông. Câu hỏi đặt ra là – hai công cụ tạo hình ảnh này thực sự so sánh với nhau như thế nào?

Xét về các con số, Nano Banana chiếm ưu thế ở một số chỉ số với điểm Elo ấn tượng là 1.360 về mức độ ưa chuộng tổng thể, vượt trội hơn đáng kể so với GPT-4o với 1.170. Khoảng cách này cũng thể hiện rõ trong việc tạo nhân vật (1.170 so với 1.060) và các tác vụ sáng tạo (1.120 so với 1.060), cho thấy mô hình của Gemini có những lợi thế kỹ thuật tương đối đáng kể trên nhiều danh mục.

Nhưng điểm chuẩn ấn tượng không phải lúc nào cũng chuyển thành hiệu suất thực tế quan trọng đối với người dùng. Để có một cái nhìn rõ ràng hơn về công cụ tạo hình ảnh AI nào thực sự xứng đáng với ngôi vương, chúng ta sẽ so sánh các hình ảnh được tạo ra song song bằng cách sử dụng các câu lệnh giống hệt nhau trên nhiều phong cách và mức độ phức tạp khác nhau. Đôi khi, “người chiến thắng” trên lý thuyết lại không thắng ở những nơi quan trọng nhất – trong những hình ảnh mà bạn thực sự tạo ra.

Mục lục

So sánh thông số kỹ thuật

Dưới đây là bảng phân tích chi tiết về hiệu suất của Nano Banana và GPT-4o Image 1 trên các chỉ số quan trọng, dựa trên dữ liệu thử nghiệm tiêu chuẩn và thực tế.

Các Chỉ số Hiệu suất:

Mức độ Ưa chuộng Tổng thể (LMArena) – Nano Banana: 1.360 – GPT-4o: 1.170 – Chỉ số này đến từ bảng xếp hạng chính thức của LMArena, đo lường sự hài lòng chung của người dùng khi so sánh các kết quả đầu ra song song trong các bài kiểm tra mù.
Tạo Nhân vật – Nano Banana: 1.170 – GPT-4o: 1.060 – Đánh giá khả năng của mỗi mô hình trong việc tạo ra khuôn mặt người chân thực, duy trì sự nhất quán của khuôn mặt và xử lý các câu lệnh tập trung vào nhân vật.
Các Tác vụ Sáng tạo – Nano Banana: 1.120 – GPT-4o: 1.060 – Đo lường hiệu suất trên các câu lệnh nghệ thuật và giàu trí tưởng tượng, đòi hỏi sự diễn giải sáng tạo hơn là tái tạo theo nghĩa đen.
Đồ họa Thông tin (Infographics) – Nano Banana: 1.070 – GPT-4o: 1.030 – Kiểm tra khả năng tạo các biểu đồ dữ liệu, sơ đồ và đồ họa chứa nhiều thông tin một cách dễ đọc.
Đối tượng/Môi trường – Nano Banana: 1.070 – GPT-4o: 1.030 – Đánh giá độ chính xác trong việc tạo/duy trì các đối tượng, cảnh quan và môi trường cụ thể với các mối quan hệ không gian phù hợp.
Tạo kiểu (Stylization) – Nano Banana: 1.070 – GPT-4o: 1.190 – So sánh khả năng của mỗi mô hình trong việc thích ứng với các phong cách nghệ thuật khác nhau, từ siêu thực đến anime và nghệ thuật trừu tượng.

Chỉ số LMArena đến từ bảng xếp hạng chính thức của họ, trong khi các chỉ số và điểm số còn lại đến từ thử nghiệm nội bộ do Google thực hiện.

Tốc độ tạo ảnh (Thử nghiệm thực tế) – Nano Banana thường tạo ra hình ảnh trong vòng 10-20 giây, trong khi GPT-4o mất từ 20-120 giây tùy thuộc vào tải máy chủ và nhu cầu sử dụng mô hình. Dữ liệu này đến từ các thử nghiệm của chúng tôi trong các khoảng thời gian và điều kiện sử dụng khác nhau.

Phân tích dữ liệu

Trên lý thuyết, Nano Banana thể hiện hiệu suất vượt trội trên hầu hết các chỉ số, từ bảng xếp hạng cộng đồng của LMArena đến tốc độ tạo hình ảnh thực tế. Mô hình này vượt trội hơn GPT-4o Image 1 về mức độ ưa chuộng tổng thể với 190 điểm Elo và cho thấy những lợi thế mạnh mẽ trong việc tạo nhân vật và các tác vụ sáng tạo.

Lĩnh vực duy nhất mà GPT-4o Image 1 có ưu thế là tạo kiểu (stylization), với điểm số 1.190 so với 1.070 của Nano Banana. Kết hợp với thời gian tạo ảnh nhanh hơn đáng kể, những điểm chuẩn này cho thấy Nano Banana là người chiến thắng rõ ràng về mặt kỹ thuật. Nhưng các con số chỉ là một phần của câu chuyện – hãy cùng xem xét những hình ảnh thực tế mà cả hai mô hình tạo ra để xem các chỉ số này thể hiện như thế nào trong kết quả thực tế.

So sánh Hình ảnh Song song

Ví dụ 1: Kiểm tra biến đổi nền

Chúng tôi bắt đầu với một hình ảnh một vận động viên thể hình đang tạo dáng trên boong tàu vào ban ngày. Mục tiêu là biến đổi ánh sáng và không khí thành cảnh hoàng hôn trong khi giữ nguyên cấu trúc nền và duy trì hình bóng nhân vật làm trọng tâm. Thử nghiệm này đánh giá khả năng của mỗi trình tạo hình ảnh AI trong việc thực hiện các chỉnh sửa nền thực tế đồng thời bảo toàn chi tiết môi trường và tính chân thực của bức ảnh.

Câu lệnh đã sử dụng: “Thay đổi nền của hình ảnh này thành cảnh hoàng hôn. Giữ bối cảnh giống hệt, chân thực và tự nhiên. Giữ hình bóng nhân vật làm trọng tâm của hình ảnh.”

Dưới đây là bản dịch của đoạn văn bản bạn đã cung cấp:

Phân tích Kết quả: Nano Banana thể hiện hiệu suất vượt trội, duy trì gần như toàn bộ chi tiết nền với độ chính xác cao trong khi tích hợp liền mạch ánh sáng hoàng hôn ấm áp. Sự biến đổi này mang lại cảm giác tự nhiên và bảo toàn được chất lượng chân thực của bức ảnh gốc.

GPT-4o Image 1 cũng tạo ra một kết quả khá tốt nhưng lại kém hơn trong việc bảo toàn chi tiết nền – một số chi tiết cấu trúc bị mất hoặc bị thay đổi. Ngoài ra, nó áp dụng phong cách nặng nề, làm mất đi chất lượng thô ban đầu của hình ảnh, tạo cảm giác bóng bẩy hơn nhưng kém chân thực. Sự thay đổi về phong cách này có thể được xem là ưu điểm hoặc nhược điểm tùy thuộc vào mục đích sử dụng.

Ví dụ 2: Tạo kiểu chân dung

Đối với thử nghiệm này, chúng tôi đã sử dụng một bức ảnh chân dung thông thường và cố gắng biến đổi nó thành một bức ảnh đen trắng có độ tương phản cao, chuyên nghiệp, đồng thời thêm các yếu tố phức tạp như giọt nước trên mặt chủ thể và thay đổi biểu cảm của cô ấy để trông kiêu hãnh hơn. Thử thách này kiểm tra khả năng xử lý biến đổi cảnh của mỗi AI trong khi vẫn duy trì các đặc điểm khuôn mặt và thêm các yếu tố nhiếp ảnh mới.

Câu lệnh đã sử dụng: “Tạo một bức ảnh chân dung cận cảnh 4K đen trắng có độ tương phản cao về khuôn mặt tôi với các đặc điểm không thay đổi. Tập trung vào trán, phong cách ống kính 35mm. Biểu cảm kiêu hãnh, tóc ướt, giọt nước, góc nghiêng sắc nét, nền bóng đen, chỉ thấy khuôn mặt.”

Phân tích Kết quả: Nano Banana thể hiện khả năng bảo toàn đặc điểm khuôn mặt vượt trội, duy trì độ tương đồng chính xác hơn với chủ thể gốc trong khi tạo ra kết quả chân thực đáng tin cậy. Hiệu ứng giọt nước và tóc ướt trông tự nhiên và hòa hợp tốt vào tổng thể bố cục. Tuy nhiên, độ phân giải đầu ra mềm mại và ít sắc nét hơn so với đối thủ.

GPT-4o Image 1 mang lại chất lượng hình ảnh đặc biệt với chi tiết sắc nét và độ rõ nét chuyên nghiệp, rất phù hợp cho các ứng dụng thương mại. Các đặc điểm khuôn mặt được xử lý một cách thành thạo, mặc dù độ chính xác hơi kém hơn so với Nano Banana. Vấn đề cố hữu vẫn còn – xu hướng tạo kiểu mạnh mẽ của GPT-4o, tạo ra một cảm giác ảnh bóng bẩy nhưng kém chân thực, có thể không phù hợp với những người dùng tìm kiếm kết quả chân thực.

Ví dụ 3: Biến đổi từ chuyên nghiệp sang bình thường

Thử nghiệm này liên quan đến việc chuyển đổi một bức chân dung chuyên nghiệp chất lượng cao thành một bức ảnh selfie chụp bằng iPhone trông chân thực, hoàn chỉnh với bối cảnh kỳ nghỉ cụ thể là ban công khách sạn nhìn ra biển Địa Trung Hải. Thử thách là giảm chất lượng hình ảnh một cách phù hợp trong khi tạo ra một bức ảnh kỳ nghỉ bình thường đáng tin cậy với các chi tiết môi trường chính xác.

Câu lệnh đã sử dụng: “Biến bức chân dung này thành một bức ảnh selfie thông thường chụp bằng iPhone của người phụ nữ đứng trên ban công phòng khách sạn nhìn ra biển, một bãi biển phía trước khách sạn và một hòn đảo nhỏ Địa Trung Hải ở phía sau bên phải.”

Phân tích Kết quả: Nano Banana gặp phải một số khó khăn kỹ thuật trong quá trình chuyển đổi này, đáng chú ý nhất là vị trí bàn tay gượng gạo cho thấy người phụ nữ đang cầm điện thoại đồng thời duỗi tay ra một cách không tự nhiên. Ngoài ra, chất lượng hình ảnh không tái tạo được một cách thuyết phục vẻ thô, không trau chuốt của những bức ảnh iPhone đời thường – nó bị phơi sáng quá mức và giữ lại quá nhiều vẻ chuyên nghiệp, không phù hợp với thẩm mỹ mong muốn.

GPT-4o Image 1 mang lại hiệu suất mạnh mẽ đáng ngạc nhiên ở đây, chụp thành công cảm giác chân thực của một bức ảnh selfie iPhone đời thường với chất lượng hình ảnh và độ nén phù hợp. Bố cục phản ánh chính xác các yêu cầu của câu lệnh và các yếu tố nền được tích hợp tốt. Mặc dù Nano Banana vẫn duy trì độ chính xác của các đặc điểm khuôn mặt tốt hơn, nhưng việc thực hiện tổng thể của GPT-4o đạt được thẩm mỹ nhiếp ảnh đời thường mong muốn tốt hơn.

Ví dụ 4: Ảnh sản phẩm

Thử nghiệm này liên quan đến việc biến đổi một bức ảnh sản phẩm cơ bản với nền trắng trơn thành một hình ảnh tiếp thị chất lượng studio chuyên nghiệp. Chúng tôi sử dụng một chai thực phẩm bổ sung làm chủ thể và nhằm mục đích tái tạo tính thẩm mỹ cao cấp của nhiếp ảnh sản phẩm chuyên nghiệp đồng thời thêm các hiệu ứng hình ảnh tùy chỉnh phù hợp với thương hiệu của sản phẩm.

Câu lệnh đã sử dụng: “Lấy ảnh sản phẩm của thực phẩm bổ sung ‘Brain Energy’ (hiện đang trên nền trắng trơn) và đặt nó vào một bối cảnh ảnh sản phẩm chuyên nghiệp cấp studio. Phong cách phải phù hợp với ảnh bột protein đã tham chiếu, bao gồm ánh sáng chất lượng cao với thực phẩm bổ sung là tiêu điểm sắc nét. Thay vì hiệu ứng tia nước, hãy tạo hiệu ứng bão sét màu vàng, hoạt hình phía sau chai. Giữ nguyên nhãn và thiết kế của thực phẩm bổ sung ‘Brain Energy’, với sự nhấn mạnh rõ ràng vào sản phẩm làm trung tâm.”

Phân tích Kết quả: Nano Banana mang lại kết quả tốt hơn, tạo ra thành công hiệu ứng sét như mong muốn, phù hợp với câu lệnh, trong khi vẫn duy trì độ chính xác của nhãn và chữ gần như hoàn hảo. Thực phẩm bổ sung vẫn là tiêu điểm rõ ràng với ánh sáng studio phù hợp. Tuy nhiên, chất lượng hình ảnh khá kém và mô hình đã thêm một bề mặt bóng loáng bên dưới sản phẩm mà không được yêu cầu.

GPT-4o Image 1 tạo ra kết quả yếu hơn đáng kể với các vấn đề cấu trúc lớn – tỷ lệ chai bị méo mó, các yếu tố chữ bị biến dạng và hình ảnh tổng thể thiếu tính chân thực. Mặc dù hiệu ứng nền sét có thể chấp nhận được, nhưng việc thể hiện sản phẩm cơ bản đã thất bại hoàn toàn. Nano Banana rõ ràng giành chiến thắng trong lần so sánh này, mặc dù có những lỗi nhỏ.

Kết luận

Nano Banana phần nào đã đáp ứng được sự kỳ vọng, mặc dù nó còn xa mới đạt được sự hoàn hảo. Mô hình này thể hiện một bước nâng cấp gia tăng vững chắc nữa cho khả năng tạo hình ảnh AI hiện tại, đặc biệt là cải thiện việc duy trì tính chân thực trong hầu hết các kịch bản. Mặc dù nó đã vấp phải khó khăn với việc biến đổi ảnh selfie iPhone, nhưng nó đã liên tục vượt trội hơn GPT-4o trong việc bảo toàn các đặc điểm khuôn mặt, chi tiết nền và tính chân thực của bức ảnh.

Thời gian tạo ảnh nhanh hơn đáng kể (10-20 giây so với 20-120 giây) khiến nó trở nên thiết thực cho cả chỉnh sửa ảnh cá nhân và các ứng dụng kinh doanh, nơi bạn cần các thử nghiệm nhanh, nhiều lần cho hình ảnh thương hiệu.

GPT-4o Image 1 vẫn là một công cụ tạo ảnh có năng lực, thỉnh thoảng gây bất ngờ – việc xử lý việc biến đổi ảnh selfie bình thường của nó thực sự rất ấn tượng. Tuy nhiên, nó mắc phải lỗi tạo kiểu quá mức một cách nhất quán, làm mất đi các phẩm chất tự nhiên của bức ảnh, và nó hoàn toàn trật lất trong các tác vụ phức tạp như nhiếp ảnh sản phẩm. Bạn vẫn có thể tin tưởng vào nó cho một số loại hình ảnh nhất định, nhưng bạn sẽ cần phải lưu ý đến xu hướng làm cho mọi thứ trở nên hoàn hảo một cách giả tạo của nó.

Thực tế là cả hai mô hình đều có những điểm mạnh và điểm yếu khác nhau, khiến chúng phù hợp hơn cho các trường hợp sử dụng khác nhau. Thay vì tuyên bố một người chiến thắng chung cuộc, cách tốt nhất của bạn là thử nghiệm cả hai với phong cách và yêu cầu cụ thể của bạn. Hãy chọn một vài bức ảnh bạn muốn chỉnh sửa và xem mô hình nào mang lại kết quả thực sự phù hợp với nhu cầu của bạn.

Blog

Google Nano Banana đối đầu GPT-4o Image 1: Công cụ tạo hình ảnh AI nào vượt trội hơn?

So sánh thông số kỹ thuật

Phân tích dữ liệu