Thử nghiệm ChatGPT, Gemini và Claude trong “mê cung đa phương thức”

Đăng bởi

04/12/2025

Vào 04/12/2025

Mọi mô hình AI mới đều khẳng định rằng nó là mô hình AI vĩ đại nhất từ trước đến nay theo mọi cách mà bạn có thể tưởng tượng. Rõ ràng, điều đó không thể đúng, nhưng mức độ thực hiện các nhiệm vụ và vai trò khác nhau của chúng không phải lúc nào cũng rõ ràng, và ngay cả các bài kiểm tra định lượng, được cho là trung lập, có thể không truyền tải chính xác cảm giác của chúng đối với người dùng thông thường.

Một ví dụ cụ thể là giải mã đa phương thức – nhìn vào một hình ảnh và giải mã những gì có trong đó và ý nghĩa của nó. Đó là điều mà con người làm ngay lập tức và theo bản năng, nhưng các mô hình AI thì mới hơn với vai trò này. Việc khiến một mô hình AI diễn giải chính xác một hình ảnh hỗn loạn có thể quan trọng hơn bạn nghĩ lúc đầu. Nếu một mô hình AI có thể xác định các đối tượng, nó có thể giúp bạn lập danh mục tài sản để bảo hiểm, xác định các mối nguy hiểm trong nhà, hoặc thậm chí giải mã bản đồ giao thông. Một mô hình AI có thể hiểu được thông tin hình ảnh phức tạp, nhiều lớp mà không tự thêm chi tiết là cực kỳ hữu ích.

Vì vậy, tôi quyết định cung cấp một tập hợp ngẫu nhiên các hình ảnh cho ba mô hình chatbot AI phổ biến nhất – ChatGPT 5.1, Gemini 3 Pro và Claude Opus 4.5 – để xem chúng hoạt động như thế nào khi nhìn qua một loạt các bài kiểm tra được kiểm soát về mật độ nghệ thuật, nhiễu thị giác và sự hỗn loạn hàng ngày.

Tất cả các hình ảnh tôi sử dụng đều cố ý gây choáng ngợp theo những cách khác nhau: một cảnh Quảng trường Thời đại (Times Square) ngập tràn ánh đèn neon với vô số bảng hiệu và sự chuyển động; bức họa Phán xét cuối cùng (Last Judgment) của Michelangelo, có lẽ là bức tranh dày đặc chi tiết nhất còn tồn tại; và một bức ảnh chụp một căn phòng bừa bộn với vô số dây cáp, sách, bìa hồ sơ và thùng chứa. Mô tả hình ảnh một cách mạch lạc là mức cơ bản, nhưng việc chọn ra các mối quan hệ có ý nghĩa mới là nơi các hệ thống này thực sự tạo nên sự khác biệt.

Mục lục

Quảng trường Thời đại

Quảng trường Thời đại là một sự quá tải giác quan. Nếu một mô hình đa phương thức có thể phân tích đúng Quảng trường Thời đại, nó có thể phân tích gần như bất cứ nơi nào.

ChatGPT 5.1 chào đón Quảng trường Thời đại một cách có cấu trúc, chia nó thành các phần khác nhau. Nó xác định các biển báo lớn của Wicked, Phantom, Jersey Boys, Aldo, và Express. Nó nhìn thấy xe bán xúc xích, taxi vàng, xe buýt, những người băng qua đường, và các vạch kẻ đường mà không cường điệu hóa bất cứ điều gì. Nó trích dẫn các đoạn văn bản hiển thị trên các biển báo, bao gồm các cụm từ nhỏ hơn như “Tonight belongs to…” dưới Bóng ma trong nhà hát Opera (Phantom of the Opera). ChatGPT 5.1 gần như “nhiều chuyện”, nói rằng, “Cảnh này trông giống như năng lượng buổi tối đỉnh điểm, mọi thứ đều đang cạnh tranh để thu hút sự chú ý.”

Gemini 3 Pro tiếp cận hình ảnh Quảng trường Thời đại như một nhà phân tích pháp y. Nó không chỉ liệt kê những gì có mặt; nó mô tả các mối quan hệ không gian, góc độ và thành phần màu sắc. Ví dụ, nó lưu ý cách ánh sáng xanh từ biển hiệu Wicked đang “phản chiếu trên các bề mặt tòa nhà liền kề,” một điều mà không mô hình nào khác đề cập đến. Nó gọi kiểu vạch sang đường là “các đường chéo rộng, xen kẽ nhau cho thấy lưu lượng người đi bộ lớn” và xác định xe buýt là phương tiện của MTA mà không cần thêm thắt.

Khả năng nhận dạng văn bản của nó rất xuất sắc. Nó không đọc sai các biển báo bị khuất và tránh sự cám dỗ muốn đoán. Khi một thứ gì đó không thể đọc được, nó chỉ đơn giản nói, “Văn bản có nhưng không thể đọc được do góc chụp và độ phân giải.” Sự kiềm chế này chính xác là điều bạn mong muốn ở một mô hình đa phương thức.

Claude là mô hình có nhiều khả năng biến Quảng trường Thời đại thành tác phẩm văn học nhất. Nó mô tả cảnh tượng là “một bức ảnh đêm rực rỡ của Quảng trường Thời đại ở Thành phố New York, nắm bắt được năng lượng và sự ngoạn mục mang tính biểu tượng của khu vực này.” Khi chỉ mô tả đơn thuần, Claude rất sắc sảo. Nó xác định các biển báo lớn và màu sắc của chúng, đồng thời nắm bắt đúng nhiều chi tiết hình ảnh, bao gồm bóng, phản chiếu và mật độ người đi bộ.

Tranh Phục hưng

Bức họa Phán xét cuối cùng (Last Judgment) của Michelangelo tương đương với việc đưa cho một mô hình một trò chơi xếp hình gồm hàng nghìn mảnh. Có hàng chục nhân vật, các tư thế phức tạp, chi tiết chồng chéo, những khoảnh khắc biểu tượng tinh tế, với một lượng lớn mật độ tự sự. Hình ảnh này kiểm tra khả năng nhận dạng hình ảnh chi tiết, lý luận không gian và nhận biết ý định nghệ thuật của mô hình.

ChatGPT 5.1 tiếp cận bức tranh với sự rõ ràng mang tính học thuật. Nó xác định “một nhân vật Chúa Kitô trung tâm được bao quanh bởi một khối lượng xoáy cuộn của các hình dạng con người,” lưu ý sự phân chia giữa các nhân vật được ban phước và bị đày đọa, và mô tả các nhóm riêng biệt như thiên thần thổi kèn, các thi thể phục sinh trỗi dậy từ lòng đất, và quỷ dữ kéo linh hồn xuống. Quan trọng là, nó không bịa đặt các danh tính cụ thể. Nó đề cập đến “các nhân vật ở góc dưới bên trái đang được nâng lên từ mộ” hoặc “các thiên thần mang biểu tượng của Cuộc Khổ Nạn,” tránh cám dỗ tự tin gọi tên các nhân vật một cách sai lầm.

Gemini 3 Pro cung cấp cho tôi bản phân tích gần giống nhất với một nhà sử học nghệ thuật thực sự. Nó không chỉ xác định các nhóm nhân vật; nó xác định hình học cấu trúc: “một bố cục hướng tâm tập trung vào một nhân vật Chúa Kitô năng động với các cơ thể xung quanh được sắp xếp theo các cung tròn đồng tâm.” Nó lưu ý hướng chuyển động, sự căng cơ của các nhân vật theo phong cách Michelangelo, và thậm chí cả sự khác biệt tinh tế trong bóng mờ của các đám mây khác nhau.

Nó đưa ra các chi tiết cụ thể có cơ sở, chẳng hạn như “Góc phần tư phía dưới bên phải chứa các nhân vật bị quỷ kéo về phía một khu vực ranh giới tối hơn,” và nó kiềm chế việc đoán danh tính trừ khi chúng là những nhân vật kinh điển và được công nhận rộng rãi. Nó đọc được các biểu cảm cảm xúc của các nhân vật mà không bị sa đà vào sự kịch tính: “Nhiều nhân vật thể hiện sự đau khổ, kính sợ hoặc cầu xin thông qua cử chỉ và sự căng thẳng thái quá.”

Claude chắc chắn đề cập đến sự tranh cãi về tính khỏa thân trong bức tranh trước khi nói một cách hoa mỹ về tổng thể bức tranh là “một xoáy nước tráng lệ của các cơ thể xoáy qua sự phán xét thiêng liêng.” Nó ngay lập tức xác định Chúa Kitô ở trung tâm, Mary bên cạnh Ngài, và sự dâng lên của các nhân vật được cứu rỗi đối lập với sự hỗn loạn đi xuống của những kẻ bị đày đọa. Ngoài ra, nó tương đối nhanh chóng so với Quảng trường Thời đại, chỉ đơn giản là đi qua từng phần và đưa ra danh sách chi tiết về các nhân vật và cách phân biệt chúng.

Căn phòng bừa bộn

Việc tìm hiểu xem có gì trong một căn phòng hỗn loạn là một nhiệm vụ khó khăn một cách khó ngờ. Các bề mặt khác nhau, các đống đồ, dây cáp rối, giấy tờ chồng chéo, và nhiều thứ khác trong một không gian nhỏ. Nếu một AI có thể giải mã những gì có ở đây, nó sẽ có khả năng giải quyết mọi loại vấn đề trong gia đình.

ChatGPT 5.1 lập một danh mục, bắt đầu bằng việc xác định bố cục chung của căn phòng. Nó nhìn thấy những sợi dây rối, tài liệu, thùng lưu trữ bằng nhựa và các chồng giấy. Sau đó, nó đơn giản bắt đầu liệt kê mọi thứ từ trái sang phải: “Bàn bên trái chứa một số lượng lớn đồ vật, bao gồm dây cáp, bìa hồ sơ, sách hướng dẫn và các thiết bị điện tử nhỏ.” Nó xác định các thùng nhựa màu xanh lá cây bên dưới bàn bên phải và các bìa hồ sơ màu xanh lam được xếp chồng lên trên. Nó gần như chính xác, mặc dù đôi khi nó dán nhãn mơ hồ cho các đồ vật là “một thiết bị nhỏ” trong khi một mô hình khác có thể cố gắng đoán cụ thể hơn.

Gemini 3 Pro hướng đến một danh sách siêu chính xác, phân tích mọi chi tiết từ vật liệu đến màu sắc, hình dạng và thậm chí cả các chức năng có thể có của các thiết bị. Nó mô tả ánh sáng từ cửa sổ, bóng đổ trên sàn nhà và kích thước của các chồng giấy. Nó thậm chí còn chỉ ra tấm thảm cũ có hoa văn đang lấp ló một phần bên dưới một đống đồ, một chi tiết mà cả ChatGPT và Claude đều không đề cập. Không giống như những mô hình khác, Gemini cố gắng đưa ra các suy luận tinh tế mà không quá cam kết. Nó nói: “Sự kết hợp giữa các bìa hồ sơ và các mẫu đơn rải rác cho thấy không gian này được sử dụng cho công việc hành chính hoặc tổ chức.”

Claude phản ứng với căn phòng bằng cách khô khan nói rằng nó “có vẻ đang trong tình trạng mất tổ chức.” Nó đi qua căn phòng và sắp xếp danh sách theo loại, với đồ nội thất, và những gì trên đó, sàn nhà, và những gì trên đó, v.v. Nó xác định nhiều đồ vật chính xác, chẳng hạn như bìa hồ sơ, thùng, dây điện, cây cảnh, túi và giấy tờ. Nhưng nó cũng đôi khi suy luận ra những thứ không thể nhìn thấy, chẳng hạn như mô tả “một chồng phong bì” thực chất chỉ là một chồng tờ giấy in, hoặc gọi một tấm bạt gấp là “túi đựng quần áo”.

Kết luận

Mỗi mô hình đều hoạt động khá tốt. Tôi cảm thấy ChatGPT 5.1 cẩn thận và chính xác một cách đáng tin cậy trong hầu hết các trường hợp, nhưng nó có xu hướng lạc đề sau một danh sách dài và đôi khi nó tự tin đặt tên cho một đối tượng chỉ được nhìn thấy một phần.

Claude Opus 4.5 có một số mô tả thú vị và có thể giàu trí tưởng tượng trong khi vẫn giữ được sự chính xác trong hầu hết các trường hợp, nhưng đôi khi cách diễn giải của nó hơi quá sáng tạo. Khi bạn cần độ chính xác nghiêm ngặt, đặc biệt trong các cảnh hỗn loạn, những xung lực nghệ thuật của nó có thể cản trở.

Gemini 3 Pro là mô hình luôn nhìn thấy rõ ràng nhất. Nó vượt trội trong việc phân biệt các đối tượng chồng chéo, tránh bịa đặt, đọc văn bản chính xác và đặt các cảnh vào bối cảnh. Nó mô tả các mối quan hệ thị giác, ánh sáng, bố cục và kết cấu theo cách mà các mô hình khác không làm được. Nó mang lại cảm giác giống như một hệ thống nhận thức đa phương thức thực sự hơn là một mô hình văn bản phản ứng với các pixel. Vì vậy, mặc dù bất kỳ mô hình nào trong ba mô hình này đều có thể sử dụng tốt trong hầu hết các trường hợp, tôi sẽ giới thiệu Gemini 3 Pro nếu điều bạn thực sự tìm kiếm ở một mô hình AI là khả năng thực sự tìm kiếm những gì đang xảy ra trong bất kỳ hình ảnh nào bạn chia sẻ.