Không phải Apple hay Google, chính Microsoft với Copilot Vision mới thật sự định nghĩa lại chuẩn mực AI.

Microsoft bắt đầu bổ sung các tính năng AI Copilot tạo sinh vào Windows vào tháng 9 năm 2023, rất lâu trước khi các đối thủ cạnh tranh về hệ điều hành của họ có bất kỳ tính năng tương tự nào. Và mặc dù hầu hết các công cụ AI mới nhất của công ty chỉ dành riêng cho máy tính Copilot+, Copilot Vision hoạt động trên mọi máy tính Windows 11 (và, thật bất ngờ, cả Windows 10). Tính năng này, nằm trong ứng dụng Copilot, cho phép AI xem bất cứ thứ gì trên màn hình của bạn và cung cấp hỗ trợ bằng lời nói một cách tự nhiên. Các phiên bản mới nhất của ChromeOS và macOS không thể sánh kịp khả năng này, mặc dù đã bổ sung một số tính năng AI một cách rời rạc.
Copilot Vision lần đầu tiên xuất hiện trên trình duyệt web Microsoft Edge, và bạn có thể đọc những ấn tượng trái chiều của tôi về phiên bản đó. Mặc dù việc trò chuyện với AI về một trang web thực sự hữu ích, nhưng Copilot Vision trong Windows cho phép bạn làm điều tương tự với bất kỳ ứng dụng nào đang mở. Copilot Vision cũng có sẵn trong ứng dụng Copilot dành cho Android và iOS, nơi nó có thể trò chuyện về bất cứ thứ gì bạn hướng camera điện thoại vào, nhưng ở đây tôi sẽ tập trung vào trải nghiệm Windows. Tính đến thời điểm xuất bản, ứng dụng Copilot dành cho macOS không có khả năng Vision mà tôi mô tả ở đây.
Chuẩn bị cho Copilot Vision
Để sử dụng Copilot Vision, trước tiên bạn cần đảm bảo Windows 11 đã được cập nhật. Vào Settings > Windows Update và nhấp vào nút Check for Updates. Để nhanh hơn, bạn có thể bật tùy chọn “Get the latest updates as soon as they’re available“. Tất nhiên, bạn cũng cần ứng dụng Copilot. Nếu chưa có, hãy truy cập Microsoft Store để cài đặt.
Bạn có thể sử dụng Copilot mà không cần đăng nhập vào tài khoản Microsoft cho các tương tác hạn chế, nhưng sẽ bỏ lỡ một số tính năng, bao gồm Copilot Vision. Việc đăng nhập cũng cho phép tạo hình ảnh AI, Copilot Voice, lịch sử tương tác, các cuộc trò chuyện dài hơn và đồng bộ hóa cài đặt.
Các yêu cầu khác: Copilot Vision chỉ khả dụng tại Hoa Kỳ; một bài đăng trên blog của Microsoft cho biết ứng dụng này sẽ sớm có mặt tại nhiều quốc gia khác ngoài Châu Âu; Copilot vẫn chưa khả dụng tại Châu Âu do Microsoft tuân thủ Đạo luật Thị trường Kỹ thuật số (DMA) của khu vực.
Cách sử dụng Copilot Vision
Bắt đầu bằng cách mở Copilot, bằng cách nhấn phím Windows-C hoặc Alt-phím cách (để mở cửa sổ Copilot thu gọn). Ngoài ra, bạn có thể nhấp vào biểu tượng Copilot trên thanh tác vụ. Nếu bạn có PC Copilot+, bạn chỉ cần nhấn phím Copilot chuyên dụng trên bàn phím. Trong cửa sổ ứng dụng Copilot, bạn sẽ thấy một biểu tượng trông giống như một cặp kính mắt ở bên trái hộp nhập văn bản ở cuối cửa sổ.
Khi nhấp vào biểu tượng kính, bạn sẽ thấy danh sách tất cả các cửa sổ ứng dụng hiện đang chạy trên PC. Các chương trình đang chạy với cửa sổ chưa thu nhỏ sẽ được ưu tiên ở đây, nhưng nếu bạn mở nhiều hơn bốn cửa sổ, bạn có thể cuộn xuống để tìm.
Khi bạn bật/tắt một trong các tùy chọn cho một ứng dụng, một thành phần mới sẽ xuất hiện ở cuối cửa sổ Copilot với biểu tượng kính mắt và micrô được tô sáng. Đối với các tác vụ liên quan đến nhiều ứng dụng, bạn phải nhấn lại biểu tượng kính mắt ban đầu để thêm cửa sổ thứ hai để xem—Copilot không cho phép bạn bật hai cửa sổ ngay từ đầu. Trợ lý AI của bạn sau đó sẽ bắt đầu trò chuyện với bạn, mô tả những gì đang hiển thị trên màn hình. Bạn có thể kết thúc cuộc trò chuyện bất cứ lúc nào bằng cách nhấp vào Dừng hoặc dấu X.
Từ đó trở đi, bạn chỉ cần trao đổi trực tiếp với Copilot, hỏi những gì bạn cần biết về ứng dụng đó. Trong quá trình thử nghiệm, tôi đã hỏi Copilot cách lấy ảnh từ File Explorer vào Photoshop và sau đó cách cải thiện chúng trong ứng dụng ảnh. Copilot hiểu rõ quy trình và ứng dụng (tôi cũng thấy Lightroom tương tự). Đây là video minh họa trải nghiệm của tôi (xin lỗi vì mic webcam của tôi hơi yếu; giọng Copilot rõ ràng, to và nói hay hơn tôi).
Nếu bạn yêu cầu Copilot “Cho tôi xem cách thực hiện”, bạn sẽ thấy một con trỏ lớn trong bảng điều khiển Copilot, con trỏ này sẽ bay lên và vẽ một ô hoặc vòng tròn xung quanh thành phần giao diện liên quan. Microsoft gọi đây là Điểm nổi bật. Theo kinh nghiệm của tôi, tính năng này không phải lúc nào cũng làm nổi bật đúng đối tượng, nhưng đây là một trường hợp nó làm đúng:
Sau khi bạn dừng phiên Copilot Vision, bạn có thể xem bản ghi cuộc trò chuyện trong ứng dụng Copilot:
Giống như hầu hết các công cụ AI khác, kết quả của bạn có thể khác nhau, ngay cả với cùng một câu hỏi hoặc lời nhắc. Tôi nhận được các phản hồi khác nhau khi tôi yêu cầu cùng một thông tin nhiều lần. Ví dụ, đôi khi nó đưa ra hướng dẫn cho tôi về Lightroom Classic thay vì phiên bản Lightroom mới hơn. Đôi khi nó dừng lại, im lặng trong vài giây, nhưng vấn đề này không đủ nghiêm trọng để làm hỏng trải nghiệm.
Tôi thích cách các công cụ AI tạo hình (và đặc biệt là Copilot) cho phép bạn thông báo khi chúng làm sai điều gì đó. Trong những trường hợp như vậy, chúng sẽ kiểm tra lại thông tin và tự sửa. Vì vậy, khi tôi trả lời rằng hướng dẫn dành cho Lightroom Classic và tôi đang sử dụng Lightroom mới hơn, Copilot đã xin lỗi và đưa ra hướng dẫn chính xác.
Cả ChromeOS và macOS đều không có câu trả lời
Hai đối thủ lớn của Windows không cung cấp bất kỳ tính năng nào cạnh tranh với Copilot Vision. Google tiến gần hơn một chút với các tính năng Chọn để Tìm kiếm bằng Ống kính và Chụp Văn bản, tính năng sau cho phép bạn tìm thông tin hoặc thực hiện các hành động hạn chế trên văn bản đã chọn trong hình ảnh. Nhưng các tính năng AI của ChromeOS không cho phép bạn trò chuyện bằng lời nói với AI về những gì bạn đang nhìn thấy trên màn hình để nhận được trợ giúp tương tác.
Khả năng AI của MacOS chỉ giới hạn ở việc tạo hình ảnh hoạt hình, viết lại văn bản và tóm tắt email và trang web; macOS Tahoe ít nhất cũng hứa hẹn một số cải tiến. Siri đã trở nên dễ trò chuyện hơn, nhưng nó không thể giúp bạn với những gì đang hiển thị trên màn hình.
Như tôi đã kết luận sau khi thử nghiệm các tính năng Copilot khác trên Windows, hệ điều hành máy tính để bàn của Microsoft dễ dàng dẫn đầu các đối thủ về tính năng AI. Và trong trường hợp của Copilot Vision này, bạn thậm chí không cần phần cứng và phần mềm mới nhất để tận dụng nó. Điều tương tự không đúng với các công cụ AI mà ChromeOS và macOS có. Tất nhiên, với nguồn lực khổng lồ mà các công ty này đang đầu tư vào AI, vị trí dẫn đầu của Microsoft còn lâu mới an toàn. Tôi háo hức chờ đợi sự cạnh tranh ngày càng quyết liệt.