Trình duyệt web đang bước vào kỷ nguyên mới, nơi các kỹ năng AI thay thế các tiện ích mở rộng

Trình duyệt lớn hơn trò chuyện. Nó là một sản phẩm gắn kết hơn, và là cách duy nhất để xây dựng các tác nhân. Nó là cách duy nhất để xây dựng các “quy trình làm việc” đầu cuối”, đó là nhận xét của Aravind Srinivas, CEO của Perplexity, trong một cuộc phỏng vấn gần đây. Nhà đồng sáng lập Perplexity đã nói về tương lai của trình duyệt web, tác nhân AI và tự động hóa trong trình duyệt web.
Srinivas rất lạc quan về triển vọng, một phần vì công ty của ông đã và đang thử nghiệm một trình duyệt mới đang rất được ưa chuộng có tên là Comet. Hiện đang trong giai đoạn thử nghiệm beta chỉ dành cho người được mời, trình duyệt này đi kèm với một tác nhân có thể xử lý các tác vụ phức tạp và tốn thời gian thay mặt bạn.
Hãy nghĩ về nó như một công cụ AI như ChatGPT hoặc Gemini, nhưng chỉ hoạt động độc quyền trên trình duyệt của bạn. Phương pháp tác nhân trong trình duyệt, như Srinivas lập luận, quen thuộc và linh hoạt hơn. Bạn không phải đối mặt với các hạn chế về quyền cục bộ và quy trình làm việc giữa các ứng dụng thông thường. Hơn nữa, trình duyệt sẽ hoạt động theo cách chúng ta đã quen thuộc, với các sản phẩm như Chrome hoặc Safari.
Nhưng những luồng ý kiến ngầm lại hoàn toàn khác, và thay đổi lớn nhất có thể là việc ngừng hỗ trợ các tiện ích mở rộng trình duyệt để chuyển sang các kỹ năng AI và tác nhân do người dùng tạo ra. Điều thú vị là các công cụ nền tảng đã được xây dựng từ hơn một năm trước, nhưng chúng ta chỉ mới nghe nói đến chúng khi các trình duyệt ưu tiên AI như Dia và Comet ra đời.
Kỹ năng AI là những nhà vô địch mới trong công việc
Mọi người bàn tán về tác nhân và kỹ năng AI nghe có vẻ như là một loạt thuật ngữ công nghệ, vậy nên hãy để tôi phân tích cho bạn. Trong trình duyệt Dia, gần đây tôi đã tạo ra một kỹ năng có tên là “mở rộng”. Tôi đã làm điều đó như thế nào, mặc dù tôi không viết một dòng mã nào? Tôi chỉ mô tả nó bằng những từ sau:
“Khi tôi sử dụng kỹ năng này và dán một đoạn trích, thực hiện tìm kiếm sâu trên web và tìm kiếm toàn bộ lịch sử dưới dạng một bài viết theo thứ tự thời gian. Chỉ lấy thông tin từ các nguồn tin tức đáng tin cậy.”
Tôi kiếm sống bằng nghề đọc và viết bài, và tôi thường bắt gặp những đoạn trích và sự kiện trong các bài viết mà tôi không quen thuộc. Trong những trường hợp như vậy, tất cả những gì tôi phải làm là chọn văn bản liên quan (hoặc sao chép-dán vào thanh bên trò chuyện) và sử dụng lệnh “/” để kích hoạt kỹ năng “mở rộng”.
Như đã mô tả ở trên, AI trong trình duyệt Dia sẽ tìm kiếm các đề cập đến mục tiêu của tôi trên các trang tin tức hàng đầu và tạo một báo cáo ngắn gọn về mục tiêu đó theo thứ tự thời gian. Điều này giúp tôi tiết kiệm rất nhiều thời gian quý báu mà nếu không sẽ phải dành cho những nỗ lực tìm kiếm Google đầy khó khăn.
Nhưng quan trọng hơn, tôi thậm chí không cần phải mở thêm một tab nào khác, và tôi có thể đặt câu hỏi tiếp theo trong cùng hộp trò chuyện bên trong tab đang đọc. Thật nhanh chóng và tiện lợi. Tôi không biết tiện ích mở rộng nào có thể làm chính xác những gì kỹ năng “mở rộng” này làm cho tôi.
Cũng không thể được. Tôi tạo ra nó với một mục đích và ý định cụ thể. Và tôi có thể tạo bao nhiêu tùy thích, hoặc tinh chỉnh nó cho phù hợp với quy trình làm việc của mình. Tôi đã tạo một công cụ khác có tên là “nghiên cứu”, công cụ này tham khảo một tác phẩm (hoặc cụm từ) và thực hiện nghiên cứu trên web bằng cách chỉ xem các bài báo khoa học đã được bình duyệt.
Cộng đồng người dùng Dia thậm chí còn tiết kiệm được một khoản tiền bằng cách tạo ra các kỹ năng săn mã giảm giá có sẵn trên sản phẩm ngay trước khi thanh toán. Đối với việc mua sắm trên Amazon, tôi đã tạo một công cụ kết hợp các bài đánh giá, xếp hạng và tính năng của sản phẩm trên các tab Amazon khác nhau, tạo bảng so sánh và giúp tôi đưa ra lựa chọn tốt nhất. Tất cả những điều đó diễn ra chỉ bằng một từ duy nhất!
Một công cụ khác nhanh chóng tra cứu lỗi ngữ pháp và hướng dẫn văn phong rõ ràng trong email của tôi. Có một công cụ tạo tài liệu đọc dạng bài kiểm tra cho trẻ em mà tôi dạy tại một tổ chức phi lợi nhuận gần đó, dựa trên tài liệu học tập tôi đã chuẩn bị.
Học sinh yêu thích giọng điệu vui tươi và dí dỏm trong các câu hỏi trắc nghiệm kiểm tra kiến thức thời sự của họ. Thậm chí còn có một thư viện chính thức của Dia, nơi bạn có thể tìm thấy các kỹ năng do người dùng Dia tạo ra, và một bảng điều khiển web cộng đồng, nơi bạn có thể tìm thấy nhiều hơn nữa.
Nhưng đây là lý do chính tại sao tôi nghĩ rằng kỹ năng trình duyệt quan trọng hơn tiện ích mở rộng. Bất kỳ ai cũng có thể tạo ra chúng chỉ bằng cách mô tả những gì họ muốn. Với tiện ích mở rộng, bạn cần có kiến thức lập trình và các kỹ năng cơ bản về cách thức hoạt động của web và kiến trúc duyệt web.
Bảo mật là một lý do khác khiến tôi tin tưởng vào kỹ năng trình duyệt hơn là tiện ích mở rộng. Có một lịch sử lâu dài về việc tiện ích mở rộng trình duyệt bị lợi dụng để gieo rắc phần mềm độc hại. Người dùng trung bình không thể nhìn hoặc hiểu được hoạt động bên trong của tiện ích mở rộng, và chỉ nhận ra sự vô lý khi thiệt hại đã xảy ra.
Tình hình với các kỹ năng AI trên trình duyệt đang ngày càng trở nên minh bạch. Cách thức hoạt động của một kỹ năng được mô tả chi tiết, bằng ngôn ngữ tự nhiên và không có bất kỳ cảnh báo ẩn nào. Bạn chỉ cần đọc kỹ, hoặc chỉ cần sao chép và dán rồi tự tạo ra với các chỉnh sửa bổ sung. Cách tiếp cận này linh hoạt, an toàn hơn rất nhiều và trao toàn bộ quyền lực vào tay người dùng.
Các tác nhân trình duyệt sẽ tồn tại lâu dài
Tiếp theo, chúng ta có các tác nhân trình duyệt. Trình duyệt Opera đã triển khai một tác nhân như vậy và hiện đang cung cấp phiên bản nâng cao hơn có tên là Operator. Sau đó, bạn có thể sử dụng các công cụ như ChatGPT Agent và trình duyệt Comet của Perplexity. Hãy tưởng tượng nó giống như Siri, nhưng dành cho việc duyệt web.
Các tác nhân phù hợp hơn với các tác vụ phức tạp, tốn thời gian. Và chúng hoạt động tốt nhất khi được truy cập vào các dịch vụ bạn truy cập hàng ngày, chẳng hạn như email và Lịch. Ví dụ: đây là những gì tôi đã làm trên trình duyệt Comet của Perplexity tối qua:
“Kiểm tra hộp thư đến của tôi và cập nhật cho tôi tất cả các yêu cầu phỏng vấn với một nhà khoa học hoặc giám đốc điều hành công ty mà tôi dự định thực hiện. Tập trung vào các cuộc trò chuyện mà tôi đã bày tỏ khả năng phỏng vấn trực tuyến, thay vì gặp mặt trực tiếp.”
Không cần mở thêm tab nào khác, Trợ lý tích hợp đã duyệt qua hộp thư đến Gmail của tôi, tra cứu các email liên quan và sau đó cung cấp cho tôi danh sách các tương tác như vậy trong chế độ xem được định dạng tốt. Để thuận tiện hơn, nó thậm chí còn bao gồm các liên kết Gmail chỉ bằng một cú nhấp chuột để tôi có thể mở trực tiếp chuỗi email đó mà không cần phải tìm kiếm thủ công.
Nó rất tuyệt vời cho nhiều việc khác. Ví dụ, trong một buổi AMA trên Twitter, tôi chỉ cần yêu cầu nó chọn các câu trả lời của diễn giả và liệt kê chúng dưới dạng gạch đầu dòng. Điều này giúp tôi tiết kiệm rất nhiều thời gian trao đổi qua lại khi mở và đóng X chuỗi hội thoại.
Đối với việc lập kế hoạch du lịch, mua sắm, hoặc thậm chí xem video, trợ lý ảo trong trình duyệt Comet hoạt động tốt. Điểm trừ duy nhất là nếu bạn cần nó để thực hiện nhiều công việc cá nhân hơn, bạn sẽ cần cấp quyền truy cập vào các kết nối. Ví dụ: để quản lý Gmail, Lịch và Drive, bạn sẽ cần bật quyền truy cập.
Tôi cũng đã làm điều này cho tài khoản WhatsApp của mình và nó hoạt động rất tốt trên trình duyệt Comet. Không phải ai cũng cảm thấy dễ dàng khi làm điều đó, và sự thận trọng là hoàn toàn có cơ sở. Trong những trường hợp như vậy, Google và OpenAI cung cấp các tính năng tương tự cho Gemini và ChatGPT.
Không thể quay lại được nữa
Cũng giống như cách bạn tạo kỹ năng trong Dia bằng cách chỉ cần nhập hoặc kể lại yêu cầu của mình, Gemini và ChatGPT cũng cho phép bạn tạo các tác nhân tùy chỉnh cho các nhiệm vụ cụ thể. Google gọi chúng là Gem, trong khi OpenAI gọi chúng là GPT. Và đúng vậy, bạn có thể chia sẻ chúng giống như các kỹ năng. Việc sử dụng chúng là miễn phí, nhưng để tạo ra chúng, bạn sẽ cần đăng ký với mức phí 20 đô la mỗi tháng.
Tôi đã tạo ra nhiều Gem và GPT tùy chỉnh để đẩy nhanh các công việc thường ngày. Đối với việc đăng bài cá nhân trên mạng xã hội, tôi đã tạo một Gem chia nhỏ các bài viết tôi đã viết thành các phần nhỏ hơn, sau đó được đăng thành một chuỗi trên X. Tương tự, tôi đã tạo các tác nhân tùy chỉnh để xử lý email của mình.
Một trong những Gem chỉ cần tôi nhập “có” hoặc “không”, và nó sẽ tự động viết một phản hồi lịch sự đồng thời thu thập toàn bộ ngữ cảnh từ email. Với các trình kết nối được tích hợp, bạn có thể liên kết chúng với bao nhiêu dịch vụ tùy thích.
Điểm tuyệt vời nhất của những “viên ngọc” này là bạn có thể dễ dàng sử dụng chúng trên cả trình duyệt máy tính để bàn và ứng dụng di động. Tiện ích mở rộng yêu cầu bạn phải sử dụng trình duyệt máy tính để bàn. Một số trình duyệt di động có hỗ trợ tiện ích mở rộng, nhưng rất hiếm.
Hơn nữa, chúng không mang lại sự linh hoạt và an tâm như các kỹ năng hoặc tác nhân tùy chỉnh trên trình duyệt do người dùng tạo ra. ChatGPT Agent và Project Mariner của Google là một thế hệ trợ lý AI mới được thiết kế riêng cho các tác vụ trên web, giống như trợ lý được tích hợp sẵn trong trình duyệt Comet của Perplexity.
Không giống như tiện ích mở rộng, chúng có thể xử lý các quy trình làm việc nhiều bước và bạn có thể tiếp quản ở bất kỳ giai đoạn nào. Hơn nữa, bạn có thể sửa đổi hoạt động bên trong của tính năng tự động hóa duyệt web và điều chỉnh các kỹ năng AI theo đúng yêu cầu của mình, điều mà tiện ích mở rộng không thể làm được.
Tất nhiên, chúng không hoàn hảo. Đồng thời, bạn có thể tiếp quản và hoàn thành những việc mà nó không thể làm được vì không có tác nhân AI nào là hoàn hảo, đặc biệt là khi chúng ta đang ở thời điểm mà các mô hình suy luận vẫn còn xa mới hoàn hảo”, CEO của Perplexity thừa nhận.
Nhưng sự thay đổi này rõ ràng là hiển nhiên. Tiện ích mở rộng trình duyệt sẽ không biến mất chỉ sau một đêm, nhưng các tác nhân duyệt web và kỹ năng AI do người dùng tạo ra sẽ tiếp quản. Chỉ còn là vấn đề thời gian trước khi các rào cản (tức là phí đăng ký) được gỡ bỏ!