Liệu AI có thực sự có thể thay thế bàn phím và chuột của bạn không?

“Này ChatGPT, nhấp chuột trái vào ô nhập mật khẩu trong cửa sổ bật lên xuất hiện ở góc dưới bên trái màn hình, điền XUS&(#($J) rồi nhấn Enter.”
Vui nhỉ? Không, cảm ơn. Tôi sẽ chỉ cần di chuyển con chuột rẻ tiền của mình và gõ 12 ký tự trên bàn phím kêu lách cách không cần thiết, thay vì đọc to mật khẩu trong không gian làm việc chung.
Thật tuyệt khi thấy ChatGPT hiểu được lệnh thoại của bạn, đặt vé giá rẻ cho tám người xem trận đấu của Liverpool tại Anfield và đưa bạn đến màn hình thanh toán. Nhưng này, bạn có tin tưởng giao mật khẩu cho nó không? Hay bạn sẽ không nhập mật khẩu bằng bàn phím vật lý?
Hãy tưởng tượng bạn dốc toàn lực vào AI, rồi nhận ra rằng bước cuối cùng, nơi bạn THỰC SỰ cần đến bàn phím hoặc chuột, là không thể, và giờ bạn bị mắc kẹt. Nhưng đó chính xác là câu hỏi mà nhiều người đã đặt ra sau khi xem các tác nhân AI hào nhoáng và video tự động hóa từ những công ty như Google, OpenAI và Anthropic.
Đó là một câu hỏi chính đáng.
Trí tuệ nhân tạo (AI) là chủ đề chính tại sự kiện I/O của Google hồi đầu năm nay. Đến cuối bài phát biểu, tôi đã tin chắc rằng điện thoại thông minh Android sẽ không còn như xưa nữa. Và theo đó, bất kỳ nền tảng nào mà Gemini sẽ đặt chân đến — từ các ứng dụng Workspace như Gmail đến dẫn đường trên Google Maps khi đang ngồi trên xe hơi.
Bản demo ấn tượng nhất là Project Mariner, và nguyên mẫu nghiên cứu tiếp theo của Project Astra. Hãy tưởng tượng nó như một trợ lý đàm thoại thế hệ tiếp theo, cho phép bạn trò chuyện và thực hiện những công việc thực tế mà không cần chạm vào màn hình hay nhấc bàn phím lên. Bạn có thể chuyển các truy vấn của mình từ hướng dẫn sử dụng được lưu trữ trên trang web của một thương hiệu sang video hướng dẫn trên YouTube mà không cần phải nhắc lại ngữ cảnh.
Gần như thể khái niệm thực sự về bộ nhớ đã đến với AI. Trong trình duyệt web, nó sẽ đặt vé cho bạn, đưa bạn đến trang cuối cùng, nơi bạn chỉ cần xác nhận xem tất cả các chi tiết đã được yêu cầu hay chưa và tiến hành thanh toán. Điều đó khiến người ta tự hỏi liệu bàn phím và chuột có phải là những khái niệm đã lỗi thời đối với các đầu vào kỹ thuật số khi tương tác bằng giọng nói trở nên quan trọng hơn trong AI hay không.
Trách nhiệm về sai sót
Nghe có vẻ kỳ lạ, nhưng máy tính của bạn đã được trang bị sẵn tính năng điều khiển bằng giọng nói để điều hướng hệ điều hành. Trên PC Windows và macOS, bạn có thể tìm thấy các công cụ truy cập bằng giọng nói như một phần của bộ công cụ trợ năng. Có một số phím tắt có sẵn để tăng tốc quá trình này, và bạn cũng có thể tự tạo phím tắt của riêng mình.
Với sự ra đời của các mô hình AI thế hệ tiếp theo, chúng ta đang nói về việc loại bỏ bàn phím và chuột cho tất cả mọi người, chứ không chỉ đơn thuần là thúc đẩy chúng như một công nghệ hỗ trợ.
Hãy tưởng tượng sự kết hợp giữa Claude Computer Use và đầu vào được theo dõi bằng mắt từ tai nghe Vision Pro của Apple. Trong trường hợp bạn chưa quen thuộc, Computer Use của Anthropic là một tác nhân sử dụng máy tính. Anthropic cho biết nó cho phép AI “sử dụng máy tính theo cách con người làm – bằng cách nhìn vào màn hình, di chuyển con trỏ, nhấp vào các nút và nhập văn bản.”
Bây giờ, hãy tưởng tượng một tình huống mà ý định của bạn được truyền đạt bằng giọng nói cho Claude, được micro tích hợp thu nhận và nhiệm vụ được thực hiện. Cho dù bước cuối cùng được yêu cầu, cử chỉ sẽ lấp đầy khoảng trống. Vision Pro đã chứng minh rằng điều khiển bằng mắt là khả thi và hoạt động với độ chính xác cao.
Ngoài tai nghe, AI điều khiển bằng giọng nói vẫn có thể hoạt động trên một máy tính thông thường. Hume AI, hợp tác với Anthropic, đang xây dựng một hệ thống có tên là Giao diện Giọng nói Đồng cảm 2 (EVI 2), biến lệnh thoại thành dữ liệu đầu vào máy tính. Nó gần giống như nói chuyện với Alexa, nhưng thay vì gọi bông cải xanh, trợ lý AI hiểu những gì chúng ta đang nói và chuyển thành dữ liệu đầu vào từ bàn phím hoặc chuột.
Tất cả những điều đó nghe có vẻ tuyệt vời, nhưng hãy cùng nghĩ đến một vài tình huống thực tế. Bạn sẽ cần một bàn phím để tinh chỉnh các chỉnh sửa phương tiện. Thực hiện những thay đổi nhỏ trên khung vẽ mã hóa. Điền vào các ô trong một trang tính. Hãy tưởng tượng bạn nói, “Này Song Tử, hãy đặt bốn nghìn tám trăm chín mươi lăm đô la vào ô D5 và ghi nhãn là chi phí đi lại bằng máy bay nhé?” Vâng, tôi biết. Tôi cũng chỉ gõ vậy thôi.
Dặm cuối, không phải điểm kết thúc
Nếu bạn xem qua bản demo của Chế độ AI trong Tìm kiếm, tác nhân Project Mariner và Gemini Live, bạn sẽ thoáng thấy điện toán giọng nói. Tất cả những tiến bộ AI này nghe có vẻ vô cùng tiện lợi, cho đến khi chúng không còn như vậy nữa. Ví dụ, khi nào thì việc nói những câu như “Di chuyển đến hộp thoại ở góc trên bên trái và nhấp chuột trái vào nút màu xanh có chữ Xác nhận” trở nên quá khó chịu?
Nó quá phức tạp, ngay cả khi tất cả các bước trước đó đều được AI tự động thực hiện.
Và đừng quên vấn đề nan giải nhất. AI có thói quen hoạt động không ổn định. “Ở giai đoạn này, nó vẫn đang trong giai đoạn thử nghiệm—đôi khi khá cồng kềnh và dễ xảy ra lỗi”, Anthropic cảnh báo về Claude Computer Use. Tình huống này không khác mấy so với Operator Agent của OpenAI, hay một công cụ tương tự cùng tên hiện đang được Opera, đơn vị phát triển một trình duyệt web khá thú vị, phát triển.
Việc loại bỏ bàn phím và chuột khỏi một máy tính được tăng cường AI cũng giống như lái một chiếc Tesla với chế độ tự lái hoàn toàn (FSD), nhưng bạn không còn vô lăng và các nút điều khiển chỉ còn lại chân phanh và chân ga. Chiếc xe chắc chắn sẽ đưa bạn đến một nơi nào đó, nhưng bạn cần phải nắm quyền kiểm soát nếu có sự cố bất ngờ xảy ra.
Trong bối cảnh điện toán, hãy nghĩ đến người xử lý sự cố, nơi bạn PHẢI ngồi vào ghế lái. Nhưng hãy giả sử rằng một mô hình AI, chủ yếu được điều khiển bằng giọng nói (và được thu âm bằng micrô trên máy tính ưa thích của bạn), đưa bạn đến bước cuối cùng, nơi bạn cần kết thúc quy trình làm việc, chẳng hạn như thực hiện thanh toán.
Ngay cả với Passkey, bạn vẫn cần ít nhất xác nhận danh tính bằng cách nhập mật khẩu, mở ứng dụng xác thực hoặc chạm vào cảm biến vân tay? Không nhà sản xuất hệ điều hành hay nhà phát triển ứng dụng nào (đặc biệt là những người xử lý xác minh danh tính) lại để một mô hình AI có quyền kiểm soát hoàn toàn việc xử lý nhiệm vụ quan trọng này.
Tự động hóa với một tác nhân AI là quá mạo hiểm, ngay cả khi đã có những tiện ích như Passkey. Google thường nói rằng Gemini sẽ học hỏi từ bộ nhớ và các tương tác của chính bạn. Nhưng tất cả bắt đầu bằng việc cho phép nó theo dõi việc sử dụng máy tính của bạn, vốn về cơ bản phụ thuộc vào đầu vào bàn phím và chuột. Vậy nên, chúng ta lại quay về vạch xuất phát.
Trở thành ảo ư? Còn phải chờ đợi rất lâu
Khi chúng ta nói về việc thay thế chuột và bàn phím máy tính bằng AI (hoặc bất kỳ tiến bộ nào khác), chúng ta chỉ đơn thuần nói về việc thay thế chúng bằng một proxy. Và sau đó là một sự thay thế quen thuộc. Có rất nhiều tài liệu nghiên cứu về chuột và bàn phím ảo, có từ ít nhất một thập kỷ trước, rất lâu trước khi bài báo “Transformers” mang tính bước ngoặt được phát hành và đưa ngành công nghiệp AI lên một tầm cao mới.
Năm 2013, DexType đã phát hành một ứng dụng tận dụng phần cứng nhỏ bé Leap Motion để tạo ra trải nghiệm gõ phím ảo trong không trung. Không cần màn hình cảm ứng hay bất kỳ máy chiếu laser hiện đại nào như Humane AI Pin. Leap Motion đã chết vào năm 2019, nhưng ý tưởng này vẫn còn đó. Meta được cho là công ty duy nhất có sẵn một bộ phần mềm và phần cứng thực tế cho một hình thức nhập-xuất thay thế trên máy tính, thứ mà họ gọi là tương tác giữa người và máy tính (HCI).
Công ty đã và đang nghiên cứu các thiết bị đeo tay cho phép điều khiển bằng cử chỉ hoàn toàn khác. Thay vì theo dõi chuyển động không gian của ngón tay và chân tay, Meta sử dụng một kỹ thuật gọi là điện cơ đồ (EMG). Kỹ thuật này biến các tín hiệu thần kinh vận động điện được tạo ra ở cổ tay thành đầu vào kỹ thuật số để điều khiển các thiết bị. Và đúng vậy, đầu vào con trỏ và bàn phím là một phần không thể thiếu của gói sản phẩm.
Đồng thời, Meta cũng tuyên bố rằng những cử chỉ này sẽ nhanh hơn thao tác nhấn phím thông thường, bởi vì chúng ta đang nói về tín hiệu điện truyền thẳng từ bàn tay đến máy tính, thay vì chuyển động của ngón tay. “Đây là cách nhanh hơn nhiều để thực hiện theo các hướng dẫn mà bạn đã gửi đến thiết bị của mình khi chạm để chọn bài hát trên điện thoại, nhấp chuột hoặc gõ trên bàn phím ngày nay”, Meta nói.
Ít thay thế hơn, đóng gói lại nhiều hơn
Có hai vấn đề với cách tiếp cận của Meta, dù có hay không có AI. Khái niệm về con trỏ vẫn còn đó, và bàn phím cũng vậy, mặc dù ở định dạng kỹ thuật số. Chúng ta chỉ đang chuyển từ vật lý sang ảo. Sự thay thế mà Meta đang thúc đẩy nghe có vẻ rất viễn tưởng, đặc biệt là khi các mô hình AI Llama đa phương thức của Meta đang xuất hiện.
Tiếp theo là vấn đề nan giải hiện sinh. Những thiết bị đeo này vẫn còn nằm trong phạm vi các phòng thí nghiệm nghiên cứu. Và khi chúng ra mắt, chúng sẽ không hề rẻ, ít nhất là trong vài năm đầu. Ngay cả những ứng dụng của bên thứ ba đơn giản như WowMouse cũng bị ràng buộc bởi đăng ký và bị hạn chế bởi các giới hạn của hệ điều hành.
Tôi không thể tưởng tượng được việc bỏ chiếc bàn phím giá rẻ 100 đô la của mình để dùng một thiết bị thử nghiệm cho phép nhập liệu bằng giọng nói hoặc cử chỉ, và tưởng tượng nó sẽ thay thế hoàn toàn việc nhập liệu bằng bàn phím và chuột trong quy trình làm việc hàng ngày của tôi. Quan trọng nhất, sẽ mất một thời gian trước khi các nhà phát triển đưa các dữ liệu đầu vào dựa trên ngôn ngữ tự nhiên vào ứng dụng của họ. Đó sẽ là một quá trình dài và kéo dài.
Còn các lựa chọn thay thế thì sao? Chúng ta đã có các ứng dụng như WowMouse, biến đồng hồ thông minh của bạn thành một trung tâm nhận dạng cử chỉ cho các chuyển động của ngón tay và lòng bàn tay. Tuy nhiên, nó chỉ đóng vai trò thay thế cho các cử chỉ con trỏ và chạm, chứ không thực sự là một trải nghiệm bàn phím hoàn chỉnh. Nhưng một lần nữa, việc cho phép các ứng dụng truy cập bàn phím của bạn là một rủi ro mà các ông trùm hệ điều hành sẽ phản đối. Bạn còn nhớ keylogger chứ?
Cuối cùng thì, chúng ta đang ở thời điểm mà khả năng hội thoại của các mô hình AI và khả năng xử lý tác nhân của chúng đang có một bước tiến vượt bậc. Nhưng chúng vẫn yêu cầu bạn phải vượt qua vạch đích bằng một cú nhấp chuột hoặc vài lần nhấn phím, thay vì thay thế hoàn toàn chúng. Hơn nữa, chúng quá cồng kềnh khi bạn có thể nhấn phím tắt hoặc chuột thay vì đọc một chuỗi dài các lệnh thoại.
Tóm lại, AI sẽ giảm sự phụ thuộc của chúng ta vào đầu vào vật lý, nhưng sẽ không thay thế nó. Ít nhất là không phải đối với số đông.