AI, Others

Hãy tạm biệt Ollama và nâng tầm trải nghiệm AI cục bộ với LM Studio: Lựa chọn tối ưu cho mọi laptop và mini PC!

ezgif 6a1cdadffacd909f 01

Gần đây tôi đã dành nhiều thời gian để thử nghiệm với các Mô hình Ngôn ngữ Lớn (LLM) chạy cục bộ trên PC của mình, và phần lớn là sử dụng Ollama.

Ollama là một công cụ tuyệt vời giúp việc tải xuống và chạy các LLM trên PC của riêng bạn trở nên vô cùng đơn giản, và còn dễ dàng hơn nữa với việc ra mắt ứng dụng GUI (giao diện đồ họa người dùng) mới của nó. Nó có thể tích hợp hoàn hảo vào quy trình làm việc của bạn, nhưng lại có một nhược điểm rõ rệt.

Nếu bạn không có một GPU chuyên dụng, hiệu suất của nó không được tốt. Tôi đã sử dụng nó với chiếc RTX 5080 (và sắp tới sẽ thử nghiệm với RTX 5090) và tốc độ xử lý rất nhanh, nhưng trên một thiết bị như chiếc mini PC Geekom A9 Max mới vừa về để đánh giá, mọi chuyện lại hoàn toàn khác.

Ollama không chính thức hỗ trợ card đồ họa tích hợp trên Windows. Khi sử dụng mặc định, nó sẽ chuyển sang dùng CPU, và thành thật mà nói, có những lúc tôi không muốn mất công tìm kiếm các cách khắc phục.

Thay vào đó, hãy tìm đến LM Studio, công cụ giúp tận dụng GPU tích hợp vô cùng đơn giản, đến mức ngay cả tôi cũng có thể làm được chỉ trong vài giây. Đó là điều tôi muốn, đó là điều bạn nên muốn, và đó là lý do tại sao bạn cần từ bỏ Ollama nếu bạn muốn tận dụng GPU tích hợp của mình.

LM Studio là gì?

LM Studio 1

Không cần đi sâu vào chi tiết kỹ thuật quá nhiều, LM Studio là một ứng dụng khác mà bạn có thể sử dụng trên PC chạy Windows để tải xuống các LLM và thử nghiệm với chúng. Nó thực hiện mọi thứ hơi khác so với Ollama, nhưng kết quả cuối cùng vẫn như nhau.

Nó cũng có giao diện GUI tiên tiến hơn đáng kể so với ứng dụng chính thức của Ollama, đây là một điểm cộng khác để sử dụng nó. Để tận dụng tối đa Ollama bên ngoài giao diện dòng lệnh (terminal), bạn cần phải sử dụng một công cụ bên thứ ba, chẳng hạn như OpenWebUI hoặc tiện ích mở rộng trình duyệt Page Assist.

Cuối cùng, nó là một giải pháp toàn diện (one-stop shop) để tìm kiếm, cài đặt mô hình và sau đó tương tác với chúng thông qua giao diện chatbot quen thuộc. Có rất nhiều tính năng nâng cao mà bạn có thể thử nghiệm, nhưng hiện tại, chúng ta sẽ giữ mọi thứ đơn giản.

Chiến thắng lớn là LM Studio hỗ trợ Vulkan, nghĩa là bạn có thể chuyển tải mô hình (offload models) trên cả GPU tích hợp của AMD và Intel để tính toán. Đó là một vấn đề lớn, bởi vì trong các thử nghiệm của riêng tôi, tôi chưa thấy trường hợp nào mà việc sử dụng GPU lại không nhanh hơn so với CPU.

Vậy, làm thế nào để sử dụng GPU tích hợp trong LM Studio?

LM Studio 2

Một điểm tuyệt vời khác khi chọn sử dụng LM Studio là không cần phải thực hiện bất kỳ thao tác phức tạp hoặc kỹ thuật nào để sử dụng iGPU (GPU tích hợp) của bạn với một LLM.

Để sử dụng một mô hình, bạn chỉ cần tải nó lên bằng hộp thả xuống (dropdown box) ở phía trên cùng. Khi bạn chọn mô hình mong muốn, một loạt các cài đặt sẽ hiện ra. Trong trường hợp này, chúng ta chỉ thực sự quan tâm đến cài đặt GPU offload (chuyển tải sang GPU).

Đó là một thanh trượt và hoạt động theo các lớp. Các lớp về cơ bản là các khối tạo nên LLM, và các lệnh sẽ đi qua chúng từng lớp một cho đến khi lớp cuối cùng tạo ra phản hồi. Bạn có thể tự quyết định số lượng lớp bạn muốn chuyển tải, nhưng bất kỳ con số nào nhỏ hơn tổng số lớp đều có nghĩa là CPU của bạn sẽ gánh vác một phần công việc.

Sau khi bạn hài lòng, hãy nhấp vào load model, và mô hình sẽ được tải vào bộ nhớ và hoạt động trong các tham số đã chỉ định của bạn.

LM Studio 3

Lấy ví dụ, trên chiếc Geekom A9 Max đã đề cập ở trên, tôi có card đồ họa tích hợp Radeon 890M, và tôi muốn tận dụng gần như toàn bộ khả năng của nó. Khi tôi đang sử dụng AI, tôi không chơi game, vì vậy tôi muốn toàn bộ GPU tập trung vào LLM. Tôi đặt 16GB trong tổng số 32GB bộ nhớ hệ thống làm bộ nhớ dành riêng cho GPU để tải mô hình vào, và bắt đầu công việc.

Với một mô hình như gpt-oss:20b, tôi có thể tải toàn bộ mô hình này vào bộ nhớ GPU chuyên dụng đó, sử dụng GPU để tính toán, để phần còn lại của bộ nhớ hệ thống và CPU được yên, và đạt được khoảng 25 tokens mỗi giây.

Liệu tốc độ này có nhanh bằng PC để bàn của tôi với chiếc RTX 5080 bên trong không? Hoàn toàn không. Liệu nó có nhanh hơn so với việc sử dụng CPU không? Chắc chắn rồi. Với lợi ích bổ sung là nó không chiếm dụng gần như toàn bộ tài nguyên CPU khả dụng của tôi, những tài nguyên mà phần mềm khác trên PC có thể muốn sử dụng. GPU hầu như không hoạt động trong phần lớn thời gian; tại sao bạn lại không muốn tận dụng nó?

Tôi có thể đạt được hiệu suất cao hơn nữa nếu dành thời gian đi sâu vào chi tiết kỹ thuật, nhưng đó không phải là trọng tâm ở đây. Trọng tâm là về LM Studio, và làm thế nào mà, nếu bạn không có GPU chuyên dụng, nó là công cụ tuyệt đối bạn nên dùng cho các LLM cục bộ. Chỉ cần cài đặt nó và mọi thứ đều hoạt động.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *