Nếu bạn thường xuyên lên mạng trong vài tháng qua, có thể bạn đã xem các bài đăng, bài báo và video trên mạng xã hội về AI và các loại nội dung mà chúng có thể tạo ra. Các sản phẩm trí tuệ của OpenAI, ChatGPT vẫn là sản phẩm phổ biến nhất cho đến gần đây. Giao diện kiểu trò chuyện của nó cho phép người dùng tương tác với mô hình AI để đặt câu hỏi, hướng dẫn ứng dụng thực hiện các tác vụ, viết mã và viết câu, đoạn văn hoặc thậm chí là toàn bộ bài viết!
Ngoài các mô hình dựa trên văn bản như ChatGPT, các dạng mô hình AI trực quan hơn có thể tạo ra hình ảnh dựa trên các hướng dẫn (như MidJourney, Stable Diffusion, DALL-E, v.v.) cũng phát triển mạnh mẽ. Bạn có thể yêu cầu những mô hình này sáng tạo tác phẩm nghệ thuật kỹ thuật số dựa trên các câu lệnh như sau: “một cô gái xinh đẹp trên đường phố Paris, chơi ghi-ta”.
Với một trong các mô hình kể trên, dưới đây là hình ảnh kết quả mà chúng ta thu được từ các câu lệnh: hình ảnh được tạo ra ở đây
Các công cụ mạnh mẽ này hoàn toàn làm cho ngành công nghiệp bị đảo lộn là điều có thể dễ dàng hiểu được. Mặc dù không có mô hình AI nào có thể làm được những tác vụ hệt như con người trong lĩnh vực nghệ thuật, đồ họa, viết lách và sáng tạo nói chung, nhưng nhiều ngành nghề đang bắt đầu thấy được tác động.
Nếu bạn thường xuyên lên mạng trong vài tháng qua, có thể bạn đã xem các bài đăng, bài báo và video trên mạng xã hội về AI và các loại nội dung mà chúng có thể tạo ra. Các sản phẩm trí tuệ của OpenAI, ChatGPT vẫn là sản phẩm phổ biến nhất cho đến gần đây. Giao diện kiểu trò chuyện của nó cho phép người dùng tương tác với mô hình AI để đặt câu hỏi, hướng dẫn ứng dụng thực hiện các tác vụ, viết mã và viết câu, đoạn văn hoặc thậm chí là toàn bộ bài viết!
Ngoài các mô hình dựa trên văn bản như ChatGPT, các dạng mô hình AI trực quan hơn có thể tạo ra hình ảnh dựa trên các hướng dẫn (như MidJourney, Stable Diffusion, DALL-E, v.v.) cũng phát triển mạnh mẽ. Bạn có thể yêu cầu những mô hình này sáng tạo tác phẩm nghệ thuật kỹ thuật số dựa trên các câu lệnh như sau: “một cô gái xinh đẹp trên đường phố Paris, chơi ghi-ta”.
Với một trong các mô hình kể trên, dưới đây là hình ảnh kết quả mà chúng ta thu được từ các câu lệnh: hình ảnh được tạo ra ở đây
Các công cụ mạnh mẽ này hoàn toàn làm cho ngành công nghiệp bị đảo lộn là điều có thể dễ dàng hiểu được. Mặc dù không có mô hình AI nào có thể làm được những tác vụ hệt như con người trong lĩnh vực nghệ thuật, đồ họa, viết lách và sáng tạo nói chung, nhưng nhiều ngành nghề đang bắt đầu thấy được tác động.
1. VRAM và các mô hình AI: Bạn sẽ cần bao nhiêu?
Một số công cụ AI hiện nay trở nên nổi bật nhờ tính chất mã nguồn mở – đem đến cho người dùng, doanh nghiệp và tổ chức khả năng lưu trữ cục bộ các mô hình này trên phần cứng của mình mà không có bất kỳ mối lo ngại nào về quyền riêng tư hoặc bảo mật.
Mặc dù các doanh nghiệp lớn không thiếu cơ sở hạ tầng hay kinh phí để tự tổ chức vận hành các mô hình này, nhưng có thể sẽ rất khó khăn để các cá nhân và chuyên gia tận dụng các mô hình AI này. Một trong những lý do khiến các mô hình AI có thể hoạt động siêu chậm hoặc thậm chí hoàn toàn không được hỗ trợ trên phần cứng hiện đại là do yêu cầu về mức VRAM đối với các mô hình đó.
2. Cấu hình tối thiểu với Stable Diffusion XL
Một ví dụ cho trường hợp này là mô hình Stable Diffusion XL (SDXL) mới được Stability AI phát hành. Công ty mô tả đây là phiên bản “tiên tiến nhất” từ trước đến nay.
Giờ đây, mô hình này có thể tạo ra các khuôn mặt được cải thiện, văn bản dễ đọc và các tác phẩm nghệ thuật mang tính thẩm mỹ cao hơn bằng cách sử dụng các câu lệnh ngắn hơn. Tuy nhiên, những tính năng tăng cường này có mức đòi hỏi cao về phần cứng, đặc biệt là yêu cầu với VRAM và hiệu suất GPU.
Vậy nên, chính xác là bạn cần những gì để có thể tận hưởng các tính năng được cải thiện trên SDXL trên máy của mình tại nhà?
Đầu tiên, Stability AI đã khuyến nghĩ các mẫu card đồ họa Nvidia cho tác vụ này, vì vậy, chúng tôi sẽ sử dụng các sản phẩm thế hệ hiện tại và thế hệ trước để hiểu rõ hơn về hiệu năng mà bạn có thể mong đợi từ mô hình này. Mặc dù Stability AI yêu cầu VRAM tối thiểu 8 GB trong thông cáo báo chí mà họ đã công bố, chúng tôi vẫn muốn xác định tác động của mức dung lượng VRAM cao hơn.
Liệu việc chỉ đạt mức tối thiểu (hoặc chỉ cao hơn một chút) có ảnh hưởng đáng kể đến hiệu suất? Hay GPU mạnh hơn có thể bù đắp cho việc thiếu VRAM không?
Để trả lời câu hỏi đó, chúng tôi để phòng thí nghiệm của mình thử nghiệm để xem mô hình hoạt động như thế nào trên phần cứng thế hệ hiện tại và thế hệ trước đây. Dữ liệu thu được sẽ giúp cho bạn đưa ra quyết định lựa chọ mua mẫu card đồ hoạ tiếp theo sáng suốt hơn.
3. Chấm điểm GPU SDXL cho các card đồ hoạ GeForce.
Đối với các cuộc thử nghiệm này, chúng tôi sẽ sử dụng một card RTX 4060 Ti 16 GB, một card RTX 3080 10 GB, và một card đồ hoạ RTX 3060 12 GB.
Đầu tiên, hãy bắt đầu với bài thử nghiệm sáng tác tác phẩm nghệ thuật đơn giản sử dụng các tham số mặc định để giúp các mẫu GPU của chúng ta luyện tập hiệu quả.
1024 x 1024 | Kích thước VRAM (GB) | Tốc độ(giây.) |
RTX 4060 Ti 16G | 11.4 GB | 16.0 giây |
RTX 3080 10G | 9.7 GB | 65.1 giây |
RTX 3060 12G | 11.7 GB | |
Các kết quả này có thể gây ngạc nhiên cho những ai thường xuyên chỉ chuyên chú vào quá trình chấm điểm dựa trên các tựa game.
Mẫu card RTX 4060 Ti 16GB, với bộ nhớ đệm 16GB VRAM, dễ dàng qua mặt các mẫu card đồ hoạ khác với chỉ 16 giây để hoàn thành tác vụ. Tiếp theo ở vị trí thứ nhì, nhờ vào mức VRAM 12GB , mẫu card đồ hoạ RTX 3060 12GB hoàn thành trong 27.2 giây. Kết quả này không phải hàng đầu, nhưng cũng đã rất tốt.
Không may là, do thiếu thốn về lượng VRAM trang bị cho mẫu RTX 3080, sức mạnh thuần tuý trong khả năng dựng hình không có tác dụng gì mấy khi hoàn thành tác vụ với mức thời gian vô cùng chậm, đến 65.1 giây! Vì vậy, một mẫu card đồ hoạ RTX 4060 Ti 16GB hiện đại sẽ vượt qua RTX 3080 cao cấp thế hệ trước với thời gian tạo ra hình ảnh nhanh hơn gần 4 lần.
4. Chấm điểm với SDXL: 1024×1024 + LoRA
Chúng ta hãy tăng yêu cầu lên một chút nhé? Đối với thử nghiệm tiếp theo, chúng tôi sẽ thử với LoRA.
LoRA hay còn được biết tới là Kỹ thuật Low-Rank Adaptation cho phép bạn tinh chỉnh các mô hình Stable Diffusion theo các phong cách nghệ thuật hoặc nhân vật cụ thể. Tuy nhiên, điều này sẽ gây áp lực lên VRAM của bạn nhiều hơn, vì vậy hãy xem các thí sinh của chúng ta hoạt động như thế nào trong phép thử này.
Hãy sử dụng LoRA để tạo ra một tác phẩm nghệ thuật ‘Cybergirl’ nhằm tìm hiểu xem có sự khác biệt như thế nào giữa một card đồ họa có VRAM vừa đủ và một card dư giả.
1024 x 1024 + LoRA | Kích thước VRAM(GB) | Tốc độ(giây.) |
RTX 4060 Ti 16G | 15.5 GB | 17.0 giây |
RTX 3080 10G | 9.6 GB | 98.8 giây |
RTX 3060 12G | 11.5 GB | 26.8 giây |
Kết quả này cho thấy, RTX 3080 dễ dàng bị đánh bại bởi các card dòng 60 sở hữu nhiều VRAM hơn. RTX 4060 Ti 16GB một lần nữa dẫn đầu khi chỉ mất 17 giây để tạo ra hình ảnh, trong khi RTX 3080 tụt lại phía sau với tốc độ chậm như rùa là 98,8 giây.
5. Chấm điểm SDXL: 1024×1024 + LoRA + ControlNet
Bây giờ, hãy làm cho các bài tập khó nhằn hơn một chút để thử nghiệm các mẫu card dòng 60 với một số điều kiện bổ sung bằng ControlNet.
Trước hết, chính xác thì ControlNet là gì? Nói một cách đơn giản, đó là một mô hình mạng thần kinh (Neural Network) mà bạn có thể sử dụng để kiểm soát và tinh chỉnh thêm các thành phần trong Stable Diffusion (đầu ra). Nó cho phép bạn thông báo cho Stable Diffusion rằng bạn đang cung cấp tham chiếu rõ ràng cho thiết kế mà bạn muốn bằng cách thêm nhiều điều kiện hơn vào đầu ra, tinh chỉnh thêm để kết quả thu được phù hợp hơn với những gì bạn cần.
1024 x 1024 + LoRA + controlnet | Kích thước VRAM(GB) | Tốc độ(giây.) |
RTX 4060 Ti 16G | 15.2 GB | 48.7 giây |
RTX 3080 10G | 9.7 GB | 51 giây |
RTX 3060 12G | 11.5 GB | |
Mức độ chênh lệch giữa các mẫu card đồ hoạ đã khá sít sao, RTX 3080 gần như thu hẹp khoảng cách với RTX 4060 TI 16 GB và cuối cùng đánh bại hoàn toàn RTX 3060 12 GB. Tuy nhiên, ngay cả trong tình huống tính toán siêu nặng này, RTX 4060 Ti 16GB vẫn đứng đầu dù là với mức chênh lệch rất nhỏ.
6. Chấm điểm SDXL: 1024×1024 + Upscaling
Bây giờ, hãy thử nghiệm nâng tỷ lệ (upscale) một số hình ảnh. Liệu các thí sinh dòng 60 của chúng ta có còn theo kịp sức mạnh upscale đáng kể của RTX 3080 không? Đối với những thử nghiệm này, chúng tôi sẽ sử dụng mô hình Real Enhanced Super-Resolution Generative Adversarial Networks, còn được biết đến với cái tên viết tắt quen thuộc hơn – R-ESRGAN 4x+.
1024 x 1024 nâng tỷ lệ x2 lần | Kích thước VRAM(GB) | Tốc độ(giây.) |
RTX 4060 Ti 16G | 10.8 GB | 5.5 giây |
RTX 3080 10G | 10 GB | 8.6 giây |
RTX 3060 12G | 10.4 GB | 7.8 giây |
Để upscale hình ảnh ở độ phân giải 1024×1024 lên gấp 2 lần, RTX 4060 Ti 16 GB hoạt động nhanh hơn cả RTX 3080 và RTX 3060 12 GB, chỉ mất 5,5 giây để hoàn thành – khiến quá trình tạo hình ảnh nhanh hơn 36% so với RTX 3080 10 GB.
1024 x 1024 nâng tỷ lệ x4 lần | Kích thước VRAM(GB) | Tốc độ(giây.) |
RTX 4060 Ti 16G | 10.5 GB | 10 giây |
RTX 3080 10G | 10 GB | 13 giây |
RTX 3060 12G | 10.4 GB | |
Khoảng cách giữa RTX 4060 Ti 16 GB và đối thủ ngày càng thu hẹp lại với tác vụ nâng cấp độ phân giải gấp 4 lần bằng cách sử dụng bộ upscaler R-ESRGAN 4x+. Giờ đây, RTX 4060 Ti 16 GB hoàn thành tác vụ nhanh hơn 23% so với RTX 3080 10 GB, trong khi RTX 3060 12 GB vẫn có tốc độ ngang ngửa với RTX 3080. Tuy nhiên, RTX 4060 Ti 16GB vẫn giữ được vị trí dẫn đầu .
Như bạn có thể thấy từ một số kết quả cuối cùng này, khối lượng công việc nâng tỷ lệ càng nặng thì RTX 3080 càng tiến gần đến đối thủ cạnh tranh card đồ hoạ dòng 60.
7. Card đồ hoạ đáng giá nhất dành cho Stable Diffusion XL
Khi nhắc đến các mô hình AI như Stable Diffusion XL, có đủ VRAM là điều quan trọng. Từ thử nghiệm trên, có thể dễ dàng nhận thấy RTX 4060 Ti 16GB là card đồ họa có giá trị tốt nhất mà bạn có thể mua để tạo hình ảnh AI hiện nay.