Google DeepMind ra mắt DiffusionGemma với tốc độ nhanh gấp 4 lần cho AI tại chỗ

2026-06-10 19:39:38

Google DeepMind đã ra mắt DiffusionGemma, một thành viên mới của gia đình mô hình mở Gemma 4. Mô hình này tạo văn bản thông qua xử lý song song thay vì sinh token theo trình tự từng cái một. DiffusionGemma đạt hiệu năng nhanh hơn và hiệu quả hơn trên phần cứng cục bộ, bao gồm các hệ thống Nvidia DGX và GPU gaming phổ thông. Không giống các mô hình tự hồi quy (autoregressive) tạo văn bản từ trái sang phải, từng token một, DiffusionGemma sử dụng phương pháp dựa trên khuếch tán (diffusion), tương tự các mô hình tạo hình ảnh: bắt đầu với các token dạng placeholder rồi tinh chỉnh qua nhiều lượt để tạo ra đồng thời các khối văn bản hoàn chỉnh. Sự thay đổi kiến trúc này giúp tăng tốc độ đầu ra lên khoảng 4 lần so với các mô hình autoregressive Gemma có kích thước tương đương, đồng thời vẫn nằm trong giới hạn bộ nhớ của các GPU consumer cao cấp.

DiffusionGemma Dùng Kiến trúc Dựa trên Khuếch tán để Tạo Văn bản Song song

Phần lớn các mô hình AI đều được thiết kế theo hướng autoregressive, sinh văn bản trái sang phải, từng token một. DiffusionGemma có nhiều điểm chung với các mô hình tạo hình ảnh: chúng bắt đầu từ một trạng thái tĩnh rồi khử nhiễu (denoise) để tạo ra nội dung mong muốn. Mô hình này chạy một trường các token placeholder trên “bức tranh” (canvas) nhiều lần để sinh ra các token có khả năng cao, rồi dùng chúng để cải thiện ước lượng cho các token khác. Ở cuối quá trình, mô hình chốt các đầu ra token trong một khối lớn duy nhất—the “bức tranh” văn bản đã được khử nhiễu.

DiffusionGemma là mô hình Mixture of Experts (MoE) với tổng cộng 26 tỷ tham số, nhưng chỉ có 3,8 tỷ được kích hoạt trong giai đoạn suy luận (inference). Điều đó có nghĩa là mô hình có thể vừa trong giới hạn phân bổ RAM 18GB của một GPU cao cấp. Cách tiếp cận này chuyển điểm nghẽn từ băng thông bộ nhớ sang năng lực tính toán (compute), tạo ra tối đa 256 token song song.

Mô hình đạt 700-1000+ token mỗi giây trên nhiều cấu hình phần cứng

Trong thử nghiệm với RTX 5090, DiffusionGemma cho ra khoảng 700 token mỗi giây. Với một bộ tăng tốc AI Nvidia H100, DiffusionGemma có thể tạo hơn 1.000 token mỗi giây. Đây là khoảng 4 lần tốc độ đầu ra của các mô hình autoregressive Gemma có kích thước tương đương.

DiffusionGemma cho thấy lợi thế trong việc giải các tác vụ phi tuyến

Google cho biết cách này mang lại mức tăng hiệu quả đo được trong các tác vụ phi tuyến như chỉnh sửa tại chỗ (in-line editing), giải mã chuỗi phân tử (molecular sequencing) và vẽ biểu đồ đồ thị toán học (mathematical graphing). DiffusionGemma được tinh chỉnh để giải các câu đố Sudoku, một tác vụ vốn rất khó đối với các mô hình AI autoregressive chuẩn vì mỗi token phụ thuộc vào các token ở tương lai. Khả năng tự hiệu chỉnh liên tục của DiffusionGemma trên các bộ token lớn giúp việc đó trở nên dễ dàng hơn.

FAQ

DiffusionGemma là gì và khác gì so với các mô hình AI khác?

DiffusionGemma là một mô hình AI mở mới từ Google DeepMind sử dụng kiến trúc dựa trên khuếch tán để tạo văn bản theo hướng song song, thay vì sinh tuần tự. Khác với các mô hình autoregressive tạo văn bản một token tại một thời điểm từ trái sang phải, DiffusionGemma bắt đầu bằng các token placeholder và tinh chỉnh chúng qua nhiều lượt, rồi chốt các khối văn bản hoàn chỉnh đồng thời, tương tự như cách các mô hình tạo hình ảnh khử nhiễu từ trạng thái tĩnh để tạo ra hình ảnh mạch lạc.

DiffusionGemma nhanh cỡ nào so với các mô hình Gemma khác?

DiffusionGemma cho ra khoảng 700 token mỗi giây trên GPU RTX 5090 và hơn 1.000 token mỗi giây trên một bộ tăng tốc AI Nvidia H100. Điều này tương ứng với khoảng 4 lần tốc độ đầu ra của các mô hình autoregressive Gemma có kích thước tương đương, trong khi vẫn phù hợp với phân bổ RAM 18GB của các GPU consumer cao cấp nhờ kiến trúc Mixture of Experts: tổng 26 tỷ tham số, nhưng chỉ 3,8 tỷ được kích hoạt trong giai đoạn suy luận.

DiffusionGemma thực hiện tốt hơn những loại tác vụ nào?

Google cho biết DiffusionGemma mang lại cải thiện hiệu năng đo được trong các tác vụ phi tuyến như in-line editing, molecular sequencing, mathematical graphing và giải Sudoku. Khả năng tự hiệu chỉnh liên tục của mô hình trên các tập token lớn khiến nó đặc biệt hiệu quả cho các tác vụ mà mỗi token phụ thuộc vào các token ở tương lai—vốn là dạng thách thức đối với các mô hình AI autoregressive chuẩn.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

17giờ trước

Google Ra mắt Gemini 3.5 Live Translate hỗ trợ hơn 70 ngôn ngữ cho dịch thuật giọng nói thời gian thực

20giờ trước

Microsoft hậu thuẫn D-Matrix bắt đầu giao chip AI Corsair trong tháng này, trích dẫn mức tăng hiệu năng 2x-10x

06-09 15:22

Google ra mắt Gemini 3.5 chuyển giọng nói thời gian thực sang giọng nói vào ngày 9 tháng 6