AI tạo nên làn sóng mới về nhu cầu bộ nhớ, kéo giá tăng theo. Tuy vậy, bên ngoài vẫn lo ngại liệu HBM có thể lặp lại số phận “mang tính chu kỳ”: sau khi chạm đỉnh nhu cầu sẽ nhanh chóng đảo chiều, giống như DRAM trong quá khứ. Phân tích gia cấu trúc bán dẫn fin cho biết, logic nhu cầu của HBM đã tách khỏi quy luật ngành bộ nhớ truyền thống, và đang được định giá lại thông qua token.

(Đà tăng bộ nhớ chậm lại? Đánh giá của tổ chức: mức tăng Q2 thu hẹp còn 30%, nửa cuối năm tiếp tục hạ nhiệt)

Bộ nhớ trong kỷ nguyên CPU: món đồ phụ có cũng được, không có cũng chẳng sao

fin chỉ ra rằng trong thời đại mà CPU dẫn dắt hoạt động tính toán, vai trò của DDR luôn chỉ là phụ trợ. Các kỹ sư CPU đã phát triển một loạt kỹ thuật kiến trúc để che giấu độ trễ bộ nhớ, bao gồm thiết kế siêu phân luồng (superscalar), bộ nhớ đệm đa tầng, đổi tên thanh ghi (register renaming)… giúp bộ xử lý duy trì hiệu năng cao mà không phụ thuộc vào điều kiện phải có bộ nhớ tốc độ cao:

Nguyên tắc kinh nghiệm trong ngành là: dù băng thông của DDR có thể tăng gấp đôi trực tiếp, thì mức cải thiện hiệu năng tổng thể của CPU thường cũng không vượt quá khoảng hai phần mươi.

Kiến trúc này trực tiếp định hình nhịp tăng trưởng của ngành DRAM trong nhiều thập kỷ qua. Từ DDR3 đến DDR5, đã mất đúng 15 năm; trong 10 năm qua, dung lượng DDR phổ biến của PC tăng từ 7 đến 8 GB lên khoảng 23 GB, tức chỉ tăng gấp khoảng 3 lần trong 10 năm. Nguồn lợi nhuận chính của các nhà sản xuất DRAM đến từ quy mô dung lượng; việc nâng cấp băng thông chỉ là cách kéo giá bán đơn vị lên.

Trong kỷ nguyên CPU, bộ nhớ là một trong những mắt xích có giá trị sử dụng cận biên thấp nhất trong chuỗi ngành chip; biến động theo chu kỳ là bình thường và cũng là số phận.

Bước sang kỷ nguyên AI suy luận, viết lại chuẩn mực giá trị của bộ nhớ

Tuy nhiên, khi vai trò “nhân vật chính” chuyển sang động cơ suy luận AI, thước đo cũng thay đổi theo. Các nhà sản xuất chip giờ đây so sánh xem mỗi giây có thể thực hiện bao nhiêu phép toán dấu phẩy động; còn trong kỷ nguyên AI, KPI cốt lõi chỉ còn một: với mỗi đơn vị chi phí và mỗi đơn vị công suất, tạo ra được bao nhiêu token.

Khái niệm “nhà máy AI” do CEO Nvidia Huang Renxun đưa ra mô tả chính xác logic mới này: ý nghĩa của nhà máy AI là sản xuất nhiều token nhất với chi phí thấp nhất, đồng thời đẩy tốc độ xuất token đến giới hạn tối đa. Mục tiêu tối ưu chuyển từ một chiều sang nhiều chiều: vừa tối đa hóa tổng thông lượng token, vừa nhắm đến tốc độ xuất token trên mỗi yêu cầu.

Sự thay đổi KPI này chính là điểm khởi đầu để vận mệnh HBM đảo chiều.

Công thức thông lượng token vén trần nguyên lý thứ nhất của nhu cầu HBM

fin phân tích thông lượng token trong suy luận AI thành tích của hai tham số: “số lượng lô yêu cầu được xử lý đồng thời × tốc độ tạo token trung bình của mỗi yêu cầu”. Bằng cách lần theo “điểm nghẽn” của từng tham số, câu trả lời đều chỉ đến cùng một linh kiện.

Điểm nghẽn về số lượng lô nằm ở dung lượng lưu trữ của HBM. Mỗi yêu cầu suy luận mang theo KV cache riêng, tức cơ chế lưu trạng thái trung gian trong quá trình suy luận mô hình; và phần cache này phải được lưu ngay trong HBM để khi mô hình tạo ra từng token, có thể đọc đi đọc lại với tốc độ cao. Lô càng lớn thì HBM cần dung lượng càng lớn, hai đại lượng này quan hệ tuyến tính.

Điểm nghẽn về tốc độ token nằm ở băng thông của HBM. Ở giai đoạn giải mã, mỗi khi mô hình tạo ra một token, đều cần đọc đi đọc lại trọng số khởi động cỡ lớn và KV cache. Tốc độ đọc quyết định trực tiếp hiệu suất tạo token, và giới hạn tốc độ đọc chính là băng thông của HBM.

Ông cho biết mối quan hệ này có thể ví như xe buýt sân bay: dung lượng HBM là kích thước khoang xe buýt, quyết định một chuyến chở được bao nhiêu hành khách; băng thông HBM là độ rộng cửa lên/xuống, quyết định tốc độ hành khách ra vào; tổng thông lượng vận chuyển hành khách chính là tích của kích thước khoang xe với tốc độ xe. Từ đó suy ra nguyên tắc đầu tiên về nhu cầu phần cứng cho suy luận AI:

Thông lượng token = dung lượng HBM × băng thông HBM

Nếu muốn thông lượng token của mỗi thế hệ GPU duy trì mức tăng trưởng gấp đôi qua các thế hệ, thì tích giữa dung lượng HBM và băng thông HBM phải được nhân đôi ở mỗi thế hệ.

Tối ưu phần mềm không giải được bài toán; nhu cầu HBM bám quỹ đạo tăng theo cấp số nhân

Trước các suy luận này, phản biện phổ biến nhất của thị trường là: liệu tối ưu phần mềm có thể giảm sự phụ thuộc vào HBM hay không? Câu trả lời của ông là: hiệu quả phần mềm và tiến bộ cấu hình phần cứng là hai chiều hoàn toàn độc lập, không thay thế cho nhau. Giống như dù tối ưu phần mềm CPU có triệt để đến đâu, vẫn không thể ngăn Intel hoặc AMD ở mỗi thế hệ phải đạt điểm chạy cao hơn trong các bài chuẩn đo lường, nếu không thì sản phẩm sẽ không bán được.

Logic của GPU cũng hoàn toàn tương tự: chỉ cần nhu cầu token trên toàn cầu tiếp tục mở rộng, thì sự theo đuổi thông lượng token cao hơn sẽ không dừng lại, và nhu cầu cải tiến cả hai mặt của HBM cũng không thể dừng.

Quan trọng hơn, áp lực này không đến từ việc điều kiện thị trường bên ngoài kéo lên, mà là nhu cầu nội sinh từ phía cung. Chỉ cần Nvidia còn phải bán GPU thế hệ tiếp theo, thì tất yếu sẽ gây sức ép lên SK Hynix, Samsung và Micron, yêu cầu mỗi thế hệ HBM phải nhảy vọt đồng bộ về dung lượng lẫn băng thông, vì trần của HBM chính là trần hiệu năng của GPU.

Nếu vẽ thông lượng token qua các thế hệ GPU của Nvidia từ A100 đến Rubin Ultra cùng với các giá trị tương ứng của “dung lượng HBM × băng thông HBM” trên cùng một hệ tọa độ log, mức độ khớp giữa hai đường cong sẽ khiến người ta bất ngờ. Đây không phải trùng hợp của lịch sử, mà là hệ quả tất yếu của tối ưu hóa hệ thống.

HBM chào tạm biệt định mệnh chu kỳ, còn logic định giá thị trường vẫn cần đánh giá lại

Tổng hợp các suy luận ở cấp độ kiến trúc nêu trên, khác biệt bản chất giữa HBM và DRAM truyền thống đã trở nên rõ ràng. Bộ nhớ truyền thống vốn chỉ là “đồ phụ” của chuỗi ngành chip; động lực theo nhu cầu yếu, và một khi nhịp mở rộng công suất vượt quá tốc độ phục hồi nhu cầu, việc sụt giá theo chu kỳ sẽ đến đúng hẹn.

Nhưng nhu cầu HBM đã được logic vật lý của kiến trúc suy luận AI khóa chặt trên quỹ đạo tăng trưởng theo cấp số nhân. Điều này không có quan hệ nhân quả trực tiếp với việc thị trường AI nóng hay lạnh, cũng như chu kỳ kinh tế vĩ mô.

Tất nhiên, vấn đề thực sự không nằm ở phía nhu cầu, mà ở phía cung: liệu ba “đại gia” SK Hynix, Samsung và Micron khi đối mặt với nhu cầu mạnh mẽ có kiềm chế được “cơn sốt” mở rộng công suất mù quáng từng lặp đi lặp lại trong vài chục năm qua hay không, để tránh gieo thêm tai họa của cung vượt cầu theo chu kỳ? Câu trả lời cho bài toán này sẽ là biến số then chốt quyết định liệu chu kỳ bộ nhớ lần này có thể được duy trì lâu dài hay không.

(Cổ phiếu bộ nhớ sụp đổ mua được không? Nhà phân tích của Samsung Securities: điều chỉnh trong chu kỳ chứ không phải đỉnh điểm của kỳ vọng)

Bài viết này phá vỡ “ảo tưởng chu kỳ”! Một công thức tháo tách cấu trúc nhu cầu HBM: vì sao bộ nhớ sẽ chỉ tiếp tục tăng? Lần đầu xuất hiện tại Chuỗi tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.