《NVIDIA thị phần chỉ còn 48%, Cơ hội của thời đại suy luận ở đâu?》


Đây là bài thứ chín trong series 100 bài về đầu tư AI, dài 20.000 chữ, đề nghị nên lưu lại trước, có lẽ không nhiều người đọc hết.
Các bài trước đã xem qua Intel, AMD, ARM. Trong năm qua, giá cổ phiếu của họ đều tăng không nhỏ—AMD nhân đôi, Intel gấp ba, ARM cũng vươn lên mức cao nhất lịch sử. Sau khi tăng, một câu hỏi đơn giản đã xuất hiện: Những cổ phiếu đã tăng rồi có còn nên giữ không? Những cổ phiếu chưa tăng có còn cơ hội không?
Để trả lời câu hỏi này, không thể không nhắc đến một từ khóa trung tâm—suy luận. Những công ty đó tăng giá, trong phân tích thường xuyên xuất hiện chính là hai chữ này.
Vậy: Đường đua suy luận rộng lớn đến mức nào? Hiện tại đang ở giai đoạn nào? Những công ty nào sẽ hưởng lợi? Những công ty nào đã được thị trường định giá, những chưa?
Đây là điều cần phải hiểu rõ nhất.
一、Đường đua rộng lớn đến mức nào
Huấn luyện mô hình là "viết chương trình", suy luận là "quá trình mỗi ngày chương trình này được gọi". Sau khi GPT được huấn luyện, mỗi ngày có hàng tỷ người hỏi nó vấn đề, mỗi lần hỏi đều tiêu thụ sức mạnh suy luận. Claude Code chạy một nhiệm vụ, agent tự chạy 100 vòng, mỗi vòng đều là suy luận.
Nhiều nghiên cứu ngành và truyền thông đều chỉ về một hướng: Sau khi mô hình đi vào môi trường sản xuất, suy luận sẽ trở thành phần lớn chi phí vòng đời, ước tính phổ biến trong khoảng 80-90%. Nói cách khác, trong hóa đơn tính toán của thời đại AI tương lai, 10 đồng có 8 đồng là do suy luận tiêu hao.
Nhưng thị trường trong ba năm qua hầu như chỉ bàn về huấn luyện, vì huấn luyện là câu chuyện "hấp dẫn" hơn—so xem ai có H100 nhiều hơn, tham số lớn hơn, ai huấn luyện ra mô hình thế hệ tiếp theo trước. Suy luận bị xem như là việc đi kèm sau khi huấn luyện xong.
Nhận thức lệch này đang dần được điều chỉnh, và chính điều này là lý do cốt lõi khiến giá của các công ty bán dẫn trong năm qua bị định giá lại.
Vậy đường đua suy luận lớn đến mức nào? Cụ thể có thể đo từ 5 góc độ.
Thứ nhất là số người dùng. ChatGPT hoạt động hàng tuần 9 tỷ, trả phí 50 triệu. So sánh trực tiếp ở Trung Quốc—lượng token gọi trung bình mỗi ngày từ đầu năm 2024 là 1000 tỷ, đến năm 2026 là 140 nghìn tỷ, tăng 1400 lần. Chỉ số này còn rất chưa bão hòa.
Thứ hai là cường độ sử dụng. Khối lượng token xử lý của OpenAI vào tháng 10 năm 2025 vẫn là 6 tỷ mỗi phút, đến tháng 4 năm 2026 đã là 15 tỷ—gấp 2,5 lần trong nửa năm. Doanh thu phiên bản doanh nghiệp chiếm hơn 40%, cường độ sử dụng của người dùng doanh nghiệp gấp hàng chục lần người tiêu dùng.
Thứ ba là độ dài hội thoại. Độ dài ngữ cảnh từ vài trăm token ban đầu, đến nay API DeepSeek liệt kê V4 Pro / Flash có độ dài ngữ cảnh là 1 triệu, output tối đa là 384 nghìn. Càng dài, mỗi lần suy luận tiêu thụ bộ nhớ và sức mạnh tính toán càng cao.
Thứ tư là mô hình ngày càng tốn nhiều sức mạnh tính toán hơn. Các mô hình suy luận như OpenAI o1, DeepSeek R1, Claude Thinking, trước khi trả lời câu hỏi sẽ "suy nghĩ" trong nội bộ vài nghìn thậm chí hàng vạn token. Huang Renxun từng lấy DeepSeek R1 làm ví dụ, nói rằng mô hình suy luận có thể cần lượng tính toán cao hơn nhiều, thậm chí gấp trăm lần.
Trước đây, bạn hỏi AI một câu, nó trực tiếp trả lời; bây giờ, bạn hỏi AI một vấn đề khó, nó sẽ suy nghĩ trong đầu nửa phút rồi mới trả lời. Khoảng thời gian "suy nghĩ nửa phút" này chính là tiêu hao sức mạnh tính toán mới.
Thứ năm là agent. Một agent thường phải gọi mô hình 10-100 lần cho một nhiệm vụ. Số hoạt động hàng tuần của OpenAI Codex đã vượt quá 3 triệu—chỉ là một sản phẩm của một công ty. Một người trong ngành AI nhận định, tổng tiêu hao sức mạnh tính toán của AI thông minh có thể vượt hơn 10 lần so với các mô hình ngôn ngữ quy mô lớn cùng tham số.
Năm việc nhân lên, trong vòng 3-5 năm, tổng cầu suy luận sẽ mở rộng theo cấp số nhân, không phải là chuyện phóng đại, mà là một dự đoán ngày càng trở thành xu hướng chính.
Kinh tế học có một hiện tượng cũ gọi là Paradox Jevons—khi hiệu quả sử dụng của một thứ tăng lên, tổng tiêu thụ lại tăng lên, vì nó trở nên rẻ hơn, nhiều kịch bản hơn dám dùng. Sau khi hiệu quả của máy hơi nước tăng, tiêu thụ than của Anh bùng nổ; sau khi giá token suy luận giảm, số lần gọi AI tăng vọt. Đây là cùng một kịch bản. Theo tính toán của IEA, tiêu thụ điện năng của trung tâm dữ liệu toàn cầu từ năm 2024 chiếm 1,5% tổng điện năng, đến 2030 sẽ gấp đôi, đạt 945 TWh—tương đương tổng điện năng tiêu thụ của Đức và Pháp trong một năm.
Hơn nữa, các hành động cụ thể từ ngành công nghiệp cũng có thể củng cố luận điểm:
ARR của Anthropic từ cuối năm 2024 là 1 tỷ USD, đến đầu năm 2026 là 30 tỷ USD—tăng 30 lần trong 14 tháng. Để hỗ trợ đường cong này, công ty này đã khóa hơn 11 GW sức mạnh tính toán vào cuối năm 2025 đến đầu năm 2026, trong đó đặt hàng TPU trị giá 21 tỷ USD từ Broadcom. OpenAI đã cam kết triển khai 10 GW chip tùy chỉnh. Google TPU mục tiêu xuất hàng năm 2026 đã tăng 50% lên 6 triệu chiếc.
Các khoản chi tiêu vốn của các nhà cung cấp đám mây còn rõ ràng hơn. Google dự kiến chi tiêu vốn 175-185 tỷ USD vào năm 2026, gần gấp đôi năm 2025; Amazon đầu tư 200 tỷ USD vào năm 2026; Meta dự kiến tăng 65% lên 118 tỷ USD. Tổng cộng, 8 nhà cung cấp đám mây sẽ đẩy chi tiêu vốn lên trên 600 tỷ USD vào năm 2026, tăng trưởng 40% mỗi năm.
Tổng hợp lại, kết luận đơn giản—đường cầu về suy luận AI đã vượt quá khả năng cung cấp của bất kỳ nhà cung cấp phần cứng nào.
Đây chính là bối cảnh toàn diện của đường đua suy luận: Thời kỳ huấn luyện là "tạo ra một thần", thời kỳ suy luận là "thần này mỗi ngày bị hàng tỷ người gọi, mỗi agent gọi 100 lần, mỗi lần suy nghĩ hàng vạn token". Từ trước đến nay, tiêu hao sức mạnh tính toán không tăng theo tuyến tính, mà theo cấp số nhân.
二、Những cổ phiếu nào sẽ hưởng lợi?
Đường đua rộng lớn không có nghĩa là tất cả các công ty đều hưởng lợi, hơn nữa, thế độc quyền của NVIDIA đã bắt đầu lung lay!
Trong năm 2026, thị trường chip suy luận AI toàn cầu, NVIDIA chiếm khoảng 48,2%, AMD khoảng 16,7%, nhóm ASIC tổng cộng khoảng 18,5% (trong đó Google TPU 7,8%, AWS Inferentia 5,2%, các ASIC khác 5,5%), chip suy luận nội địa Trung Quốc tổng cộng 16,6%.
Trong thị trường huấn luyện, NVIDIA vẫn giữ hơn 80% thị phần, nhưng trong thị trường suy luận đã chỉ còn dưới một nửa, là 48,2%.
Tại sao lại như vậy?
Thời kỳ huấn luyện, NVIDIA dựa vào sức mạnh tổng hợp—GPU hiệu năng cao + liên kết tốc độ cao NVLink + hệ sinh thái CUDA. Bộ combo này là "hạ cấp" trong huấn luyện.
阅读全文:《NVIDIA份额只剩 48%,推理大时代机会在哪?》
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim