Chỉ mới phát hiện ra điều thú vị mà phần lớn mọi người vẫn còn bỏ qua. Mọi người đã mê mẩn với nguồn cung GPU trong nhiều năm, nhưng âm thầm, CPU đã trở thành giới hạn thực sự trong hạ tầng AI. Và sự chuyển đổi này đang diễn ra nhanh hơn nhiều so với nhận thức của đa số.



Tháng trước, Google và Intel công bố một thỏa thuận lớn kéo dài nhiều năm nhằm giải quyết nút thắt CPU này. Thông điệp của Intel rất rõ ràng: AI không chỉ chạy trên GPU—CPU và điều phối hệ thống giờ đây là yếu tố giới hạn. Trong khi đó, giá CPU máy chủ đã tăng khoảng 30% trong quý 4 năm ngoái, điều này thật điên rồ đối với một thị trường đã trưởng thành. Thời gian giao hàng của AMD kéo dài từ 8 tuần lên hơn 10 tuần, với một số linh kiện gặp phải trì hoãn 6 tháng. Đây không phải là phóng đại—đây là áp lực cung thực sự.

Sự mỉa mai thật tàn nhẫn: các phòng thí nghiệm AI có nhiều GPU nằm chờ nhưng không thể có đủ CPU cao cấp để vận hành chúng. Công suất 3nm của TSMC đang bị siết chặt bởi các đơn hàng GPU, vì vậy phân bổ wafer CPU liên tục bị điều chỉnh lại. Thậm chí Elon Musk cũng tham gia vào cuộc chơi CPU, đặt hàng Intel thiết kế chip tùy chỉnh cho dự án Terafab của ông ở Texas. Đó là mức độ căng thẳng đến mức này.

Tại sao lại có sự chuyển đổi đột ngột như vậy? Là vì khối lượng công việc của agent hoàn toàn khác biệt so với inference truyền thống. Chatbots chủ yếu chuyển tải tính toán sang GPU. Nhưng các agent? Chúng cần điều phối API, quản lý cơ sở dữ liệu, thực thi mã, và phối hợp kết quả—tất cả đều là nhiệm vụ đòi hỏi CPU. Các nhà nghiên cứu của Georgia Tech phát hiện rằng công việc phía CPU giờ chiếm từ 50-90% tổng độ trễ trong hệ thống agent. GPU thì nằm đó sẵn sàng hoạt động trong khi CPU vẫn đang xử lý các cuộc gọi công cụ.

Việc mở rộng cửa sổ ngữ cảnh cũng không giúp ích gì. Các mô hình hiện nay hỗ trợ hơn 1 triệu token, và bộ đệm KV riêng đã đạt khoảng 200GB—vượt xa khả năng chứa của một H100 đơn lẻ. CPU phải xử lý và quản lý bộ nhớ này, vì vậy giờ đây chúng không chỉ điều phối nữa; chúng còn làm công việc quản lý dữ liệu nghiêm trọng.

Hãy xem các nhà sản xuất phản ứng thế nào. CEO Lisa Su của AMD khá thẳng thắn về vấn đề này: khối lượng công việc agent đang đẩy các tác vụ trở lại CPU truyền thống, và điều này thúc đẩy sự tăng trưởng của họ. Doanh thu trung tâm dữ liệu của AMD đạt 5,4 tỷ USD trong quý 4, tăng 39% so với cùng kỳ, với các CPU EPYC đảm nhận phần lớn công việc nặng. Thị phần CPU máy chủ của AMD lần đầu tiên vượt 40%. Nhưng AMD vẫn thiếu các khả năng kết nối CPU-GPU chặt chẽ như NVIDIA đang xây dựng với NVLink.

NVIDIA lại đi theo hướng khác. CPU Grace của họ chỉ có 72 lõi so với 128 của AMD hoặc cấu hình điển hình của Intel. Thay vì đua theo số lõi, NVIDIA tối ưu hóa cho sự hợp tác—NVLink C2C đẩy băng thông lên tới 1,8TB/s, cho phép CPU truy cập trực tiếp vào bộ nhớ GPU. Họ đã bắt đầu bán Grace như một sản phẩm độc lập, và Meta vừa thực hiện một "triển khai Grace thuần túy" mà không đi kèm GPU. Đó là tín hiệu rõ ràng.

Intel đang chơi cả hai phía—đẩy mạnh các bộ xử lý Xeon vào các đối tác hyperscaler trong khi cũng hợp tác với SambaNova về các giải pháp lai chạy inference agent mà không cần GPU. Quá trình 18A và lộ trình Xeon 6 Granite Rapids sẽ là những yếu tố then chốt đối với họ.

Đây là bức tranh lớn hơn: quan hệ đối tác $38B OpenAI của Amazon rõ ràng đề cập đến việc triển khai "hàng chục triệu CPU." Đó là một bước chuyển so với chiến lược cũ của "hàng trăm nghìn GPU." Ngân hàng Bank of America dự đoán thị trường CPU có thể tăng gấp đôi từ $27B đến $60B vào năm 2030, gần như hoàn toàn do AI thúc đẩy.

Điều chúng ta thực sự đang chứng kiến là một cuộc xây dựng lại toàn bộ hạ tầng. Các công ty không chỉ mở rộng GPU nữa—họ đồng thời xây dựng một lớp hạ tầng điều phối CPU hoàn chỉnh, đặc biệt thiết kế cho các agent AI. Khi tính toán trở nên dồi dào, hiệu quả hệ thống mới là yếu tố phân biệt. Những người chiến thắng tiếp theo trong AI sẽ không còn dựa vào số lượng GPU thuần túy nữa; họ sẽ thành công khi giải quyết được nút thắt CPU trước tiên.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim