Tôi nhận thấy một xu hướng thú vị trên thị trường. Các công ty, trước đây còn xa xỉ tiêu thụ token như thể đó là nước từ vòi, giờ đây lại ngồi tính toán với máy tính bỏ túi trong tay. Thời đại freeuse chính thức đã kết thúc.



Hai năm trước mọi thứ thật đơn giản. Các nhà đầu tư lớn thanh toán hóa đơn, chúng tôi viết các prompt dài, gửi toàn bộ tài liệu PDF vào mô hình, và chẳng ai quan tâm. Bây giờ? Mỗi token là tiền thật. Không phải đơn vị ảo, mà là tiền mặt thực sự.

Thật sự, điều gì đã thay đổi? Thứ nhất, chi phí tính toán đã tăng vọt. Cuộc chiến giành chip NVIDIA H100 đã biến thành một cuộc xung đột địa chính trị. Thứ hai, khi khối lượng API yêu cầu hàng ngày vượt quá hàng triệu, thì “1K Tokens” nhỏ bé đột nhiên trở thành một chiếc máy hút tiền. Token đã ngang bằng với tiền tệ thực.

Tôi hiểu rằng nhiều người không hiểu rõ tiền đang đi đâu. Nhìn vào tài khoản — sốc. Nhưng vấn đề không phải ở giá cả, mà ở cách chúng ta tiêu tiền. Giải pháp nằm trong ba điều: lưu cache ngữ nghĩa, nén prompt và định tuyến mô hình. Đây không còn là xa xỉ, mà là cần thiết.

Lưu cache ngữ nghĩa — cách đơn giản nhất để tiết kiệm. Người dùng hỏi “Làm thế nào để đặt lại mật khẩu?” hàng trăm lần mỗi ngày. Tại sao phải chạy GPT-4 mỗi lần? Lần đầu tiên tính toán, lưu kết quả vào cache, các yêu cầu sau lấy từ cache. Độ trễ từ giây chuyển sang mili giây, chi phí gần như bằng không.

Nén prompt — đã là phẫu thuật rồi. Các thuật toán phân tích xem từ nào quan trọng, từ nào thừa. Có thể nén văn bản từ 1000 token xuống còn 300, vẫn giữ được ý nghĩa. Cho phép máy móc giao tiếp bằng ngôn ngữ riêng của chúng — kết quả vẫn vậy, mà phí giảm tới 70%.

Định tuyến mô hình — là công việc kiến trúc. Không phải mọi thứ đều cần GPT-4o. Truy xuất dữ liệu đơn giản? Định tuyến sang Llama 3 8B hoặc Claude 3 Haiku rẻ hơn. Phân tích phức tạp? Vậy thì dùng mô hình mạnh. Như trong công ty: quầy lễ tân không chuyển câu hỏi trực tiếp cho giám đốc.

Tôi đã quan sát các đội ngũ tiên tiến làm điều này. OpenClaw trên thiết bị di động gần như kiểm soát token. Thay vì tạo tự do, nó bắt mô hình điền vào JSON Schema. Trông có vẻ hạn chế, nhưng thực tế tiết kiệm băng thông. Hermes Agent đi theo hướng khác — bộ nhớ động. Lưu trữ 3–5 cuộc trò chuyện gần nhất, tóm tắt các cuộc cũ bằng mô hình nhẹ, rồi lưu vào cơ sở dữ liệu vector. Đây không phải là chơi trội — mà là kiểm soát chính xác ngữ cảnh.

Bây giờ điều quan trọng nhất — là thay đổi tư duy. Trước đây, token được xem như hàng tiêu dùng. Thấy giảm giá là bỏ vào giỏ. Tự do kết nối LLM với mọi thứ, thậm chí để AI tạo menu nhà ăn. Hóa đơn cuối tháng — sốc.

Giờ đây, cần chuyển sang tư duy đầu tư. Mỗi token là một khoản đầu tư. Hỏi chính mình: điều này mang lại gì cho tôi? Tỷ lệ đóng ticket tăng? Thời gian sửa lỗi giảm? Hay chỉ để giải trí? Nếu một chức năng dựa trên quy tắc tốn 10 cent, còn LLM đòi 1 đô la mỗi token, nhưng tăng tỷ lệ chuyển đổi 2%, thì không cần suy nghĩ nữa, cắt bỏ.

Chuyển từ các giải pháp “lớn và toàn diện” sang các “nhỏ và tinh vi” chính xác. Khi doanh nghiệp hỏi: “Liệu AI có thể đọc 100 nghìn báo cáo không?”, tôi hỏi: “Liệu doanh thu có đủ để trả cho vài triệu token không?” Hãy tính toán. Tiết kiệm. Đếm token như chủ sở hữu cửa hàng thực phẩm.

Nghe có vẻ không quá công nghệ, có phần như nông nghiệp hơn. Nhưng chính điều này — là giai đoạn trưởng thành của ngành AI. Thời đại trợ cấp vô hạn đã kết thúc. Những ai hiểu kiến trúc, biết tối ưu hóa trên thiết bị di động, và nhìn vào số token với sự tính toán lạnh lùng — sẽ sống sót. Khi dòng chảy này rút lui, ai còn nổi bật, đó là những công ty chưa học cách tiết kiệm. Người biết vắt kiệt từng giọt như vàng sẽ sống sót qua cơn bão.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim