Theo Beating, Nous Research đã công bố mã nguồn mở Lighthouse Attention, một cơ chế huấn luyện cho ngữ cảnh dài giúp tăng tốc 17 lần cho việc xử lý văn bản dài 512K trên một GPU B200 duy nhất, đồng thời tăng tốc huấn luyện end-to-end 1,4–1,7 lần ở độ dài 98K. Kỹ thuật này sử dụng phương pháp thô đến tinh: trước tiên, nó quét các bản tóm tắt đã được nén ở nhiều mức độ khác nhau để xác định các đoạn cốt lõi, sau đó chuyển phần văn bản đã lọc sang FlashAttention để xử lý. Trong các thử nghiệm với một mô hình 5,3 tỷ tham số được huấn luyện trên 50 tỷ token, cách tiếp cận này không chỉ rút ngắn thời gian huấn luyện mà còn đạt mức tương đương hoặc vượt hiệu năng nền của huấn luyện dựa hoàn toàn vào cơ chế attention.
Related News
OpenAI bổ sung tính năng phát hiện hội thoại khủng hoảng trên ChatGPT, nâng cao khả năng cảnh báo bạo lực tự hủy
Bittensor TAO vượt mốc 300 USD khi nhu cầu tiền mã hóa AI tăng mạnh
Các chuyên gia cho biết các zk-proof mang lại lợi thế cho DePIN khi nhu cầu về niềm tin từ AI ngày càng tăng