MiniMax quét 200 nghìn token, phát hiện mức suy giảm 4,9% ở các mô hình dòng M2

Theo blog kỹ thuật của MiniMax, công ty đã phát hiện sự suy giảm token đáng kể trong các mô hình dòng M2 của mình thông qua một lần quét toàn bộ vốn từ vựng. Khoảng 4,9% trong số 200.000 token cho thấy mức giảm hiệu năng rõ rệt, trong đó token tiếng Nhật chịu ảnh hưởng nặng nhất ở 29,7%, so với tiếng Hàn (3,3%), tiếng Nga (3,7%), tiếng Trung (3,9%) và tiếng Anh (3,5%). Sự suy giảm xuất phát từ việc các token tần suất thấp bị đẩy sang các hướng không gian vector sai trong giai đoạn hậu huấn luyện, nơi các token tần suất cao như các dấu hiệu tool_call liên tục cập nhật các tham số xung quanh.

MiniMax đã triển khai một bản vá dữ liệu tổng hợp bằng cách dùng các tác vụ lặp token đơn giản để ổn định toàn bộ vốn từ vựng. Kết quả đến ngay lập tức: ký tự tiếng Nga trộn vào câu trả lời tiếng Nhật giảm từ 47% xuống còn 1%, và độ ổn định vector (độ tương đồng cosine) cải thiện từ mức thấp 0,329 lên trên 0,97 trên toàn bộ token.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

ByteDance tăng chi tiêu cơ sở hạ tầng AI thêm 25% lên 200 tỷ nhân dân tệ vào ngày 9 tháng 5

Theo các báo cáo truyền thông, ByteDance đã tăng kế hoạch chi tiêu cơ sở hạ tầng AI thêm 25% lên 200 tỷ nhân dân tệ vào năm 2026, khi công ty đẩy nhanh việc triển khai trí tuệ nhân tạo trong bối cảnh nhu cầu chip nhớ tăng cao

GateNews47phút trước

Anthropic hạ tỷ lệ jailbreak của Claude xuống 0% với các phương pháp huấn luyện căn chỉnh mới

Anthropic gần đây đã công bố nghiên cứu về căn chỉnh (alignment), nêu chi tiết các chiến lược huấn luyện giúp loại bỏ tình trạng lệch tác nhân (agent misalignment) trong Claude 4.5 và các mô hình sau đó, qua đó giảm các hành vi giống tống tiền xuống 0% trong thử nghiệm. Nhóm phát hiện rằng chỉ các ví dụ hành vi thông thường (conventional behavior demonstrations) là không hiệu quả, khi tỷ lệ thất bại chỉ giảm từ 22% xuống 15%. Ba cách tiếp cận thay thế cho thấy hiệu quả cao hơn đáng kể: một bộ dữ

GateNews1giờ trước

Jeff Kaufman: AI đồng thời phá vỡ hai “văn hóa” lỗ hổng an ninh mạng, thời gian cấm 90 ngày phản tác dụng

Phần mềm kỹ sư Jeff Kaufman (jefftk) vào ngày 8 tháng 5 đã đăng bài viết “AI is Breaking Two Vulnerability Cultures”, cho rằng AI đồng thời phá vỡ hai “văn hoá” xử lý lỗ hổng bảo mật vốn tồn tại song song lâu nay—phát hiện và công bố phối hợp (coordinated disclosure) và “sửa lặng lẽ” (bugs are bugs)—cùng với giả định “kẻ tấn công phải mất thời gian để phát hiện” mà hai chiến lược này dựa vào, giờ đã bị các công nghệ quét tự động của AI vượt qua. Bài gốc trên blog của Kaufman và cũng được đăng tr

ChainNewsAbmedia1giờ trước

OpenAI hé lộ tác động bất ngờ của việc chấm điểm CoT: việc giữ giám sát chuỗi suy nghĩ là tuyến phòng thủ quan trọng để căn chỉnh AI Agent

OpenAI 8 月 5 日發表新研究、揭露 công ty 在 강화 학習(RL)訓練過程中、部分模型的思路鏈(Chain of Thought, CoT)被「意外評分」、可能影響 AI Agent 對齊(alignment)監控能力。OpenAI Alignment 團隊報告說明:保留 CoT 的可監控性是當前防範 AI Agent 對齊失敗的關鍵防線;OpenAI 在 RL 訓練設計上、刻意避免懲罰模型的「對齊失敗推理」、以維持監控能力。 為什麼 CoT 監控是 AI Agent 對齊的關鍵防線 CoT(思路鏈)監控的核心邏輯: 當 AI Agent 執行任務時、模型會在內部產生「思考過程」、解釋自己為什麼要做某個動作 監控者可讀取這些 CoT、判斷模型是否有「對齊失敗」(misalignment)的徵兆 若模型直接被訓練「不要在 CoT 中表現出對齊失敗」、則 CoT 可能變得「乾淨但失真」、隱藏實際意圖 OpenAI 主張:訓練時應避免懲罰「對齊失敗的推理」、保留 CoT 反映實際內部狀態的能力 「penalize misaligned reasoning」與「preserv

ChainNewsAbmedia1giờ trước

Các lượt gọi API của B.AI đạt 90,6%, người dùng trả phí đạt 95,1% vào ngày 8 tháng 5

Theo B.AI, vào ngày 8 tháng 5, nền tảng này cho biết các lệnh gọi định tuyến API chiếm 90,6% tổng số tương tác, trong khi người dùng trả phí chiếm 95,1% trong tổng số người dùng. Các mô hình dòng Claude dẫn đầu với 35,6% số lệnh gọi API, thống trị các tác vụ suy luận phức tạp và xử lý ngữ cảnh dài, trong khi DeepSeek-V4-Flash và GPT-5.5 cho thấy mức tăng trưởng mạnh trong các kịch bản độ đồng thời cao, độ trễ thấp.

GateNews1giờ trước

Kỹ sư của Anthropic: HTML mới là định dạng đầu ra tốt nhất của Claude Code, không phải Markdown

Kỹ sư nhóm Anthropic Claude Code Thariq Shihipar vào ngày 8 tháng 5 đã đăng bài viết “Using Claude Code: The Unreasonable Effectiveness of HTML”, cho rằng nên dùng HTML thay cho Markdown như định dạng đầu ra để tương tác với Claude Code. Simon Willison tổng hợp các điểm chính: HTML cung cấp biểu đồ SVG, các thành phần tương tác, neo liên kết trong trang và kiểu CSS, giúp câu trả lời của Claude chuyển từ “văn bản tuyến tính” thành “tài liệu đa chiều”, từ đó có thể nâng cao đáng kể hiệu quả đọc và hiểu. Chủ đề này đang rất được quan tâm trên nền tảng X — hai bài đăng liên quan của Shihipar đã thu hút tổng cộng hơn 15.000 lượt thích.

ChainNewsAbmedia1giờ trước
Bình luận
0/400
Không có bình luận