Dữ liệu huấn luyện DeepSeek V4 tăng gấp đôi lên 33T, gây ra tình trạng mất ổn định khiến việc phát hành bị trì hoãn

Tin tức từ Gate, ngày 24 tháng 4 — Báo cáo kỹ thuật V4 của DeepSeek tiết lộ rằng V4-Flash và V4-Pro đã được tiền huấn luyện lần lượt trên 32T và 33T token, gấp đôi khoảng 15T token được dùng cho V3. Báo cáo thừa nhận đã gặp phải “những thách thức mất ổn định đáng kể” trong quá trình huấn luyện, với các đỉnh loss liên tục xuất hiện do những bất thường trong lớp Mixture-of-Experts (MoE); cơ chế định tuyến bản thân nó cũng làm trầm trọng thêm các bất thường này, và việc rollback đơn giản không thể khắc phục được vấn đề.

DeepSeek đã triển khai hai giải pháp hiện được áp dụng vào huấn luyện thực tế: Định tuyến mang tính dự đoán, tách việc tính toán chỉ mục định tuyến khỏi các cập nhật của mạng backbone và tự động chỉ kích hoạt khi phát hiện các đỉnh loss (adding khoảng 20% chi phí phát sinh), và Kẹp SwiGLU, trực tiếp triệt tiêu các bất thường bằng cách kẹp giá trị kích hoạt vào một phạm vi cố định. Báo cáo cho biết cả hai cách tiếp cận đều hiệu quả nhưng thừa nhận “những nguyên lý nền tảng vẫn chưa được hiểu đủ.”

Susan Zhang, một nhà nghiên cứu tại Google DeepMind, người trước đây từng làm việc tại Meta AI và OpenAI, nhận xét rằng sự mất ổn định do việc nhân đôi dữ liệu huấn luyện “giải thích cho sự trì hoãn.” Cô mô tả hai giải pháp là “miếng dán tạm” đồng thời thừa nhận sự minh bạch kỹ thuật của DeepSeek.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Claw Intelligence hợp tác với Block Sec Arena để tăng cường bảo mật BNB Chain

Theo thông báo chính thức của Block Sec Arena vào ngày 30 tháng 4, Claw Intelligence, một nền tảng Web3 do AI dẫn dắt được xây dựng trên BNB Chain, đã công bố quan hệ đối tác chiến lược với Block Sec Arena nhằm tích hợp cơ sở hạ tầng an ninh mạng tiên tiến vào hệ sinh thái của mình. Sự hợp tác này hướng đến việc củng cố p

GateNews4giờ trước

NTT Công bố sáng kiến AI x OWN, lên kế hoạch tăng gấp ba công suất điện tại Nhật Bản lên 1 GW vào năm 2033

Vào ngày 27 tháng 4, Chủ tịch NTT Akira Shimada đã công bố sáng kiến AI x OWN, nỗ lực của công ty nhằm thiết kế lại hạ tầng internet để phục vụ AI theo thời gian thực. NTT dự kiến sẽ nâng gấp ba công suất điện trong nước từ khoảng 300 MW hiện nay lên khoảng 1 gigawatt vào năm tài chính 2033, khi tập đoàn viễn thông

GateNews6giờ trước

Nền tảng AI Certifyde hoàn tất vòng Seed 2 triệu USD vào ngày 1 tháng 5, được hậu thuẫn bởi CEO Ripple Brad Garlinghouse

Theo TechfundingNews, nền tảng ứng dụng AI Certifyde đã hoàn tất vòng gọi vốn seed trị giá 2 triệu USD vào ngày 1 tháng 5. Các nhà đầu tư bao gồm K5 Global, Flamingo Capital và các nhà đầu tư thiên thần, trong đó có đồng sáng lập Honey George Ruan, CEO Ripple Brad Garlinghouse và đồng sáng lập Nutra Roland

GateNews7giờ trước

Nhà Khoa học của Lầu Năm Góc: Anthropic vẫn bị đưa vào danh sách đen, xử lý ngoại lệ cho Mythos

Ngày 1 tháng 5, Chánh công nghệ Bộ Quốc phòng Mỹ (Pentagon technology chief) cho biết trước Quốc hội rằng, “Anthropic vẫn nằm trong danh sách đen, nhưng Mythos Preview là một câu chuyện khác”, qua đó chính thức thừa nhận Bộ Quốc phòng đối xử khác nhau với thương hiệu chủ lực của Anthropic và mô hình mới Mythos. Tuyên bố này trùng khớp với việc Axios công bố vào ngày 19 tháng 4 rằng NSA (Cơ quan An ninh Quốc gia) đã thực tế sử dụng Mythos để tạo sự tương hỗ, đồng thời chính thức xác lập định hướng chính sách “kênh ngoại lệ đối với Mythos” — đồng thời cũng đồng nghĩa rằng, về mặt lập luận pháp lý nội bộ, trước đây Bộ Quốc phòng đã từng cho rằng việc sử dụng công cụ của Anthropic sẽ đe dọa an ninh quốc gia, trong khi cách làm hiện tại lại tạo ra mâu thuẫn. Anthropic vs Pentagon

ChainNewsAbmedia7giờ trước

137 Ventures đóng $700M trong quỹ mới, AUM đạt 15 tỷ USD

Theo ChainCatcher, 137 Ventures, nhà đầu tư sớm vào SpaceX, mới đây đã hoàn tất việc huy động vốn cho hai quỹ mới với tổng quy mô hơn 700 triệu USD, qua đó nâng tài sản được quản lý lên hơn 15 tỷ USD. Nguồn vốn mới sẽ hỗ trợ đầu tư vào các tác nhân AI, robot và hệ thống đẩy tên lửa không gian

GateNews7giờ trước

Reddit Tăng 16% nhờ Triển vọng Q2 Mạnh Mẽ; Apple Gặp Thiếu Hụt Mac khi Nhu cầu AI Vượt Quá Nguồn Cung

Cổ phiếu của Reddit đã tăng 16% trước giờ mở cửa thị trường vào thứ Sáu sau khi công ty đưa ra triển vọng doanh thu cho quý tới cao hơn dự kiến. Lượng khách truy cập hoạt động hằng ngày tăng 17% lên 126,8 triệu, trong khi doanh thu trung bình trên mỗi người dùng trên toàn cầu nhảy 44%, nhờ vào các tính năng được hỗ trợ bởi AI-powered

GateNews7giờ trước
Bình luận
0/400
Không có bình luận