Tin cổng, ngày 24 tháng 4 — DeepSeek đã phát hành loạt mô hình mã nguồn mở V4 theo Giấy phép MIT, với trọng số hiện đã có trên Hugging Face và ModelScope. Loạt này bao gồm hai mô hình (MoE) dạng mixture-of-experts: V4-Pro với 1,6 nghìn tỷ tham số tổng và 49 tỷ tham số được kích hoạt mỗi token, và V4-Flash với 284 tỷ tham số tổng và 13 tỷ tham số được kích hoạt mỗi token. Cả hai đều hỗ trợ cửa sổ ngữ cảnh 1 triệu token.
Kiến trúc có ba nâng cấp chính: một cơ chế attention lai kết hợp attention thưa nén (CSA) và attention nén mạnh (HCA), giúp giảm đáng kể chi phí phát sinh cho ngữ cảnh dài—FLOPs suy luận của V4-Pro cho ngữ cảnh 1M chỉ bằng 27% của V3.2, và bộ nhớ đệm KV (VRAM) để lưu thông tin lịch sử trong quá trình suy luận( chỉ bằng 10% của V3.2; các siêu liên kết ràng buộc đa tạp )mHC( thay thế các kết nối residual truyền thống để tăng cường độ ổn định lan truyền tín hiệu giữa các lớp; và bộ tối ưu hóa Muon để hội tụ huấn luyện nhanh hơn. Tiền huấn luyện sử dụng hơn 32 nghìn tỷ token dữ liệu.
Hậu huấn luyện áp dụng phương pháp hai giai đoạn: đầu tiên huấn luyện các chuyên gia theo miền thông qua supervised fine-tuning )SFT( và học tăng cường GRPO, sau đó hợp nhất chúng thành một mô hình thông qua chưng cất trực tuyến. V4-Pro-Max )highest inference mode tuyên bố là mô hình mã nguồn mở mạnh nhất với các bộ đánh giá mã hóa hàng đầu và khoảng cách thu hẹp đáng kể so với các mô hình “biên” mã nguồn đóng về các tác vụ suy luận và tác nhân. V4-Flash-Max đạt hiệu năng suy luận tầm Pro với đủ ngân sách tính toán nhưng bị giới hạn bởi quy mô tham số đối với kiến thức thuần túy và các tác vụ tác nhân phức tạp. Trọng số được lưu ở độ chính xác kết hợp FP4+FP8.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Claw Intelligence hợp tác với Block Sec Arena để tăng cường bảo mật BNB Chain
Theo thông báo chính thức của Block Sec Arena vào ngày 30 tháng 4, Claw Intelligence, một nền tảng Web3 do AI dẫn dắt được xây dựng trên BNB Chain, đã công bố quan hệ đối tác chiến lược với Block Sec Arena nhằm tích hợp cơ sở hạ tầng an ninh mạng tiên tiến vào hệ sinh thái của mình. Sự hợp tác này hướng đến việc củng cố p
GateNews4giờ trước
NTT Công bố sáng kiến AI x OWN, lên kế hoạch tăng gấp ba công suất điện tại Nhật Bản lên 1 GW vào năm 2033
Vào ngày 27 tháng 4, Chủ tịch NTT Akira Shimada đã công bố sáng kiến AI x OWN, nỗ lực của công ty nhằm thiết kế lại hạ tầng internet để phục vụ AI theo thời gian thực. NTT dự kiến sẽ nâng gấp ba công suất điện trong nước từ khoảng 300 MW hiện nay lên khoảng 1 gigawatt vào năm tài chính 2033, khi tập đoàn viễn thông
GateNews6giờ trước
Nền tảng AI Certifyde hoàn tất vòng Seed 2 triệu USD vào ngày 1 tháng 5, được hậu thuẫn bởi CEO Ripple Brad Garlinghouse
Theo TechfundingNews, nền tảng ứng dụng AI Certifyde đã hoàn tất vòng gọi vốn seed trị giá 2 triệu USD vào ngày 1 tháng 5. Các nhà đầu tư bao gồm K5 Global, Flamingo Capital và các nhà đầu tư thiên thần, trong đó có đồng sáng lập Honey George Ruan, CEO Ripple Brad Garlinghouse và đồng sáng lập Nutra Roland
GateNews7giờ trước
Nhà Khoa học của Lầu Năm Góc: Anthropic vẫn bị đưa vào danh sách đen, xử lý ngoại lệ cho Mythos
Ngày 1 tháng 5, Chánh công nghệ Bộ Quốc phòng Mỹ (Pentagon technology chief) cho biết trước Quốc hội rằng, “Anthropic vẫn nằm trong danh sách đen, nhưng Mythos Preview là một câu chuyện khác”, qua đó chính thức thừa nhận Bộ Quốc phòng đối xử khác nhau với thương hiệu chủ lực của Anthropic và mô hình mới Mythos. Tuyên bố này trùng khớp với việc Axios công bố vào ngày 19 tháng 4 rằng NSA (Cơ quan An ninh Quốc gia) đã thực tế sử dụng Mythos để tạo sự tương hỗ, đồng thời chính thức xác lập định hướng chính sách “kênh ngoại lệ đối với Mythos” — đồng thời cũng đồng nghĩa rằng, về mặt lập luận pháp lý nội bộ, trước đây Bộ Quốc phòng đã từng cho rằng việc sử dụng công cụ của Anthropic sẽ đe dọa an ninh quốc gia, trong khi cách làm hiện tại lại tạo ra mâu thuẫn.
Anthropic vs Pentagon
ChainNewsAbmedia7giờ trước
137 Ventures đóng $700M trong quỹ mới, AUM đạt 15 tỷ USD
Theo ChainCatcher, 137 Ventures, nhà đầu tư sớm vào SpaceX, mới đây đã hoàn tất việc huy động vốn cho hai quỹ mới với tổng quy mô hơn 700 triệu USD, qua đó nâng tài sản được quản lý lên hơn 15 tỷ USD. Nguồn vốn mới sẽ hỗ trợ đầu tư vào các tác nhân AI, robot và hệ thống đẩy tên lửa không gian
GateNews7giờ trước
Reddit Tăng 16% nhờ Triển vọng Q2 Mạnh Mẽ; Apple Gặp Thiếu Hụt Mac khi Nhu cầu AI Vượt Quá Nguồn Cung
Cổ phiếu của Reddit đã tăng 16% trước giờ mở cửa thị trường vào thứ Sáu sau khi công ty đưa ra triển vọng doanh thu cho quý tới cao hơn dự kiến. Lượng khách truy cập hoạt động hằng ngày tăng 17% lên 126,8 triệu, trong khi doanh thu trung bình trên mỗi người dùng trên toàn cầu nhảy 44%, nhờ vào các tính năng được hỗ trợ bởi AI-powered
GateNews8giờ trước