DeepSeek ra mắt phiên bản xem trước mã nguồn mở V4, điểm kỹ thuật 3206 vượt qua GPT-5.4

MarketWhisper

DeepSeek V4開源預覽版

DeepSeek đã chính thức ra mắt chuỗi phiên bản xem trước V4 vào ngày 24 tháng 4, phát hành mã nguồn mở theo giấy phép MIT, và trọng số mô hình đã được đồng bộ lên Hugging Face cùng ModelScope. Theo báo cáo kỹ thuật của DeepSeek V4, V4-Pro-Max (chế độ mức độ suy luận tối đa) đạt 3206 điểm trên chuẩn Codeforces, vượt GPT-5.4.

Thông số kiến trúc của hai mô hình MoE

Theo báo cáo kỹ thuật của DeepSeek V4, chuỗi V4 bao gồm hai mô hình lai (MoE):

V4-Pro: Tổng tham số 1.6T, kích hoạt 49B mỗi token, hỗ trợ ngữ cảnh 1M token

V4-Flash: Tổng tham số 284B, kích hoạt 13B mỗi token, cũng hỗ trợ ngữ cảnh 1M token

Theo báo cáo kỹ thuật, ở ngữ cảnh 1M, FLOPs suy luận cho mỗi token của V4-Pro chỉ bằng 27% của V3.2; bộ nhớ đệm KV giảm xuống còn 10% của V3.2. Điều này chủ yếu nhờ nâng cấp kiến trúc của cơ chế chú ý hỗn hợp (CSА chú ý thưa nén + HCA chú ý nén nặng). Quy mô dữ liệu tiền huấn luyện vượt quá 32T token; trình tối ưu hóa huấn luyện được cập nhật thành Muon.

Phương pháp hậu huấn luyện: chưng cất chiến lược trực tuyến thay thế học tăng cường hỗn hợp

Theo báo cáo kỹ thuật của DeepSeek V4, cập nhật cốt lõi của hậu huấn luyện V4 là thay thế hoàn toàn giai đoạn học tăng cường hỗn hợp (mixed RL) của V3.2 bằng chưng cất chiến lược trực tuyến (On-Policy Distillation, OPD). Quy trình mới được chia thành hai bước: trước hết, huấn luyện riêng các chuyên gia theo từng lĩnh vực (SFT + học tăng cường GRPO) cho các lĩnh vực như toán học, mã lệnh, Agent và tuân theo lệnh; sau đó, dùng nhiều giáo viên OPD để chưng cất năng lực của hàng chục chuyên gia vào một mô hình thống nhất, căn chỉnh bằng logit để tránh các xung đột năng lực thường gặp trong các phương pháp truyền thống.

Báo cáo đồng thời đưa vào mô hình phần thưởng sinh (Generative Reward Model, GRM), nhằm vào các tác vụ khó xác minh bằng quy tắc. Dùng dữ liệu nhãn thủ công đa dạng với số lượng ít để huấn luyện, để mô hình đồng thời đảm nhiệm chức năng sinh và đánh giá.

Kết quả kiểm tra chuẩn: dẫn đầu ở mã hóa, còn khoảng cách ở suy luận tri thức

Theo báo cáo kỹ thuật của DeepSeek V4, kết quả so sánh giữa V4-Pro-Max và Opus 4.6 Max, GPT-5.4 xHigh cùng Gemini 3.1 Pro High (không bao gồm GPT-5.5 và Opus 4.7 mới phát hành gần đây):

Codeforces: 3206 (GPT-5.4: 3168 / Gemini 3.1 Pro: 3052) → Cao nhất toàn trường

LiveCodeBench: 93.5 → Cao nhất toàn trường

SWE Verified: 80.6, thua Opus 4.6 80.8 chênh 0.2 điểm phần trăm

GPQA Diamond: 90.1, thua Gemini 3.1 Pro 94.3

SimpleQA-Verified: 57.9, thua Gemini 3.1 Pro 75.6

HLE: 37.7, thua Gemini 3.1 Pro 44.4

Báo cáo kỹ thuật cũng chỉ ra rằng các so sánh trên không bao gồm GPT-5.5 và Opus 4.7 mới phát hành gần đây; khoảng cách giữa V4 và các mô hình đóng nguồn thế hệ mới nhất cần được thẩm định bằng đánh giá của bên thứ ba.

Câu hỏi thường gặp

Điều khoản giấy phép mã nguồn mở của phiên bản xem trước DeepSeek V4 là gì, có thể lấy ở đâu?

Theo thông báo chính thức của DeepSeek ngày 24 tháng 4, chuỗi V4 phát hành mã nguồn mở theo giấy phép MIT, trọng số mô hình đã được đưa lên Hugging Face và ModelScope, áp dụng cho cả mục đích thương mại lẫn học thuật.

Sự khác nhau về quy mô tham số giữa DeepSeek V4-Pro và V4-Flash là gì?

Theo báo cáo kỹ thuật của DeepSeek V4, tổng tham số của V4-Pro là 1.6T, kích hoạt 49B mỗi token; tổng tham số của V4-Flash là 284B, kích hoạt 13B mỗi token. Cả hai đều hỗ trợ ngữ cảnh 1M token.

Kết quả so sánh chuẩn của DeepSeek V4-Pro-Max với GPT-5.4 và Gemini 3.1 Pro là gì?

Theo báo cáo kỹ thuật của DeepSeek V4, V4-Pro-Max vượt GPT-5.4 và Gemini 3.1 Pro ở hai chuẩn Codeforces (3206 điểm) và LiveCodeBench (93.5), nhưng vẫn thua Gemini 3.1 Pro ở các chuẩn thiên về tri thức (GPQA Diamond, SimpleQA-Verified, HLE); bộ so sánh không bao gồm GPT-5.5 và Opus 4.7.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Sam Altman vạch ra năm nguyên tắc vận hành của OpenAI, báo hiệu khả năng hạn chế quyền truy cập năng lực mô hình trong tương lai vì an toàn

Tin tức cổng, ngày 27 tháng 4 — Giám đốc điều hành OpenAI Sam Altman đã công bố năm nguyên tắc vận hành cho công ty dưới chữ ký cá nhân của mình, báo hiệu rằng OpenAI có thể hạn chế quyền truy cập của người dùng vào năng lực của mô hình trong một số giai đoạn nhất định để ưu tiên an toàn. Trong tuyên bố, Altman đã mô tả một kịch bản tương lai có thể

GateNews49phút trước

DeepSeek Hoãn Ra Mắt V4 để Tối Ưu cho Chip Ascend của Huawei

Tin tức từ Gate, ngày 27 tháng 4 — DeepSeek đã hoãn việc ra mắt mô hình V4 của mình để tinh chỉnh ngăn xếp phần mềm của họ cho các chip Ascend của Huawei, phản ánh sáng kiến rộng hơn của Bắc Kinh nhằm phát triển một chuỗi cung ứng AI nội địa khi khả năng tiếp cận các chất bán dẫn tiên tiến từ nước ngoài ngày càng bị hạn chế. DeepSe

GateNews1giờ trước

DeepSeek cắt giảm giá bộ nhớ đệm đầu vào còn 1/10 giá lúc ra mắt; V4-Pro giảm xuống 0,025 nhân dân tệ cho mỗi một triệu token

Tin tức cổng, ngày 26 tháng 4 — DeepSeek đã giảm giá bộ nhớ đệm đầu vào trên toàn bộ danh mục mô hình của mình xuống còn một phần mười giá lúc ra mắt, có hiệu lực ngay lập tức. Mô hình V4-Pro hiện có sẵn với mức giảm 2,5x trong thời gian giới hạn, chương trình khuyến mãi diễn ra đến hết ngày 5 tháng 5 năm 2026, 11:59 PM UTC+8. Sau cả hai

GateNews11giờ trước

OpenAI Tuyển Dụng Nhân Tài Hàng Đầu Ngành Phần Mềm Doanh Nghiệp Khi Các Tác Nhân Tuy Tiến Phá Vỡ Ngành

Tin tức Gate News ngày 26 tháng 4 — OpenAI và Anthropic đã tuyển dụng các lãnh đạo cấp cao và kỹ sư chuyên biệt từ các công ty phần mềm doanh nghiệp lớn, bao gồm Salesforce, Snowflake, Datadog và Palantir. Denise Dresser, cựu CEO của Slack thuộc Salesforce, gia nhập OpenAI với vai trò giám đốc doanh thu cấp cao

GateNews11giờ trước

Baidu Qianfan ra mắt hỗ trợ Day 0 cho DeepSeek-V4 với dịch vụ API

Tin tức từ Gate, ngày 25 tháng 4 — Phiên bản xem trước DeepSeek-V4 đã chính thức ra mắt và được mã nguồn mở vào ngày 25 tháng 4, với nền tảng Baidu Qianfan thuộc Baidu Intelligent Cloud cung cấp việc thích ứng dịch vụ API Day 0. Mô hình có cửa sổ ngữ cảnh mở rộng lên đến một triệu token và có sẵn ở hai phiên bản: DeepSeek-V4

GateNews17giờ trước

Khóa học AI của Stanford kết hợp các nhà lãnh đạo trong ngành như Hoàng Nhân Quân, Altman, thách thức tạo ra giá trị cho thế giới trong 10 tuần!

Khóa học khoa học máy tính AI “Frontier Systems” mà Đại học Stanford (Stanford University) mới mở gần đây đã thu hút sự quan tâm cao độ của giới doanh nghiệp và học thuật trong ngành, với hơn năm trăm sinh viên đăng ký theo học. Khóa học được điều phối bởi đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, với đội ngũ giảng viên là những gương mặt đình đám gồm Giám đốc điều hành của Nvidia Hoàng Nhân Huân (Jensen Huang), người sáng lập OpenAI Sam Altman, Giám đốc điều hành của Microsoft Nadella (Satya Nadella), CEO của AMD Tô Trữ Phong (Lisa Su) và nhiều nhân sự danh giá khác. Để sinh viên thử nghiệm với mười tuần “tạo ra giá trị cho thế giới”! Hoàng Nhân Huân, Altman — các lãnh đạo ngành trực tiếp lên bục giảng Khóa học do đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, điều phối, quy tụ toàn bộ chuỗi ngành AI

ChainNewsAbmedia17giờ trước
Bình luận
0/400
Không có bình luận