Tin cổng Gate News, ngày 25 tháng 4 — DeepSeek đã phát hành các phiên bản xem trước của V4-Pro và V4-Flash vào ngày 24 tháng 4, cả hai đều là các mô hình open-weight với cửa sổ ngữ cảnh một triệu token. V4-Pro có 1,6 nghìn tỷ tổng tham số nhưng chỉ kích hoạt 49 tỷ trên mỗi lượt suy luận, sử dụng kiến trúc Mixture-of-Experts. V4-Flash có 284 tỷ tổng tham số với 13 tỷ tham số hoạt động.
Giá thấp hơn đáng kể so với các đối thủ: V4-Pro có giá $1,74 cho mỗi một triệu token đầu vào và $3,48 cho mỗi một triệu token đầu ra—khoảng thấp hơn 98% so với GPT-5.5 Pro của OpenAI ($30 input, $180 output) và chỉ bằng khoảng một phần hai mươi chi phí của Claude Opus 4.7. V4-Flash được định giá $0,14 cho đầu vào và $0,28 cho đầu ra trên mỗi một triệu token. Cả hai mô hình đều là mã nguồn mở theo giấy phép MIT và có thể chạy cục bộ miễn phí.
DeepSeek đạt được lợi thế về hiệu suất thông qua hai cơ chế chú ý mới: Compressed Sparse Attention và Heavily Compressed Attention, giúp giảm chi phí tính toán xuống còn 27% so với mô hình tiền nhiệm V4-Pro (V3.2) và 10% cho V4-Flash. Công ty huấn luyện V4 một phần trên các chip Huawei Ascend, tránh các hạn chế xuất khẩu của Mỹ đối với các bộ xử lý Nvidia tiên tiến. DeepSeek cho biết rằng khi 950 supernode mới được đưa vào hoạt động vào cuối năm 2026, giá sẽ còn giảm thêm.
Trên các benchmark hiệu năng, V4-Pro-Max xếp thứ nhất về lập trình cạnh tranh Codeforces (3,206 điểm, đứng khoảng vị trí thứ 23 trong số các thí sinh là con người) và đạt 90,2% ở các bài toán Apex Shortlist so với 85,9% của Claude Opus 4.6. Tuy nhiên, nó thua trong các bài benchmark đa nhiệm: MMLU-Pro (87,5% so với 91,0% của Gemini-3.1-Pro) và Humanity's Last Exam (37,7% so với 44,4%). Với các tác vụ ngữ cảnh dài, V4-Pro dẫn đầu các mô hình mã nguồn mở nhưng thua Claude Opus 4.6 trong các bài kiểm tra truy xuất MRCR.
V4-Pro giới thiệu “interleaved thinking” (tư duy xen kẽ), cho phép quy trình làm việc của agent giữ lại ngữ cảnh suy luận qua nhiều lệnh gọi công cụ mà không xả bộ nhớ giữa các bước. Cả hai mô hình đều hỗ trợ tích hợp lập trình với Claude Code và OpenCode. Theo khảo sát nhà phát triển của DeepSeek trên 85 người dùng, 52% cho biết V4-Pro đã sẵn sàng để trở thành agent lập trình mặc định của họ, với 39% nghiêng về việc áp dụng. Các endpoint deepseek-chat và deepseek-reasoner cũ sẽ ngừng hoạt động vào ngày 24 tháng 7 năm 2026.