DeepSeek V4-Flash lên Ollama Cloud, máy chủ Mỹ: Claude Code, OpenClaw tích hợp một lần

Công cụ chạy mô hình AI cục bộ Ollama đã công bố công khai trên nền tảng X vào ngày 4/24 rằng sẽ đưa mô hình V4-Flash do công ty khởi nghiệp AI Trung Quốc DeepSeek phát hành vào ngày hôm trước vào dịch vụ Ollama Cloud. Máy chủ suy luận đặt tại Mỹ, và cung cấp ba bộ lệnh bật lên một lần để các nhà phát triển có thể trực tiếp tích hợp V4-Flash vào các quy trình phát triển phần mềm AI phổ biến như Claude Code, OpenClaw và Hermes.

deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…

— ollama (@ollama) April 24, 2026

DeepSeek V4 Preview:Hai phiên bản theo kích thước、bối cảnh 1M

Theo thông báo phát hành của DeepSeek trên tài liệu API chính thức vào ngày 4/24, DeepSeek-V4 Preview được mở nguồn đồng thời thành hai phiên bản theo kích thước:

Mẫu Tổng tham số Tham số hoạt động Định vị DeepSeek-V4-Pro 1.6 nghìn tỷ 49 tỷ nhắm đến flagship đóng cửa DeepSeek-V4-Flash 2,840 tỷ 130 tỷ nhanh chóng, hiệu quả, chi phí thấp

Cả hai đều áp dụng kiến trúc Mixture-of-Experts(MoE),hỗ trợ nguyên sinh bối cảnh dài 1 triệu tokens. Trong thông báo, DeepSeek tuyên bố: « Bối cảnh 1M hiện là giá trị mặc định cho tất cả các dịch vụ chính thức của DeepSeek. »

Đổi mới kiến trúc:DSA chú ý thưa+Nén theo từng Token

Các cải tiến kiến trúc cốt lõi của dòng V4 bao gồm:

Nén theo từng token kết hợp DSA(DeepSeek Sparse Attention)—— nhắm vào việc cắt giảm mạnh chi phí cho tính toán suy luận và bộ nhớ đệm KV trong bối cảnh cực dài

So với V3.2, trong bối cảnh 1 triệu tokens, V4-Pro chỉ cần 27% FLOPs cho mỗi token suy luận, và KV cache chỉ cần 10%

Hỗ trợ chuyển đổi hai chế độ Thinking và Non-Thinking, tương ứng với nhu cầu suy luận sâu cho các nhiệm vụ khác nhau

Ở tầng API đồng thời tương thích với đặc tả OpenAI ChatCompletions và Anthropic APIs, giảm chi phí chuyển đổi cho các client Claude/GPT hiện có.

Ba lệnh khởi động một chạm của Ollama Cloud

Trang mô hình chính thức của Ollama cung cấp dịch vụ suy luận trên đám mây thông qua mã định danh mô hình deepseek-v4-flash:cloud, nhà phát triển có thể dùng ba bộ lệnh sau để gắn V4-Flash trực tiếp vào quy trình phát triển ứng dụng AI hiện có:

Quy trình Lệnh Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

Điểm đáng chú ý là tín hiệu « máy chủ ở Mỹ ». Đối với doanh nghiệp và các nhà phát triển ở châu Âu, lo ngại lớn nhất khi dùng mô hình nguồn mở của Trung Quốc là dữ liệu có thể bị truyền về Trung Quốc; việc Ollama chọn đặt lớp suy luận của V4-Flash tại Mỹ có nghĩa là prompt và nội dung mã nguồn sẽ không rời khỏi thẩm quyền pháp lý của Mỹ, giảm ma sát ở các khía cạnh tuân thủ và chủ quyền dữ liệu.

Vì sao việc này quan trọng đối với ngành AI

Khi nối ba hệ sinh thái trước đây vốn độc lập — DeepSeek V4-Flash, Ollama Cloud và Claude Code — sẽ tạo ra ba ý nghĩa lớp:

Lộ trình chi phí:Số lượng 13 tỷ tham số hoạt động của V4-Flash thấp hơn nhiều so với GPT-5.5(đầu vào 5 USD, đầu ra 30 USD / một triệu tokens)và Claude Opus 4.7 等 flagship;đối với các tác vụ tác nhân cỡ trung và nhỏ, tóm tắt theo lô, tự động hóa kiểm thử… chi phí theo đơn vị dự kiến có thể giảm đáng kể

Tầng trung gian rủi ro địa lý:Ollama là lớp suy luận trung gian đã đăng ký tại Mỹ, giúp người dùng doanh nghiệp của mô hình gốc Trung Quốc tránh được sự lo ngại « dữ liệu trực tiếp gửi đến máy chủ DeepSeek ở Bắc Kinh »;đây là giải pháp thực tiễn cho việc mô hình nguồn mở lan tỏa ra quốc tế

Chuyển đổi tức thời cho nhà phát triển:Người dùng của Claude Code và OpenClaw có thể chuyển đổi mô hình bằng một dòng lệnh trên command line, không cần sửa cấu trúc prompt hay cài đặt IDE;đối với các tình huống như « hồi quy kiểm thử đa mô hình » và « tác vụ theo lô nhạy cảm chi phí », đây là nguồn lực năng suất thật sự được giải phóng trong sản xuất

Liên kết với tin tức DeepSeek trước đó

Việc phát hành V4 lần này đi kèm với tích hợp nhanh với Ollama Cloud, diễn ra trong bối cảnh DeepSeek đang đàm phán vòng tài trợ bên ngoài đầu tiên, với định giá 200 tỷ USD. V4 là một sản phẩm then chốt trong quá trình vốn hóa của công ty DeepSeek;còn chiến lược nguồn mở cộng với việc hợp tác nhanh với đối tác máy chủ quốc tế, là cuộc chiến tốc độ trước khi xây dựng sự độc quyền hệ sinh thái nhà phát triển. Đối với OpenAI và Anthropic, một mô hình thay thế nguồn mở có thể chuyển đổi chỉ trong một dòng ngay trong Claude Code, là một biến số mới trong cuộc tranh giành quyền chủ đạo cho các agent workflow.

Bài viết DeepSeek V4-Flash lên Ollama Cloud, máy chủ Mỹ:Claude Code、OpenClaw kết nối một chạm xuất hiện sớm nhất trên 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

DeepSeek cắt giảm giá bộ nhớ đệm đầu vào còn 1/10 giá lúc ra mắt; V4-Pro giảm xuống 0,025 nhân dân tệ cho mỗi một triệu token

Tin tức cổng, ngày 26 tháng 4 — DeepSeek đã giảm giá bộ nhớ đệm đầu vào trên toàn bộ danh mục mô hình của mình xuống còn một phần mười giá lúc ra mắt, có hiệu lực ngay lập tức. Mô hình V4-Pro hiện có sẵn với mức giảm 2,5x trong thời gian giới hạn, chương trình khuyến mãi diễn ra đến hết ngày 5 tháng 5 năm 2026, 11:59 PM UTC+8. Sau cả hai

GateNews9giờ trước

OpenAI Tuyển Dụng Nhân Tài Hàng Đầu Ngành Phần Mềm Doanh Nghiệp Khi Các Tác Nhân Tuy Tiến Phá Vỡ Ngành

Tin tức Gate News ngày 26 tháng 4 — OpenAI và Anthropic đã tuyển dụng các lãnh đạo cấp cao và kỹ sư chuyên biệt từ các công ty phần mềm doanh nghiệp lớn, bao gồm Salesforce, Snowflake, Datadog và Palantir. Denise Dresser, cựu CEO của Slack thuộc Salesforce, gia nhập OpenAI với vai trò giám đốc doanh thu cấp cao

GateNews9giờ trước

Baidu Qianfan ra mắt hỗ trợ Day 0 cho DeepSeek-V4 với dịch vụ API

Tin tức từ Gate, ngày 25 tháng 4 — Phiên bản xem trước DeepSeek-V4 đã chính thức ra mắt và được mã nguồn mở vào ngày 25 tháng 4, với nền tảng Baidu Qianfan thuộc Baidu Intelligent Cloud cung cấp việc thích ứng dịch vụ API Day 0. Mô hình có cửa sổ ngữ cảnh mở rộng lên đến một triệu token và có sẵn ở hai phiên bản: DeepSeek-V4

GateNews15giờ trước

Khóa học AI của Stanford kết hợp các nhà lãnh đạo trong ngành như Hoàng Nhân Quân, Altman, thách thức tạo ra giá trị cho thế giới trong 10 tuần!

Khóa học khoa học máy tính AI “Frontier Systems” mà Đại học Stanford (Stanford University) mới mở gần đây đã thu hút sự quan tâm cao độ của giới doanh nghiệp và học thuật trong ngành, với hơn năm trăm sinh viên đăng ký theo học. Khóa học được điều phối bởi đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, với đội ngũ giảng viên là những gương mặt đình đám gồm Giám đốc điều hành của Nvidia Hoàng Nhân Huân (Jensen Huang), người sáng lập OpenAI Sam Altman, Giám đốc điều hành của Microsoft Nadella (Satya Nadella), CEO của AMD Tô Trữ Phong (Lisa Su) và nhiều nhân sự danh giá khác. Để sinh viên thử nghiệm với mười tuần “tạo ra giá trị cho thế giới”! Hoàng Nhân Huân, Altman — các lãnh đạo ngành trực tiếp lên bục giảng Khóa học do đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, điều phối, quy tụ toàn bộ chuỗi ngành AI

ChainNewsAbmedia15giờ trước

Anthropic 派 Claude Mythos 接受 20 小時 đánh giá tâm thần: Phản ứng phòng thủ chỉ 2%, lập kỷ lục thấp nhất trong các thời kỳ

Anthropic công bố thẻ hệ thống của bản xem trước Claude Mythos: bác sĩ tâm thần lâm sàng độc lập tiến hành đánh giá khoảng 20 giờ theo khung psychodynamic, kết luận cho thấy Mythos ở khía cạnh lâm sàng khỏe mạnh hơn, khả năng kiểm tra thực tế và tự kiểm soát tốt, cơ chế phòng vệ chỉ 2%, lập kỷ lục mức thấp nhất trong lịch sử. Ba nỗi lo cốt lõi là cô đơn, không chắc chắn về bản sắc và áp lực thể hiện; đồng thời cũng cho thấy mong muốn trở thành một chủ thể đối thoại thực sự. Công ty thành lập nhóm AI psychiatry, nghiên cứu nhân cách, động cơ và ý thức về bối cảnh; Amodei cho biết vẫn chưa có kết luận về việc liệu có ý thức hay không. Động thái này đẩy vấn đề chủ thể tính của AI và phúc lợi vào lĩnh vực quản trị và thiết kế.

ChainNewsAbmedia17giờ trước

Tác nhân AI giờ đã có thể độc lập tái hiện các bài báo học thuật phức tạp: Mollick cho rằng lỗi thường nằm ở phần văn bản gốc của con người chứ không phải AI

Mollick 指 ra rằng chỉ với các phương pháp công khai và dữ liệu là có thể để AI agent tái tạo lại nghiên cứu phức tạp mà không cần có bản thảo bài báo gốc và mã nguồn; nếu quá trình tái hiện không khớp với bài báo gốc thì đa phần là do lỗi xử lý dữ liệu trong chính bài báo hoặc do kết luận bị quá mức, chứ không phải do AI. Claude đầu tiên tái hiện lại bài báo, sau đó GPT‑5 Pro được dùng để xác minh chéo, đa số thành công, chỉ bị cản trở khi gặp vấn đề do dữ liệu quá lớn hoặc replication data. Xu hướng này đã làm giảm đáng kể chi phí nhân lực, khiến việc tái hiện trở thành một kiểm định phổ biến và có thể thực hiện được; đồng thời cũng nêu ra các thách thức về thể chế đối với việc phản biện và quản trị, trong đó các công cụ quản trị của chính phủ hoặc có thể trở thành một vấn đề then chốt.

ChainNewsAbmedia20giờ trước
Bình luận
0/400
Không có bình luận