Kết quả tìm kiếm cho "MOE"
Hôm nay
11:13

Meituan Quietly Launches LongCat-2.0-Preview AI Model With Trillion Parameters, No Official Announcement

Tin tức Gate, ngày 28 tháng 4 — Meituan đã âm thầm triển khai một mô hình AI mới, LongCat-2.0-Preview, trên nền tảng LongCat API của mình kèm theo nhật ký cập nhật ghi ngày 20 tháng 4, nhưng chưa đưa ra bất kỳ thông báo chính thức nào hay báo cáo kỹ thuật. Không giống như các mô hình trước đó trong series LongCat Flash-Chat, Flash-Thinking, Flash-Lite, Flash-Omni, Next, vốn được phát hành kèm các bài blog chính thức, báo cáo kỹ thuật và bản phát hành mã nguồn mở trên Hugging Face và GitHub, phiên bản 2.0-Preview không cung cấp bất kỳ liên kết mã nguồn mở nào và chỉ có sẵn thông qua API. Nhật ký cập nhật của mô hình nhấn mạnh ba năng lực cốt lõi: phát triển tác nhân với hỗ trợ bản địa cho việc gọi công cụ, suy luận nhiều bước, và các tác vụ xử lý ngữ cảnh dài; thành thạo tạo mã, tự động hóa quy trình, và thực thi các chỉ dẫn phức tạp; đồng thời tích hợp sâu với Claude Code, OpenClaw, OpenCode và Kilo Code. Theo các báo cáo từ nhiều kênh truyền thông dẫn nguồn ngày 24 tháng 4, tổng số tham số của mô hình vượt một nghìn tỷ, sử dụng kiến trúc MoE Mixture of Experts, và hỗ trợ cửa sổ ngữ cảnh 1 triệu token—có quy mô tương đương với DeepSeek V4, cũng được phát hành vào chính ngày hôm đó. Người trong cuộc tiết lộ rằng LongCat-2.0-Preview được huấn luyện hoàn toàn trên các cụm máy tính trong nước, sử dụng từ 50.000 đến 60.000 thẻ tăng tốc do Trung Quốc sản xuất, đánh dấu nhiệm vụ huấn luyện quy mô lớn nhất được hoàn thành trên hạ tầng AI trong nước cho đến nay. Trong giai đoạn thử nghiệm, mô hình cung cấp hạn mức dùng miễn phí hằng ngày là 10 triệu token.
Xem thêm
23:49

Dòng MiMo-V2.5 của Xiaomi ra mắt mã nguồn mở: 1T tham số, hiệu quả token vượt trội so với GPT-5.4

Tin cổng, ngày 27 tháng 4 — Nhóm MiMo của Xiaomi đã phát hành mã nguồn mở cho dòng mô hình ngôn ngữ lớn MiMo-V2.5 theo giấy phép MIT, hỗ trợ triển khai thương mại, huấn luyện tiếp tục và tinh chỉnh. Cả hai mô hình đều có cửa sổ ngữ cảnh 1 triệu token. MiMo-V2.5-Pro là mô hình mixture-of-experts văn bản thuần MoE với tổng cộng 1,02 nghìn tỷ tham số và 1T tham số hoạt động
Xem thêm
08:13

Kỹ sư OpenAI Clive Chan Thách thức Khuyến nghị Phần cứng của V4, Trích dẫn Lỗi và Tính Mơ hồ so với V3

Tin tức cổng Gate, ngày 24 tháng 4 — Kỹ sư OpenAI Clive Chan đã đưa ra những phản đối chi tiết đối với chương khuyến nghị phần cứng trong báo cáo kỹ thuật V4, gọi chương này là "đáng ngạc nhiên là tầm thường và dễ gây lỗi" so với phiên bản V3 được ca ngợi. Hướng dẫn phần cứng của V3, bao gồm các buổi Q&A
Xem thêm
09:45

DeepSeek phát hành mã nguồn mở TileKernels, thư viện kernel GPU cho đào tạo và suy luận mô hình lớn

Tin tức cổng, ngày 23 tháng 4 — DeepSeek đã phát hành mã nguồn mở TileKernels theo giấy phép MIT, một thư viện kernel GPU được viết bằng TileLang cho đào tạo và suy luận mô hình ngôn ngữ lớn. TileLang là ngôn ngữ chuyên biệt do nhóm tile-ai phát triển để diễn đạt các kernel GPU hiệu năng cao trong
Xem thêm
06:25

Nhóm Seed của ByteDance phát hành Seed3D 2.0 với độ chính xác hình học nâng cao và tạo sinh vật liệu

Tin tức Cổng — Thông điệp ngày 23 tháng 4 — Nhóm Seed của ByteDance đã phát hành Seed3D 2.0, một mô hình chuyển văn bản thành 3D tạo ra các tài sản 3D có kết cấu từ một hình ảnh duy nhất. Bản nâng cấp tập trung vào độ chính xác hình học và tính chân thực của vật liệu, với API hiện đã có trên Volcano Ark. Tạo hình học sử dụng một
Xem thêm
14:05

Yifan Zhang Công Bố Thông Số Kỹ Thuật Đầy Đủ của DeepSeek V4: 1,6T Tham Số, 384 Chuyên Gia với 6 Kích Hoạt

Tin cổng, ngày 22 tháng 4 — Nghiên cứu sinh Princeton Yifan Zhang đã công bố đầy đủ thông số kỹ thuật của DeepSeek V4 trên X, sau một bản xem trước vào ngày 19 tháng 4. V4 có tổng cộng 1,6 nghìn tỷ tham số và một biến thể nhẹ, V4-Lite, với 285 tỷ tham số. Mô hình sử dụng cơ chế chú ý DSA2
Xem thêm
02:21

Google phát hành mô hình đa phương thức Gemma 4, hỗ trợ hơn 140 ngôn ngữ

Google đã phát hành mô hình đa phương thức Gemma 4 vào ngày 3 tháng 4, hỗ trợ đầu vào dạng văn bản, hình ảnh và âm thanh, đồng thời tạo ra đầu ra dạng văn bản. Cửa sổ ngữ cảnh của nó có thể chứa 256.000 token, hỗ trợ 140 ngôn ngữ và phù hợp với nhiều môi trường, bao gồm bốn loại mô hình với các quy mô khác nhau.
Xem thêm
02:27

Meituan mở nguồn mô hình chứng minh định lý với 560 tỷ tham số, 72 lần suy luận đạt tỷ lệ thành công 97,1%, thiết lập lại SOTA nguồn mở

Nhóm LongCat của Meituan đã mã nguồn mở LongCat-Flash-Prover vào ngày 21 tháng 3, một mô hình MoE với 5600 tỷ tham số, tập trung vào chứng minh định lý hình thức Lean4. Mô hình được chia thành ba khả năng: hình thức hóa tự động, tạo bản phác thảo và tạo chứng minh hoàn chỉnh, kết hợp các công cụ suy luận với trình biên dịch Lean4 để thực hiện xác minh thời gian thực. Quá trình đào tạo sử dụng Khung lặp Hybrid-Experts và thuật toán HisPO để ngăn chặn gian lận phần thưởng. Các bài kiểm tra tiêu chuẩn cho thấy mô hình này đã thiết lập kỷ lục mới cho các mô hình trọng số mã nguồn mở trong lĩnh vực hình thức hóa tự động và chứng minh định lý.
Xem thêm
08:53

Rakuten phát hành mô hình Rakuten AI 3.0, tệp cấu hình cho thấy kiến trúc cơ bản là DeepSeek V3

Tập đoàn Rakuten ngày 17 tháng 3 đã công bố mô hình AI hiệu suất cao mang tên Rakuten AI 3.0, có 671 tỷ tham số, được tối ưu hóa cho tiếng Nhật, và tuyên bố vượt qua GPT-4o trong nhiều bài kiểm tra chuẩn. Mô hình này được mở mã nguồn miễn phí theo giấy phép Apache 2.0, dựa trên việc tinh chỉnh từ mô hình DeepSeek V3, và nhận được sự hỗ trợ về năng lực huấn luyện từ chính phủ Nhật Bản.
Xem thêm