Vision Banana của Google: Mô hình thị giác hợp nhất vượt trội các mô hình chuyên cho từng tác vụ trong phân đoạn và hình học 3D

Tin tức từ Gate, ngày 23 tháng 4 — Các nhà nghiên cứu của Google, bao gồm He Kaiming và Xie Saining, đã công bố một bài báo giới thiệu Vision Banana, một mô hình hiểu thị giác đa dụng được tạo ra thông qua tinh chỉnh hướng dẫn nhẹ của mô hình tạo ảnh Nano Banana Pro (Gemini 3 Pro Image) của công ty. Điểm đổi mới cốt lõi là hợp nhất đầu ra của mọi tác vụ thị giác dưới dạng các ảnh RGB, cho phép phân đoạn, ước lượng độ sâu và dự đoán pháp tuyến bề mặt thông qua tạo ảnh mà không cần kiến trúc hoặc hàm mất mát chuyên cho từng tác vụ.

Trong phân đoạn ngữ nghĩa, Vision Banana vượt trội mô hình chuyên biệt SAM 3 thêm 4,7 điểm phần trăm trên Cityscapes; trong phân đoạn theo biểu thức tham chiếu, nó vượt qua SAM 3 Agent. Tuy nhiên, nó chậm hơn SAM 3 trong phân đoạn theo thể hiện (instance segmentation). Với các tác vụ 3D, ước lượng độ sâu theo chuẩn metric đạt độ chính xác trung bình 0,929 trên bốn bộ dữ liệu chuẩn, vượt Depth Anything V3 ở mức 0,918, chỉ sử dụng dữ liệu tổng hợp mà không cần thông tin độ sâu thực hay tham số camera trong khi suy luận. Ước lượng pháp tuyến bề mặt đạt kết quả hiện đại nhất trên ba bộ benchmark trong nhà.

Việc tinh chỉnh liên quan đến dữ liệu tác vụ thị giác tối thiểu pha trộn vào quá trình huấn luyện tạo ảnh gốc, giữ lại năng lực tạo của mô hình—hiệu năng khớp với Nano Banana Pro ban đầu trong các bài kiểm tra chất lượng tạo ảnh. Bài báo đề xuất rằng việc tiền huấn luyện tạo ảnh trong thị giác song song với việc tiền huấn luyện tạo văn bản trong ngôn ngữ: các mô hình học các biểu diễn bên trong cần thiết cho hiểu ảnh trong quá trình tạo, và việc tinh chỉnh hướng dẫn chỉ đơn giản là mở khóa năng lực này.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Sam Altman vạch ra năm nguyên tắc vận hành của OpenAI, báo hiệu khả năng hạn chế quyền truy cập năng lực mô hình trong tương lai vì an toàn

Tin tức cổng, ngày 27 tháng 4 — Giám đốc điều hành OpenAI Sam Altman đã công bố năm nguyên tắc vận hành cho công ty dưới chữ ký cá nhân của mình, báo hiệu rằng OpenAI có thể hạn chế quyền truy cập của người dùng vào năng lực của mô hình trong một số giai đoạn nhất định để ưu tiên an toàn. Trong tuyên bố, Altman đã mô tả một kịch bản tương lai có thể

GateNews9phút trước

DeepSeek Hoãn Ra Mắt V4 để Tối Ưu cho Chip Ascend của Huawei

Tin tức từ Gate, ngày 27 tháng 4 — DeepSeek đã hoãn việc ra mắt mô hình V4 của mình để tinh chỉnh ngăn xếp phần mềm của họ cho các chip Ascend của Huawei, phản ánh sáng kiến rộng hơn của Bắc Kinh nhằm phát triển một chuỗi cung ứng AI nội địa khi khả năng tiếp cận các chất bán dẫn tiên tiến từ nước ngoài ngày càng bị hạn chế. DeepSe

GateNews1giờ trước

DeepSeek cắt giảm giá bộ nhớ đệm đầu vào còn 1/10 giá lúc ra mắt; V4-Pro giảm xuống 0,025 nhân dân tệ cho mỗi một triệu token

Tin tức cổng, ngày 26 tháng 4 — DeepSeek đã giảm giá bộ nhớ đệm đầu vào trên toàn bộ danh mục mô hình của mình xuống còn một phần mười giá lúc ra mắt, có hiệu lực ngay lập tức. Mô hình V4-Pro hiện có sẵn với mức giảm 2,5x trong thời gian giới hạn, chương trình khuyến mãi diễn ra đến hết ngày 5 tháng 5 năm 2026, 11:59 PM UTC+8. Sau cả hai

GateNews10giờ trước

OpenAI Tuyển Dụng Nhân Tài Hàng Đầu Ngành Phần Mềm Doanh Nghiệp Khi Các Tác Nhân Tuy Tiến Phá Vỡ Ngành

Tin tức Gate News ngày 26 tháng 4 — OpenAI và Anthropic đã tuyển dụng các lãnh đạo cấp cao và kỹ sư chuyên biệt từ các công ty phần mềm doanh nghiệp lớn, bao gồm Salesforce, Snowflake, Datadog và Palantir. Denise Dresser, cựu CEO của Slack thuộc Salesforce, gia nhập OpenAI với vai trò giám đốc doanh thu cấp cao

GateNews10giờ trước

Baidu Qianfan ra mắt hỗ trợ Day 0 cho DeepSeek-V4 với dịch vụ API

Tin tức từ Gate, ngày 25 tháng 4 — Phiên bản xem trước DeepSeek-V4 đã chính thức ra mắt và được mã nguồn mở vào ngày 25 tháng 4, với nền tảng Baidu Qianfan thuộc Baidu Intelligent Cloud cung cấp việc thích ứng dịch vụ API Day 0. Mô hình có cửa sổ ngữ cảnh mở rộng lên đến một triệu token và có sẵn ở hai phiên bản: DeepSeek-V4

GateNews16giờ trước

Khóa học AI của Stanford kết hợp các nhà lãnh đạo trong ngành như Hoàng Nhân Quân, Altman, thách thức tạo ra giá trị cho thế giới trong 10 tuần!

Khóa học khoa học máy tính AI “Frontier Systems” mà Đại học Stanford (Stanford University) mới mở gần đây đã thu hút sự quan tâm cao độ của giới doanh nghiệp và học thuật trong ngành, với hơn năm trăm sinh viên đăng ký theo học. Khóa học được điều phối bởi đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, với đội ngũ giảng viên là những gương mặt đình đám gồm Giám đốc điều hành của Nvidia Hoàng Nhân Huân (Jensen Huang), người sáng lập OpenAI Sam Altman, Giám đốc điều hành của Microsoft Nadella (Satya Nadella), CEO của AMD Tô Trữ Phong (Lisa Su) và nhiều nhân sự danh giá khác. Để sinh viên thử nghiệm với mười tuần “tạo ra giá trị cho thế giới”! Hoàng Nhân Huân, Altman — các lãnh đạo ngành trực tiếp lên bục giảng Khóa học do đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, điều phối, quy tụ toàn bộ chuỗi ngành AI

ChainNewsAbmedia16giờ trước
Bình luận
0/400
Không có bình luận