Xiaohu trình diễn quy trình làm việc đa mô hình: GPT tạo ảnh + Gemini 3.1 Pro chuyển thành nội dung 3D tương tác

Nhà quan sát AI người Trung Quốc xiaohu hôm 10/5 chia sẻ một ví dụ quy trình làm việc kết hợp GPT và Gemini 3.1 Pro: trước tiên dùng GPT để tạo hình ảnh, sau đó dùng Gemini 3.1 Pro để chuyển hình ảnh thành nội dung 3D tương tác, có thể biến bất kỳ chủ đề kiến thức nào thành các ứng dụng khoa học có thể xoay và thao tác. Các ví dụ được xiaohu đăng kèm tweet gồm trình chiếu 3D các hành tinh, mô hình khoa học tương tác,… là một thực hành cụ thể của “quy trình làm việc đa mô hình” (multi-model workflow).

Cấu trúc quy trình: GPT sinh ảnh → Gemini 3.1 Pro chuyển thành 3D

Thiết kế theo hai giai đoạn của toàn bộ quy trình:

Giai đoạn một: dùng GPT (GPT-image-1 hoặc trình tạo hình ảnh tích hợp sẵn trong ChatGPT) để tạo ra hình ảnh theo chủ đề, cung cấp nền tảng thị giác

Giai đoạn hai: đưa ảnh vào Gemini 3.1 Pro, để Gemini chuyển đổi hình ảnh 2D thành nội dung 3D tương tác

Định dạng đầu ra: các đối tượng 3D có thể xoay, thu phóng, tương tác ngay trong trình duyệt

Trường hợp áp dụng: giáo dục khoa học, trưng bày sản phẩm, nội dung tri thức tương tác

“Quy trình làm việc đa mô hình” là một trong những xu hướng chủ chốt của lớp ứng dụng AI năm 2026 — một mô hình đơn lẻ không còn là công cụ vạn năng; nhà phát triển sẽ ghép nối phần mạnh nhất của các mô hình khác nhau để tạo ra các ứng dụng mà một mô hình đơn lẻ không thể làm được.

Trình diễn cụ thể: các hành tinh 3D, nội dung khoa học tương tác, trang web bán hàng của robot

Các ví dụ nhiều mẫu mà xiaohu đồng thời công bố:

Trình chiếu hành tinh 3D: hệ mặt trời có thể xoay hoặc mô hình một hành tinh

Nội dung khoa học tương tác: biến kiến thức trừu tượng thành trực quan 3D, phù hợp cho mục đích giáo dục

Trang web tương lai của máy bán hàng robot: dùng GPT sinh ảnh kết hợp với nền tảng Tripo 3D, tạo ra trang web mang tính trưng bày

Điểm chung của các ví dụ này là “tạo hình ảnh + chuyển đổi tương tác” — GPT chịu trách nhiệm cho phần thị giác giàu tính sáng tạo, còn Gemini hoặc các công cụ 3D khác chịu trách nhiệm biến ảnh tĩnh thành dạng tương tác có thể thao tác. Lấy từng phần riêng ra thì chưa hẳn là mới, nhưng khi ghép nối, trải nghiệm cuối cùng mạnh hơn bất kỳ công cụ đơn lẻ nào.

Ý nghĩa: quy trình làm việc đa mô hình dần trở thành phương thức phát triển chủ đạo

Các gợi ý cụ thể cho nhà phát triển:

Chọn đúng công cụ quan trọng hơn chọn mô hình mạnh nhất — GPT mạnh về thị giác, Gemini mạnh về hiểu đa phương thức, Claude mạnh về context dài, mỗi công cụ đều có “điểm ngọt” riêng

Chi phí tích hợp API mô hình giảm xuống, việc ghép nối nhiều mô hình ở mức triển khai trở nên khả thi

Ứng dụng kiểu mới rất có thể là “pipeline đa mô hình”, chứ không phải là phần mở rộng của “một mô hình đơn lẻ mạnh nhất”

Giá trị của dự án này không nằm ở đột phá kỹ thuật, mà nằm ở các mẫu thiết kế quy trình làm việc

Các sự kiện cụ thể có thể theo dõi tiếp theo: khả năng tạo 3D của Gemini 3.1 Pro có được Google công bố chính thức như một tính năng sản phẩm trong các hoạt động sắp tới hay không; quy trình làm việc đa mô hình có nhận hỗ trợ mẫu mặc định trong các khung như LangChain/LlamaIndex hay không; và các ví dụ áp dụng thương mại cụ thể (như giáo dục, thương mại điện tử, marketing).

Bài viết này của xiaohu minh họa quy trình làm việc đa mô hình: GPT sinh ảnh + Gemini 3.1 Pro chuyển thành nội dung 3D tương tác lần đầu xuất hiện tại Chuỗi tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Blockify cải viết RAG cho doanh nghiệp: dùng IdeaBlock thay cho Chunking, nén 40 lần, giảm token 3 lần

Công cụ AI tối ưu dữ liệu doanh nghiệp Blockify do akshay\pachaar tổng hợp và quảng bá vào ngày 9/5, tuyên bố rằng trong quy trình RAG (Retrieval-Augmented Generation) có thể nén cơ sở dữ liệu doanh nghiệp gấp 40 lần, giảm 3 lần lượng token khi truy vấn, và tăng độ chính xác tìm kiếm vector lên 2,3 lần. Phần mô tả chính thức trên GitHub của Blockify cho biết: sản phẩm được Iternal Technologies phát triển, dùng cấu trúc các đơn vị kiến thức “IdeaBlock” để thay cho chunking truyền thống, đồng thời

ChainNewsAbmedia2giờ trước

Alibaba sẽ tích hợp Qwen AI với Taobao, ra mắt dịch vụ mua sắm AI với 4 tỷ sản phẩm

Theo các nguồn được Jinshi trích dẫn, Alibaba dự kiến tích hợp nền tảng AI Qwen của mình với dịch vụ thương mại điện tử Taobao để cho phép mua sắm thông qua trí tuệ nhân tạo đàm thoại thay vì tìm kiếm theo từ khóa. Việc tích hợp sẽ cho phép người tiêu dùng duyệt, so sánh và mua sản phẩm thông qua hội thoại với trợ lý AI trong ứng dụng Qwen, có quyền truy cập danh mục hơn 4 tỷ sản phẩm của Taobao và Tmall. Dịch vụ này sẽ cung cấp gợi ý mua sắm dựa trên lịch sử đơn hàng và sở thích của người dùng,

GateNews9giờ trước

DMG Blockchain thành lập công ty con DMG Infrastructure để vận hành AI và HPC

Theo BlockBeats, vào ngày 9/5, công ty khai thác Bitcoin DMG Blockchain đã thành lập công ty con DMG Infrastructure để vận hành mảng kinh doanh trí tuệ nhân tạo (AI) và điện toán hiệu năng cao (HPC). Công ty dự kiến chuyển đổi các trung tâm dữ liệu của mình sang các dịch vụ AI và HPC. DMG Blockchain đã sản xuất 21 BTC trong tháng 4, giảm so với 23 BTC trong tháng 3.

GateNews05-09 04:25

Spotify ra mắt tính năng podcast cá nhân tạo bằng AI vào hôm nay, cho phép lưu vào Thư viện

Theo MacRumors, Spotify đã ra mắt một tính năng mới hôm nay (8/5) cho phép người dùng tạo và lưu podcast cá nhân được hỗ trợ bởi AI trực tiếp vào thư viện Spotify của mình. Người dùng có thể cài đặt và đăng nhập vào “Save to Spotify CLI” trên máy tính để bàn, sau đó sử dụng các tác nhân mã hóa AI từ OpenAI, Anthropic và những đơn vị khác để t

GateNews05-08 14:46

Benzinga ra mắt công cụ dịch tiếng Hàn và bộ dữ liệu tài chính AI 400 triệu từ

Benzinga mới đây đã cho ra mắt một công cụ dịch tiếng Hàn và một bộ dữ liệu tài chính tiếng Hàn quy mô lớn nhằm phục vụ huấn luyện AI, theo công ty. Hệ thống này dịch tin tức thị trường Mỹ sang tiếng Hàn theo thời gian thực, đồng thời vẫn giữ nguyên thuật ngữ tài chính, các mã ticker và ngữ cảnh thị trường. The

GateNews05-08 11:32

FLock.io Tham gia Hội nghị Oxford Roundtable để thúc đẩy Biên bản ghi nhớ (MoU) về AI chủ quyền của Sarawak

Theo Foresight News, FLock.io đã tham gia một cuộc thảo luận bàn tròn tại Đại học Oxford nhằm thúc đẩy bản ghi nhớ ba bên về phát triển AI mang tính chủ quyền của Sarawak. Cuộc thảo luận tập trung vào chủ quyền dữ liệu, hợp tác AI, quản trị bảo mật dữ liệu và phần cứng

GateNews05-08 11:01
Bình luận
0/400
Không có bình luận