Nhà quan sát AI người Trung Quốc xiaohu hôm 10/5 chia sẻ một ví dụ quy trình làm việc kết hợp GPT và Gemini 3.1 Pro: trước tiên dùng GPT để tạo hình ảnh, sau đó dùng Gemini 3.1 Pro để chuyển hình ảnh thành nội dung 3D tương tác, có thể biến bất kỳ chủ đề kiến thức nào thành các ứng dụng khoa học có thể xoay và thao tác. Các ví dụ được xiaohu đăng kèm tweet gồm trình chiếu 3D các hành tinh, mô hình khoa học tương tác,… là một thực hành cụ thể của “quy trình làm việc đa mô hình” (multi-model workflow).
Cấu trúc quy trình: GPT sinh ảnh → Gemini 3.1 Pro chuyển thành 3D
Thiết kế theo hai giai đoạn của toàn bộ quy trình:
Giai đoạn một: dùng GPT (GPT-image-1 hoặc trình tạo hình ảnh tích hợp sẵn trong ChatGPT) để tạo ra hình ảnh theo chủ đề, cung cấp nền tảng thị giác
Giai đoạn hai: đưa ảnh vào Gemini 3.1 Pro, để Gemini chuyển đổi hình ảnh 2D thành nội dung 3D tương tác
Định dạng đầu ra: các đối tượng 3D có thể xoay, thu phóng, tương tác ngay trong trình duyệt
Trường hợp áp dụng: giáo dục khoa học, trưng bày sản phẩm, nội dung tri thức tương tác
“Quy trình làm việc đa mô hình” là một trong những xu hướng chủ chốt của lớp ứng dụng AI năm 2026 — một mô hình đơn lẻ không còn là công cụ vạn năng; nhà phát triển sẽ ghép nối phần mạnh nhất của các mô hình khác nhau để tạo ra các ứng dụng mà một mô hình đơn lẻ không thể làm được.
Trình diễn cụ thể: các hành tinh 3D, nội dung khoa học tương tác, trang web bán hàng của robot
Các ví dụ nhiều mẫu mà xiaohu đồng thời công bố:
Trình chiếu hành tinh 3D: hệ mặt trời có thể xoay hoặc mô hình một hành tinh
Nội dung khoa học tương tác: biến kiến thức trừu tượng thành trực quan 3D, phù hợp cho mục đích giáo dục
Trang web tương lai của máy bán hàng robot: dùng GPT sinh ảnh kết hợp với nền tảng Tripo 3D, tạo ra trang web mang tính trưng bày
Điểm chung của các ví dụ này là “tạo hình ảnh + chuyển đổi tương tác” — GPT chịu trách nhiệm cho phần thị giác giàu tính sáng tạo, còn Gemini hoặc các công cụ 3D khác chịu trách nhiệm biến ảnh tĩnh thành dạng tương tác có thể thao tác. Lấy từng phần riêng ra thì chưa hẳn là mới, nhưng khi ghép nối, trải nghiệm cuối cùng mạnh hơn bất kỳ công cụ đơn lẻ nào.
Ý nghĩa: quy trình làm việc đa mô hình dần trở thành phương thức phát triển chủ đạo
Các gợi ý cụ thể cho nhà phát triển:
Chọn đúng công cụ quan trọng hơn chọn mô hình mạnh nhất — GPT mạnh về thị giác, Gemini mạnh về hiểu đa phương thức, Claude mạnh về context dài, mỗi công cụ đều có “điểm ngọt” riêng
Chi phí tích hợp API mô hình giảm xuống, việc ghép nối nhiều mô hình ở mức triển khai trở nên khả thi
Ứng dụng kiểu mới rất có thể là “pipeline đa mô hình”, chứ không phải là phần mở rộng của “một mô hình đơn lẻ mạnh nhất”
Giá trị của dự án này không nằm ở đột phá kỹ thuật, mà nằm ở các mẫu thiết kế quy trình làm việc
Các sự kiện cụ thể có thể theo dõi tiếp theo: khả năng tạo 3D của Gemini 3.1 Pro có được Google công bố chính thức như một tính năng sản phẩm trong các hoạt động sắp tới hay không; quy trình làm việc đa mô hình có nhận hỗ trợ mẫu mặc định trong các khung như LangChain/LlamaIndex hay không; và các ví dụ áp dụng thương mại cụ thể (như giáo dục, thương mại điện tử, marketing).
Bài viết này của xiaohu minh họa quy trình làm việc đa mô hình: GPT sinh ảnh + Gemini 3.1 Pro chuyển thành nội dung 3D tương tác lần đầu xuất hiện tại Chuỗi tin ABMedia.
Bài viết liên quan
Blockify cải viết RAG cho doanh nghiệp: dùng IdeaBlock thay cho Chunking, nén 40 lần, giảm token 3 lần
Alibaba sẽ tích hợp Qwen AI với Taobao, ra mắt dịch vụ mua sắm AI với 4 tỷ sản phẩm
DMG Blockchain thành lập công ty con DMG Infrastructure để vận hành AI và HPC
Spotify ra mắt tính năng podcast cá nhân tạo bằng AI vào hôm nay, cho phép lưu vào Thư viện
Benzinga ra mắt công cụ dịch tiếng Hàn và bộ dữ liệu tài chính AI 400 triệu từ
FLock.io Tham gia Hội nghị Oxford Roundtable để thúc đẩy Biên bản ghi nhớ (MoU) về AI chủ quyền của Sarawak