OpenAI 推 GPT-5.5: 12M ngữ cảnh, chỉ số AA vươn lên dẫn đầu, Terminal-Bench 82,7% viết lại chuẩn mực cho đại lý

OpenAI vào ngày 4/23 chính thức phát hành GPT-5.5, định vị là mô hình chủ lực dành cho công việc theo hướng tác nhân (agentic) và xử lý kiến thức doanh nghiệp; đồng thời lên sóng trên ChatGPT và Codex. Bài quảng bá chính thức định hướng là “mô hình thông minh nhất và trực giác dễ dùng nhất của chúng tôi”, AA Intelligence Index đạt 60 điểm và vươn lên dẫn đầu, vượt Claude Opus 4.7 với 4,7 điểm và Gemini 3.1 Pro Preview lần lượt mỗi bên 3 điểm.

Tổng quan dữ liệu then chốt

Chỉ số GPT-5.5 đối chiếu (GPT-5.4 hoặc đối thủ cùng hạng) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0(quy trình làm việc theo dòng lệnh) 82.7% GPT-5.4:75.1% Expert-SWE(đánh giá lập trình nội bộ của OpenAI) 73.1% GPT-5.4:68.5% Cửa sổ ngữ cảnh 1,200 vạn tokens nâng cấp mạnh, có thể xử lý toàn bộ kho mã chương trình của doanh nghiệp hoặc vài giờ video Giá (mỗi triệu token) đầu vào 5 đô la, đầu ra 30 đô la GPT-5.4 gấp 2 lần đơn giá;nhưng mức sử dụng token đầu ra giảm khoảng 40%, chi phí ròng tăng khoảng 20%

Định vị: Thiết kế cho “Kỷ nguyên Agent”

OpenAI mô tả GPT-5.5 như mô hình nền tảng cho tính toán theo hướng tác nhân, có thể hiểu các mục tiêu phức tạp, sử dụng công cụ, tự kiểm tra kết quả công việc, và có thể hoàn thành các tác vụ đa bước mà không cần con người can thiệp vào từng bước. Theo cuộc phỏng vấn của TechCrunch, Giám đốc điều hành Greg Brockman mô tả phiên bản này là “một bước tiến lớn hướng tới tương lai của tính toán, nhưng chỉ là một bước”, đồng thời nhấn mạnh rằng “so với 5.4, đây là bộ suy luận nhanh hơn, sắc bén hơn, dùng ít token hơn”.

Trưởng khoa học Jakub Pachocki cho biết, “trong ngắn hạn, chúng tôi chứng kiến sự cải thiện rất đáng kể”; Trưởng bộ phận nghiên cứu Mark Chen thì nhấn mạnh rằng phiên bản lần này mang lại “những đột phá có ý nghĩa” trong quy trình làm việc nghiên cứu khoa học và công nghệ.

Phạm vi cung cấp và phân tầng phiên bản

GPT-5.5:Người dùng Plus, Pro, Business, Enterprise có thể sử dụng trong ChatGPT và Codex

GPT-5.5 Pro:Phiên bản suy luận nâng cao hơn, có thể sử dụng trong ChatGPT dành cho người dùng Pro, Business, Enterprise

Tích hợp Codex:Đồng thời có thể dùng với công cụ tác nhân lập trình của OpenAI, tăng cường chỉnh sửa nhiều tệp, dòng lệnh và vòng lặp kiểm thử

Tăng cường luận điểm về an ninh mạng và quốc phòng

Thành viên nhóm kỹ thuật Mia Glaese cho biết trong cuộc phỏng vấn TechCrunch rằng năng lực an ninh mạng của GPT-5.5 sẽ tạo “ảnh hưởng lớn” đến cách OpenAI “triển khai mô hình theo hướng đầu tư vào phòng thủ kỹ thuật số”. Luận điểm này đối chiếu trực tiếp với tranh cãi gần đây của Anthropic xung quanh mô hình an ninh mạng cấp vũ khí Claude Mythos—trước đó Altman chỉ mới tại chương trình 《Core Memory》 phê bình chiến lược “chiến lược marketing bằng nỗi sợ” của Anthropic. Trên GPT-5.5, OpenAI nhấn mạnh hơn lập luận “tấn công lẫn phòng thủ, có thể triển khai”, nhằm tạo khác biệt với lập trường của Anthropic về việc hạn chế truy cập.

Thay đổi chiến lược giá

Giá mỗi triệu token của GPT-5.5 được nâng gấp đôi lên đầu vào 5 đô la, đầu ra 30 đô la—đây là lần đầu tiên trong dòng GPT-5 xuất hiện một thế hệ mà đơn giá tăng đáng kể. Giải thích của OpenAI là: nhờ hiệu suất suy luận tốt hơn, có thể giảm khoảng 40% token đầu ra, nên hóa đơn thực tế cho nhiệm vụ điển hình khoảng cao hơn GPT-5.4 20%, chứ không phải đơn giản là gấp 2 lần. Với doanh nghiệp, vì vậy, việc ra quyết định chuyển từ “đơn giá có đáng hay không” sang “trong cùng một prompt, liệu GPT-5.5 có thể hoàn thành các nhiệm vụ phức tạp hơn trong khi tổng lượng Token còn ít hơn hay không”.

Tín hiệu đối với ngành

GPT-5.5 mở rộng khoảng cách của OpenAI trên Terminal-Bench và các đánh giá SWE nội bộ; hai bộ chuẩn này lần lượt kiểm tra việc tác nhân dòng lệnh thực thi và các nhiệm vụ kỹ sư phần mềm thực tế—đối đầu tích cực giữa Codex và Claude Code là “điểm số” chiến trường trực tiếp hơn. Cộng thêm việc đồng thời mở cửa sổ ngữ cảnh 1,200 vạn tokens, OpenAI đồng thời gia tăng áp lực lên hai đường đua “xử lý toàn bộ kho tri thức doanh nghiệp” và “tác nhân nhiệm vụ dài”. Đối với Anthropic, Claude Opus 4.7 trong AA index tụt sau 3 điểm ở mức 57, so với đó; đối với người dùng Claude Code, cũng có thêm một lý do để theo dõi tiến độ thế hệ tiếp theo (Opus 4.8 hoặc Claude thế hệ mới).

Bài viết này: OpenAI đẩy GPT-5.5:12M ngữ cảnh、AA index lên đỉnh、Terminal-Bench 82.7% cải viết chuẩn tác nhân Xuất hiện sớm nhất tại 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

OpenAI Tuyển Dụng Nhân Tài Hàng Đầu Ngành Phần Mềm Doanh Nghiệp Khi Các Tác Nhân Tuy Tiến Phá Vỡ Ngành

Tin tức Gate News ngày 26 tháng 4 — OpenAI và Anthropic đã tuyển dụng các lãnh đạo cấp cao và kỹ sư chuyên biệt từ các công ty phần mềm doanh nghiệp lớn, bao gồm Salesforce, Snowflake, Datadog và Palantir. Denise Dresser, cựu CEO của Slack thuộc Salesforce, gia nhập OpenAI với vai trò giám đốc doanh thu cấp cao

GateNews7giờ trước

Worxphere Đổi Thương Hiệu JobKorea Với Công Cụ Tuyển Dụng Được Tích Hợp AI

Thông điệp Cổng Tin Tức, ngày 26 tháng 4 — Nền tảng nhân sự của Hàn Quốc Worxphere đã đổi thương hiệu JobKorea khi chuyển từ các bảng tuyển dụng trực tuyến truyền thống sang các giải pháp tuyển dụng dựa trên AI. Công ty đang hợp nhất các dịch vụ, bao gồm JobKorea và Albamon, thành một nền tảng thống nhất bao phủ việc làm lâu dài,

GateNews17giờ trước

Tác nhân AI giờ đã có thể độc lập tái hiện các bài báo học thuật phức tạp: Mollick cho rằng lỗi thường nằm ở phần văn bản gốc của con người chứ không phải AI

Mollick 指 ra rằng chỉ với các phương pháp công khai và dữ liệu là có thể để AI agent tái tạo lại nghiên cứu phức tạp mà không cần có bản thảo bài báo gốc và mã nguồn; nếu quá trình tái hiện không khớp với bài báo gốc thì đa phần là do lỗi xử lý dữ liệu trong chính bài báo hoặc do kết luận bị quá mức, chứ không phải do AI. Claude đầu tiên tái hiện lại bài báo, sau đó GPT‑5 Pro được dùng để xác minh chéo, đa số thành công, chỉ bị cản trở khi gặp vấn đề do dữ liệu quá lớn hoặc replication data. Xu hướng này đã làm giảm đáng kể chi phí nhân lực, khiến việc tái hiện trở thành một kiểm định phổ biến và có thể thực hiện được; đồng thời cũng nêu ra các thách thức về thể chế đối với việc phản biện và quản trị, trong đó các công cụ quản trị của chính phủ hoặc có thể trở thành một vấn đề then chốt.

ChainNewsAbmedia18giờ trước

Các Tiểu vương quốc Ả Rập Thống nhất (UAE) Công bố Chuyển hướng sang Mô hình Chính phủ dựa trên AI trong Hai Năm Tiếp theo

H.H. Sheikh Mohammed bin Rashid Al Maktoum cho biết mục tiêu là 50% các lĩnh vực của chính phủ hoạt động thông qua AI tác nhân tự chủ. Quá trình chuyển đổi cũng sẽ bao gồm việc đào tạo các nhân viên liên bang để “thành thạo AI” và sẽ được giám sát bởi Sheikh Mansour bin Zayed. Các điểm chính:

Coinpedia04-25 08:39

Nền tảng giao dịch AI Fere AI huy động 1,3 triệu USD, được dẫn dắt bởi Ethereal Ventures

Tin tức từ Gate, ngày 25 tháng 4 — Fere AI, một nền tảng giao dịch tài sản số được hỗ trợ bởi AI, đã công bố việc hoàn tất một vòng gọi vốn trị giá 1,3 triệu USD do Ethereal Ventures dẫn dắt, với sự tham gia của Galaxy Vision Hill và Kosmos Ventures, theo Globenewswire. Nền tảng hỗ trợ các mạng xuyên chuỗi bao gồm Ethereum, Solana và Base, cho phép người dùng mô tả mục tiêu giao dịch của họ bằng ngôn ngữ tự nhiên trong khi các tác nhân AI thực hiện lệnh giao dịch. Số vốn mới huy động sẽ được phân bổ để mở rộng phát triển nền tảng và tối ưu hóa các chiến lược giao dịch.

GateNews04-25 07:46

Nvidia Triển Khai Tác Nhân AI Codex của OpenAI trên Toàn Bộ Lực Lượng Lao Động với Hạ Tầng Blackwell

Tin từ Gate News, ngày 25 tháng 4 — Nvidia đã triển khai Codex của OpenAI, một tác nhân AI được cung cấp bởi GPT-5.5, cho toàn bộ lực lượng lao động của mình sau một thử nghiệm thành công với khoảng 10.000 nhân viên, theo các trao đổi nội bộ từ CEO Jensen Huang và CEO OpenAI Sam Altman. Codex được thiết kế để hỗ trợ

GateNews04-25 03:11
Bình luận
0/400
Không có bình luận