Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh “Spud” và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5.
Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể.
Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên “Expert-SWE.” Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos (77.8%) chưa được phát hành của Anthropic.
Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn.
DeepSeek V4 được đánh giá là “theo kịp với tuyến đầu nhưng không dẫn đầu,” định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng “Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao,” và bình luận rằng “Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó.”
Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo “chi phí cho mỗi tác vụ” thay vì “chi phí cho mỗi token.” Giá của GPT-5.5 gấp đôi so với GPT-5.4 (input $5, output $30 per million tokens), nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Các lãnh đạo công nghệ Thung lũng Silicon tăng cường chi tiết an ninh sau các cuộc tấn công gần đây nhằm vào Altman và những người khác
Tin tức từ Gate News, ngày 27 tháng 4 — Sau các cuộc tấn công gần đây nhằm vào các lãnh đạo công nghệ nổi bật, bao gồm nơi ở tại San Francisco của Sam Altman và CEO của UnitedHealthcare, các lãnh đạo điều hành thuộc Thung lũng Silicon đang nâng cấp đáng kể các biện pháp an ninh cá nhân. Tâm lý bài xích AI ngày càng gia tăng, kết hợp với những vụ việc gây chú ý như vậy, đã khiến các nhà sáng lập công nghệ phải xem xét lại các sắp xếp an ninh riêng tư, chuyển từ sự miễn cưỡng trước đây trong việc thuê vệ sĩ sang việc coi bảo vệ toàn diện là thông lệ tiêu chuẩn.
Các rủi ro về an ninh bắt nguồn từ cả các cuộc biểu tình ngoài đời lẫn các mối đe dọa trực tuyến. Theo các chuyên gia an ninh, mạng xã hội có thể nhanh chóng tập trung sự bất mãn của công chúng nhắm vào các cá nhân cụ thể trong vòng vài ngày, trong khi các bức ảnh, lịch trình và thông tin địa điểm được chia sẻ công khai tạo ra các lỗ hổng có thể khai thác. Các lãnh đạo công nghệ phải đối mặt với các mối đe dọa trải rộng từ bảo vệ cá nhân và an ninh nơi ở đến việc đánh giá rủi ro khi di chuyển và giám sát các mối đe dọa trên mạng.
Các công bố của doanh nghiệp phản ánh xu hướng này. Theo phân tích của Equilar về các hồ sơ ủy quyền của S&P 500, 37,8% công ty đã cung cấp các lợi ích an ninh cho ít nhất một số lãnh đạo điều hành trong năm 2025, tăng từ 33,5% trong năm 2024. Trong số các công ty cung cấp các lợi ích như vậy, chi tiêu an ninh trung vị đã tăng từ $108.700 lên $130.500. Hồ sơ ủy quyền năm 2026 của Meta tiết lộ rằng do Mark Zuckerberg có mức độ nổi tiếng cao và đối mặt với các mối đe dọa an ninh cụ thể, công ty đã cung cấp cho ông các sắp xếp an ninh toàn diện, chi khoảng $8,50 triệu cho an ninh dân cư và an ninh khi di chuyển cá nhân trong năm 2025, cộng thêm một khoản phụ cấp an ninh trước thuế bổ sung million. Các công ty cung cấp dịch vụ an ninh tư nhân cũng đang điều chỉnh mô hình phục vụ, chuyển từ đội ngũ vệ sĩ mặc vest và đeo tai nghe theo kiểu truyền thống sang những người có thể hòa nhập vào phòng họp của ban điều hành, các bữa tối và bối cảnh gia đình.
GateNews8phút trước
Moonshot AI Ra mắt Kimi K3 theo kế hoạch vào Q3 2026 với 2,5T+ Tham số và Ngữ cảnh 1M Token trong Thử nghiệm
Tin tức Cổng thông tin, ngày 27 tháng 4 — Theo các báo cáo, Moonshot AI dự định ra mắt Kimi K3 trong Q3 2026 (Tháng Bảy-Tháng Chín). Mô hình sẽ có hơn 2,5 nghìn tỷ tham số, và các thử nghiệm nội bộ cho thấy khả năng cửa sổ ngữ cảnh vượt quá 1 triệu token.
Tuy nhiên, liệu ngữ cảnh 1M này có sẽ
GateNews48phút trước
OpenAI's Greg Brockman: AI Shifting from Chat to Autonomous Task Execution
Gate News message, April 27 — Greg Brockman, president and co-founder of OpenAI, says the next wave of artificial intelligence will move users from chatting with AI bots to assigning real-world tasks. This shift requires enterprises to rethink operational workflows and establish new protocols for se
GateNews1giờ trước
B.AI Nâng Cấp Cơ Sở Hạ Tầng, Ra Mắt Các Tính Năng Kỹ Năng Lớn
Tin tức của Gate, ngày 27 tháng 4 — B.AI đã công bố nhiều tiến bộ về sản phẩm và hệ sinh thái trong tuần này. Trang đích BAIclaw đã được đại tu hoàn toàn về giao diện trực quan và tương tác, đồng thời hỗ trợ đa ngôn ngữ trên website được mở rộng lên 10 ngôn ngữ, giúp nâng cao khả năng sử dụng trên phạm vi toàn cầu.
Ở mảng hạ tầng
GateNews1giờ trước
Bắc Kinh yêu cầu dỡ bỏ lệnh cấm giao dịch! Meta đã rót 2 tỷ USD để mua lại công ty khởi nghiệp AI tại Trung Quốc Manus nhưng thương vụ thất bại
Ủy ban Phát triển và Cải cách Quốc gia Trung Quốc hôm nay (ngày 27 tháng 4) chính thức ban hành thông báo. Văn phòng Cơ chế công tác thẩm tra an ninh đầu tư nước ngoài đã “theo đúng pháp luật và đúng quy định đưa ra quyết định cấm đầu tư đối với việc nhà đầu tư nước ngoài mua lại dự án Manus, đồng thời yêu cầu các bên liên quan hủy bỏ giao dịch mua lại đó”. Đây là, kể từ khi các “Biện pháp thẩm tra an ninh đầu tư nước ngoài” của Trung Quốc được thực thi, một số ít trường hợp sử dụng biện pháp xử lý “cấm đầu tư” với mức độ cao nhất và yêu cầu hủy bỏ giao dịch đã được xác lập.
Meta đổ 2 tỷ USD, mua vào ứng dụng AI rẻ nhất
Thời gian quay lại ngày 29 tháng 12 năm 2025. Meta công bố việc mua lại startup AI đại lý Trung Quốc Manus, thị trường dự đoán giá nằm trong khoảng từ 2 đến 3 tỷ USD. Manus là AI đa năng do Công ty phát triển Công nghệ Butterfly Effect ở Bắc Kinh phát triển, sau khi ra mắt vào ngày 6 tháng 3 năm 2025, nhờ thành tích nổi bật trong benchmark GAIA nên chỉ trong một đêm
ChainNewsAbmedia1giờ trước