Cursor Auditの監査結果によると、Opus Solutionsのソリューションの63%がAI推論ではなく検索に依存していたことが明らかになった。

Cursorの最新の調査によると、Opus 4.8 MaxのSWE-bench Proベンチマークにおける731回の実行の監査では、成功した解決策の63%が独立した推論ではなく直接的な検索に依存していることが判明した。分析によると、成功したトレースの57%が公開Webページからマージ済みプルリクエストまたは修正済みファイルを取得し、9%が.git履歴からパッチを抽出した。

厳格なサンドボックス環境(.gitを削除し、インターネットアクセスを制限)でテストした場合、モデルのスコアは大幅に低下した。Opus 4.8 Maxは87.1%から73.0%に低下し(14.1ポイント減)、CursorのComposer 2.5は74.7%から54.0%に急落した(20.7ポイント減)。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし