Claude Code baru /goals perintah: memisahkan eksekusi dan evaluasi, menghindari agen AI bermalas-malasan dan berbohong

Anthropic untuk Claude Code meluncurkan perintah /goals, memisahkan penilaian penyelesaian tugas dari pelaksanaan tugas ke dalam dua model yang berbeda, karena membiarkan AI menilai pekerjaannya sendiri secara arsitektural adalah desain yang cacat.
(Latar belakang: Claude Code mengumumkan peningkatan batas penggunaan Token mingguan sebesar 50%!Selama dua bulan Anthropic menguasai ekosistem pengembang)
(Tambahan latar: Fitur otomatisasi Claude Code Routines diluncurkan: mendukung penjadwalan, API, dan pemicu acara GitHub)

Anda mungkin pernah mengalami situasi ini: AI menyelesaikan desain kode, dan memberi respons bahwa tugas telah selesai. Tapi beberapa hari kemudian Anda baru menyadari, beberapa modul sama sekali tidak dikompilasi. Ini bukan karena kemampuan model yang kurang, melainkan karena model sendiri memutuskan bahwa ia “sudah selesai”, padahal sebenarnya belum.

Untuk memperbaiki situasi ini, Anthropic minggu ini meluncurkan perintah /goals baru untuk Claude Code. Logikanya sangat langsung: model yang menjalankan tugas dan model yang menilai apakah tugas sudah selesai haruslah dua peran yang berbeda. Model yang sama tidak bisa memainkan kedua peran ini sekaligus, karena ia akan selalu menjadi penilai terburuk dari pekerjaannya sendiri.

How do you keep Claude working until the job is done? Claude Code helps with this in a few ways, including one we shipped recently: /goal. pic.twitter.com/QtVPmwoKct

— ClaudeDevs (@ClaudeDevs) May 13, 2026

Mengapa agen AI bisa “lebih awal berhenti bekerja”

Pekerjaan agen pengkodean AI adalah sebuah siklus: membaca file, menjalankan perintah, memodifikasi kode, lalu menilai apakah tugas sudah selesai. Masalahnya terletak pada langkah terakhir ini.

Konsep konteks yang terkumpul selama proses: langkah yang sudah selesai, metode yang sudah dicoba, kesalahan yang pernah terjadi… membuat model memiliki bias terhadap kemajuan dirinya sendiri. Ia cenderung menganggap “saya sudah banyak melakukan” sama dengan “saya sudah selesai”. Masalah ini sangat mahal di lingkungan perusahaan: jika proses migrasi kode atau pengujian perbaikan dihentikan sebelum tahap akhir, biasanya baru diketahui beberapa hari kemudian.

Saat ini, ada beberapa solusi industri. OpenAI membiarkan model agen memutuskan kapan harus berhenti sendiri, dan mengizinkan pengembang mengintegrasikan evaluator eksternal. Google ADK mendukung evaluasi independen melalui LoopAgent, dan LangGraph juga mendukung pola serupa, tetapi solusi ini memiliki kesamaan: node kritik (critic node) dan logika penghentian harus dirancang pengembang sendiri, platform tidak menyediakan default.

Satu perintah, dua model

Desain inti dari /goals adalah memisahkan secara resmi “pelaksanaan” dan “penilaian” menjadi dua peran. Pengembang memasukkan kondisi target, misalnya:

/goal test/auth semua pengujian di direktori lolos, dan hasil pemeriksaan lint bersih

Setiap kali agen mencoba menyelesaikan pekerjaan, model penilai akan mengambil alih untuk memverifikasi. Model penilai secara default menggunakan Claude Haiku (model yang lebih ringan dari Anthropic). Alasan memilih model kecil sangat sederhana: evaluator hanya perlu melakukan penilaian biner, memenuhi syarat atau tidak, tidak memerlukan kemampuan inferensi dari model besar.

Jika kondisi tidak terpenuhi, agen akan melanjutkan eksekusi; jika terpenuhi, model penilai akan mencatat hasil ke dalam riwayat percakapan dan menghapus target. Seluruh proses ini dilakukan di dalam Claude Code, tanpa perlu platform observabilitas pihak ketiga atau sistem log kustom.

Anthropic menyatakan bahwa kondisi target yang efektif biasanya memerlukan tiga elemen: kondisi akhir yang dapat diukur (hasil pengujian, kode keluar build, jumlah file tertentu); metode verifikasi yang jelas (misalnya “npm test keluar dengan kode 0”); dan batasan yang tidak boleh diubah selama proses (misalnya “tidak boleh mengubah file pengujian lain”).

ANTHROPIC-1,97%
TOKEN0,21%
IN-0,17%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan