Evaluasi otomatis bertenaga Gemini dan sistem penyempurnaan yang cepat
Untuk mencapai tujuan kami, kami mengembangkan pendekatan otomatis yang memanfaatkan model Gemini untuk evaluasi kualitas penyederhanaan dan penyempurnaan mandiri dari perintah. Namun, menyusun petunjuk untuk penyederhanaan yang bernuansa, di mana keterbacaan harus ditingkatkan tanpa mengorbankan makna atau detail, merupakan suatu tantangan. Sistem otomatis mengatasi tantangan ini dengan memungkinkan uji coba ekstensif yang diperlukan untuk menemukan perintah yang paling efektif.
Evaluasi otomatis
Evaluasi manual tidak praktis untuk iterasi cepat. Sistem kami menggunakan dua komponen evaluasi baru:
- Penilaian keterbacaan: Bergerak melampaui metrik sederhana seperti Flesch-Kincaidkami menggunakan perintah Gemini untuk menilai keterbacaan teks pada skala 1-10. Perintah ini secara berulang disempurnakan berdasarkan penilaian manusia, sehingga memungkinkan penilaian kemudahan pemahaman yang lebih bernuansa. Kami mengamati dalam pengujian bahwa penilaian keterbacaan berbasis LLM ini lebih selaras dengan penilaian keterbacaan manusia dibandingkan Flesch-Kincaid.
- Penilaian kesetiaan: Memastikan pelestarian makna sangatlah penting. Dengan menggunakan Gemini 1.5 Pro, kami menerapkan proses yang memetakan klaim dari teks asli ke versi yang disederhanakan. Metode ini mengidentifikasi jenis kesalahan tertentu seperti kehilangan, perolehan, atau distorsi informasi, masing-masing diberi bobot berdasarkan tingkat keparahannya, sehingga memberikan ukuran granular mengenai ketepatan makna aslinya (kelengkapan dan kelengkapan).
Penyempurnaan cepat berulang: LLM mengoptimalkan LLM
Kualitas penyederhanaan akhir (yang dihasilkan oleh Gemini 1.5 Flash) sangat bergantung pada perintah awal. Kami mengotomatiskan proses pengoptimalan cepat itu sendiri melalui a putaran penyempurnaan yang cepat: menggunakan skor autoeval untuk keterbacaan dan ketepatan, model Gemini 1.5 Pro lainnya menganalisis kinerja perintah penyederhanaan dan mengusulkan petunjuk yang disempurnakan untuk iterasi berikutnya.
Hal ini menciptakan putaran umpan balik yang kuat di mana sistem LLM secara berulang meningkatkan instruksinya sendiri berdasarkan metrik kinerja, mengurangi ketergantungan pada rekayasa cepat manual dan memungkinkan penemuan strategi penyederhanaan yang sangat efektif. Untuk pekerjaan ini, loop dijalankan selama 824 iterasi hingga performa stabil.
Proses otomatis ini, di mana satu LLM mengevaluasi keluaran LLM lain dan menyempurnakan instruksinya (perintah) berdasarkan metrik kinerja (keterbacaan dan ketepatan) dan kesalahan granular, mewakili inovasi utama. Hal ini melampaui rekayasa cepat manual yang melelahkan, memungkinkan sistem untuk secara mandiri menemukan strategi yang sangat efektif untuk penyederhanaan yang berbeda-beda dalam ratusan iterasi.