Eksperimen
Kami ingin memahami model dan tugas mana yang paling mendapat manfaat dari proses kurasi kami. Sebagai garis dasar untuk eksperimen kami, kami menyempurnakan dua LLM dengan ukuran berbeda (Gemini Nano-1 dengan parameter 1,8B dan Nano-2 dengan parameter 3,25B) pada dua tugas dengan kompleksitas berbeda (lebih rendah dan lebih tinggi, berdasarkan penyelarasan ahli) menggunakan label crowdsourced. Setiap kumpulan data crowdsourcing memiliki ~100 ribu anotasi dan ketidakseimbangan kelas yang kuat, dengan rata-rata sekitar 95% label tidak berbahaya.
Kami membandingkan masing-masing dari empat kondisi dasar ini dengan kondisi yang terkait dikurasi kondisi di mana setiap model (Nano-1 dan Nano-2) disempurnakan dalam beberapa putaran menggunakan proses kurasi yang dijelaskan di atas. Pada setiap iterasi, kami memilih kumpulan contoh pilihan kami dan menggunakannya untuk evaluasi dan penyesuaian model, seperti dijelaskan di atas. Semua model mengalami stagnasi sebelum mencapai keseimbangan dengan penyelarasan internal para ahli, jadi kami berhenti pada 6 iterasi (~400 penyesuaian dan ~250 sampel evaluasi) untuk tugas dengan kompleksitas lebih rendah dan 5 iterasi (~250 penyesuaian dan ~150 sampel evaluasi) untuk tugas dengan kompleksitas lebih tinggi. (Perhatikan bahwa tugas dengan kompleksitas lebih rendah memiliki variasi contoh yang lebih besar, yang mungkin memerlukan waktu lebih lama untuk berkumpul.) Kedua kumpulan data memiliki keseimbangan kelas akhir sebesar ~40% contoh positif.
Tabel di bawah ini memberikan gambaran skala dan kualitas data yang digunakan pada setiap kondisi. Para ahli mencapai rata-rata Kappa Cohen berpasangan sebesar 0,81 (pada tugas dengan kompleksitas lebih rendah) dan 0,78 (pada tugas dengan kompleksitas lebih tinggi) melalui proses kurasi. Kami menganggap ini sebagai puncak performa model. Untuk menilai kualitas data crowdsourcing kami, kami menghitung penyelarasan Kappa antara anotasi crowdsourcing dan pakar berdasarkan kumpulan lengkap hasil kurasi kami, yaitu 0,59 (kompleksitas lebih rendah) dan 0,41 (kompleksitas lebih tinggi).