DOWNLOAD 88ID
Aplikasi Game Terbesar di Indonesia
DOWNLOAD APP

Mencapai pengurangan data pelatihan 10.000x dengan label fidelitas tinggi

Mencapai pengurangan data pelatihan 10.000x dengan label fidelitas tinggi


Eksperimen

Kami ingin memahami model dan tugas mana yang paling mendapat manfaat dari proses kurasi kami. Sebagai garis dasar untuk eksperimen kami, kami menyempurnakan dua LLM dengan ukuran berbeda (Gemini Nano-1 dengan parameter 1,8B dan Nano-2 dengan parameter 3,25B) pada dua tugas dengan kompleksitas berbeda (lebih rendah dan lebih tinggi, berdasarkan penyelarasan ahli) menggunakan label crowdsourced. Setiap kumpulan data crowdsourcing memiliki ~100 ribu anotasi dan ketidakseimbangan kelas yang kuat, dengan rata-rata sekitar 95% label tidak berbahaya.

Kami membandingkan masing-masing dari empat kondisi dasar ini dengan kondisi yang terkait dikurasi kondisi di mana setiap model (Nano-1 dan Nano-2) disempurnakan dalam beberapa putaran menggunakan proses kurasi yang dijelaskan di atas. Pada setiap iterasi, kami memilih kumpulan contoh pilihan kami dan menggunakannya untuk evaluasi dan penyesuaian model, seperti dijelaskan di atas. Semua model mengalami stagnasi sebelum mencapai keseimbangan dengan penyelarasan internal para ahli, jadi kami berhenti pada 6 iterasi (~400 penyesuaian dan ~250 sampel evaluasi) untuk tugas dengan kompleksitas lebih rendah dan 5 iterasi (~250 penyesuaian dan ~150 sampel evaluasi) untuk tugas dengan kompleksitas lebih tinggi. (Perhatikan bahwa tugas dengan kompleksitas lebih rendah memiliki variasi contoh yang lebih besar, yang mungkin memerlukan waktu lebih lama untuk berkumpul.) Kedua kumpulan data memiliki keseimbangan kelas akhir sebesar ~40% contoh positif.

Tabel di bawah ini memberikan gambaran skala dan kualitas data yang digunakan pada setiap kondisi. Para ahli mencapai rata-rata Kappa Cohen berpasangan sebesar 0,81 (pada tugas dengan kompleksitas lebih rendah) dan 0,78 (pada tugas dengan kompleksitas lebih tinggi) melalui proses kurasi. Kami menganggap ini sebagai puncak performa model. Untuk menilai kualitas data crowdsourcing kami, kami menghitung penyelarasan Kappa antara anotasi crowdsourcing dan pakar berdasarkan kumpulan lengkap hasil kurasi kami, yaitu 0,59 (kompleksitas lebih rendah) dan 0,41 (kompleksitas lebih tinggi).


Previous Article

'Tidak tidur selama dua hari sebelum kecelakaan': Wanita asal India dipenjara selama 7 tahun karena kecelakaan di Georgia, mabuk dan mengemudi dengan SIM yang ditangguhkan - The Times of India

Next Article

Indonesia dukung kreator muda bersaing di kancah global: Menteri

Write a Comment

Leave a Comment

Your email address will not be published. Required fields are marked *