Bagaimana PASTA bekerja
Untuk melatih agen AI secara efektif agar dapat beradaptasi dengan preferensi individu pengguna, diperlukan kumpulan data interaksi yang besar dan beragam. Namun, mengumpulkan data ini dari pengguna sebenarnya merupakan tantangan karena beberapa faktor, termasuk privasi pengguna. Untuk mengatasi hal ini, kami melatih PASTA menggunakan strategi dua tahap yang menggabungkan umpan balik manusia nyata dengan simulasi pengguna berskala besar.
Pertama, kami mengumpulkan a kumpulan data dasar berkualitas tinggi dengan lebih dari 7.000 interaksi berurutan penilai. Interaksi ini mencakup perluasan cepat yang dihasilkan oleh a Kilatan Gemini model multimodal besar dan gambar terkait yang dihasilkan oleh a Difusi Stabil XL (SDXL) Model T2I. Benih awal data preferensi autentik ini kemudian digunakan untuk melatih simulator pengguna, yang dirancang untuk menghasilkan data tambahan yang mereplikasi pilihan dan preferensi manusia sebenarnya.
Inti dari metode kami adalah model pengguna, yang terdiri dari dua komponen utama: 1) model utilitas yang memprediksi sejauh mana pengguna akan menyukai kumpulan gambar mana pun, dan 2) model pilihan yang memprediksi kumpulan gambar mana yang akan mereka pilih ketika disajikan dengan beberapa kumpulan. Kami membangun model pengguna menggunakan pelatihan sebelumnya Pembuat enkode CLIP dan menambahkan komponen khusus pengguna. Kami melatih model menggunakan pemaksimalan harapan algoritma yang memungkinkan kita untuk secara bersamaan mempelajari preferensi pengguna secara spesifik sekaligus menemukan “tipe pengguna” laten, yaitu sekelompok pengguna dengan selera yang sama (misalnya, kecenderungan untuk lebih menyukai gambar binatang, pemandangan indah, atau seni abstrak).
Simulator pengguna yang terlatih dapat memberikan umpan balik dan mengekspresikan preferensi pada gambar yang dihasilkan, dan membuat pilihan dari kumpulan gambar yang diusulkan. Hal ini memungkinkan kami menghasilkan lebih dari 30.000 lintasan interaksi simulasi. Pendekatan kami tidak hanya menghasilkan lebih banyak data; ini memberi kita lingkungan terkendali untuk mengeksplorasi berbagai perilaku pengguna sehingga kita dapat melatih agen PASTA untuk berkolaborasi secara efektif dengan pengguna.