Menguji kemampuan DeepSomatic untuk mengenali varian terkait kanker
Kami melatih DeepSomatic pada tiga genom kanker payudara dan dua genom kanker paru-paru dalam kumpulan data referensi CASTLE. Kami kemudian menguji kinerja DeepSomatic dengan beberapa cara, termasuk pada genom kanker payudara tunggal yang tidak disertakan dalam data pelatihannya, dan pada kromosom 1 dari setiap sampel, yang juga kami kecualikan dari pelatihan.
Hasilnya menunjukkan bahwa model DeepSomatic yang dikembangkan untuk masing-masing dari tiga platform pengurutan utama memiliki kinerja lebih baik dibandingkan metode lain, dalam mengidentifikasi lebih banyak varian tumor dengan akurasi lebih tinggi. Alat yang digunakan untuk perbandingan pada data short-read sequencing adalah Penembak Jitu Somatik, MuTect2 Dan panah2 (dengan SomaticSniper khusus untuk varian nukleotida tunggal, atau SNV). Untuk data pengurutan yang sudah lama dibaca, kami membandingkannya ClairSmodel pembelajaran mendalam yang dilatih pada data sintetis.
Dalam pengujian kami, DeepSomatic mengidentifikasi 329.011 varian somatik di enam garis sel referensi dan sampel ketujuh yang diawetkan. DeepSomatic bekerja dengan sangat baik dalam mengidentifikasi variasi kanker yang melibatkan penyisipan dan penghapusan (“Indels”) kode genetik. Untuk varian jenis ini, DeepSomatic meningkatkan secara signifikan Skor F1ukuran yang seimbang mengenai seberapa baik model menemukan varian sebenarnya dalam sampel (recall) dan tidak menghasilkan positif palsu (presisi). Pada pengurutan data Illumina, metode terbaik berikutnya mendapat skor 80% dalam mengidentifikasi Indels, sementara DeepSomatic mendapat skor 90%. Pada data pengurutan Pacific Biosciences, metode terbaik berikutnya mendapat skor kurang dari 50% dalam mengidentifikasi Indels, dan DeepSomatic mendapat skor lebih dari 80%.