TERBARU

Studi MIT menemukan kesalahan pelabelan dalam kumpulan data yang digunakan untuk menguji AI

 Studi MIT menemukan kesalahan pelabelan dalam kumpulan data yang digunakan untuk menguji AI

Sebuah tim yang dipimpin oleh ilmuwan komputer dari meneliti sepuluh dari kumpulan data yang paling banyak dikutip yang digunakan untuk menguji sistem. Mereka menemukan bahwa sekitar 3,4 persen data tidak akurat atau diberi label yang salah, yang dapat menyebabkan masalah pada sistem AI yang menggunakan kumpulan data ini.

Dataset, yang masing-masing telah dikutip lebih dari 100.000 kali, termasuk yang berbasis teks dari newsgroup, dan . Kesalahan muncul dari masalah seperti ulasan produk Amazon yang salah diberi label sebagai positif padahal sebenarnya negatif dan sebaliknya.

Beberapa kesalahan berbasis gambar dihasilkan dari pencampuran spesies hewan. Yang lain muncul dari kesalahan pemberian label pada foto dengan objek yang kurang menonjol (misalnya, “botol air” alih-alih sepeda gunung yang menyertainya). Salah satu contoh yang sangat menyakitkan yang muncul adalah bayi yang bingung mencari puting.

berpusat di sekitar audio dari video YouTube. dari seorang YouTuber yang berbicara di depan kamera selama tiga setengah menit diberi label sebagai “lonceng gereja”, meskipun hanya terdengar dalam 30 detik terakhir atau lebih. Kesalahan lain muncul dari kesalahan klasifikasi sebagai orkestra.

Untuk menemukan kemungkinan kesalahan, peneliti menggunakan kerangka kerja yang disebut , yang memeriksa kumpulan data untuk gangguan label (atau data yang tidak relevan). Mereka memvalidasi kemungkinan kesalahan menggunakan , dan menemukan sekitar 54 persen data yang ditandai oleh algoritme memiliki label yang salah. Para peneliti menemukan memiliki kesalahan paling banyak dengan sekitar 5 juta (sekitar 10 persen dari kumpulan data). Tim sehingga siapa pun dapat menelusuri kesalahan label.

Beberapa kesalahan relatif kecil dan yang lainnya tampaknya merupakan kasus rambut yang terbelah (tampilan dekat dari tombol perintah Mac yang berlabel “keyboard komputer” masih benar). Terkadang, pendekatan pembelajaran percaya diri juga salah, seperti membingungkan gambar garpu tala yang diberi label dengan benar untuk menorah.

Jika label sedikit meleset, hal itu dapat menyebabkan konsekuensi besar untuk sistem pembelajaran mesin. Jika sistem AI tidak dapat membedakan antara toko kelontong dan sekelompok kepiting, akan sulit untuk mempercayainya menuangkan minuman untukmu.

Sumber

Artikel Terkait

Leave a Reply

Your email address will not be published. Required fields are marked *