Ternyata AI benar -benar buruk dalam mengambil isyarat sosial

Ernest Hemingway memiliki teori yang berpengaruh Tentang fiksi yang mungkin menjelaskan banyak hal tentang kelemahan khusus kecerdasan buatan, atau AI. Menurut pendapat Hemingway, cerita terbaik seperti gunung es – dengan apa yang sebenarnya dikatakan dan dilakukan karakter yang terletak di atas permukaan, tetapi hanya membuat sebagian kecil dari tindakan yang sedang berlangsung. Sisa cerita – motivasi karakter, perasaan, dan pemahaman mereka tentang dunia – secara ideal berada di bawah permukaan, seperti sebagian besar gunung es, berfungsi sebagai subteks yang tidak diartikulasikan untuk semua yang terjadi.
Mungkin alasan teori Hemingway menyentuh akord adalah karena manusia seperti gunung es. Apapun yang dikatakan atau dilakukan orang pada saat tertentu rim konteks nonverbal Itu ada di luar fakta yang dingin dan sulit tentang apa yang mungkin terjadi. Seperti apa ketegangan antara dua orang, atau kenyamanan tertinggi? Wajah macam apa yang dibuat seseorang ketika mereka berusaha keras untuk mengakhiri percakapan? Ini adalah hal -hal yang dimengerti manusia secara intuitif. Menurut Sebuah studi baru dari Universitas Johns HopkinsNamun, AI tanpa harapan keluar dari kedalamannya dalam menafsirkan hal -hal seperti itu sejauh ini.
“Saya tidak berpikir manusia bahkan memiliki pemahaman penuh tentang bagaimana kami mengambil isyarat sosial nonverbal pada saat ini, tetapi ide di balik sebagian besar sistem AI modern adalah bahwa mereka seharusnya dapat mengambilnya dari semua data yang mereka latih,” kata Leyla Isik, penulis utama penelitian.
Isik adalah seorang ilmuwan kognitif yang karyanya berpusat di sekitar visi manusia dan persepsi sosial. Dia telah membaca banyak karya ilmiah baru -baru ini menunjukkan bahwa model AI saat ini mahir dalam membedakan perilaku manusia ketika mereka mengkategorikan objek dalam gambar statis. Karena banyak AI dalam waktu dekat tidak akan mengurai gambar statis, tetapi sebaliknya memproses tindakan dinamis secara real time, Isik berangkat untuk menentukan apakah AI dapat mengidentifikasi dengan benar apa yang terjadi dalam video yang menggambarkan orang yang terlibat dalam interaksi sosial yang berbeda satu sama lain.
Ini adalah jenis hal yang seseorang ingin mobil self-driving mereka unggul sebelum mempercayai ukurannya dengan benar, katakanlah, apakah dua orang memiliki pertukaran panas di trotoar di dekatnya, dan jika salah satu dari mereka tampaknya mungkin satu kata keras yang menjauh dari meluncur ke garis silang.
Tim Isik meminta sekelompok orang untuk menonton klip video tiga detik manusia yang saling terlibat atau melakukan kegiatan independen di dekat satu sama lain, dan menafsirkan apa yang digambarkan oleh klip. Sumber dari set data visi komputer, klip termasuk tindakan sehari -hari mulai dari mengemudi hingga memasak hingga menari. Para peneliti kemudian memberi makan klip pendek yang sama untuk 350 model bahasa, video dan gambar, dan meminta mereka untuk memprediksi apa yang akan dikatakan dan dirasakan manusia tentang mereka. Semua video tidak terdengar, jadi baik manusia maupun model AI dapat menggunakan nada vokal, nada, atau dialog untuk mengontekstualisasikan apa yang mereka ambil.
Hasilnya konklusif; Sementara peserta manusia sangat setuju tentang apa yang terjadi dalam video, model AI tidak.
Untuk lebih jelasnya, AI yang berpartisipasi dapat menentukan beberapa aspek dari apa yang terjadi dalam klip. Para ilmuwan mengajukan pertanyaan tentang hal -hal seperti apakah video sedang berlangsung di dalam ruangan atau di luar ruangan, dan di ruang tertutup kecil atau pengaturan terbuka yang besar. AI selalu cocok dengan manusia dengan pertanyaan -pertanyaan semacam itu.
Mereka kurang berhasil, bagaimanapun, untuk mengintip di bawah detail permukaan.
“Hampir semua hal lain, kami menemukan bahwa sebagian besar model AI berjuang di beberapa bagian dari itu,” kata Isik. “Termasuk pertanyaan sesederhana ‘apakah dua orang ini dalam video saling berhadapan atau tidak?’ Sepanjang jalan sampai pertanyaan tingkat yang lebih tinggi seperti, ‘Apakah orang -orang ini berkomunikasi?’ dan ‘Apakah video ini sepertinya menggambarkan interaksi positif atau negatif?’ “
Para peneliti bertanya, khususnya, tentang valensi emosional dari sebuah adegan – apakah itu tampak positif atau negatif – dan tingkat gairah – seberapa kuat atau melibatkan tindakan dalam video itu. Sementara banyak manusia yang terlibat tidak selalu dapat memahami apa yang dikomunikasikan dalam sebuah video, mereka dapat menentukan apakah sebuah adegan tampak sangat positif atau agak negatif. Model AI tidak dapat membaca subteks dalam isyarat nonverbal.
Perbedaan ini kemungkinan karena penelitian ini mengklaim, untuk AI yang sebagian besar dibangun di atas jaringan saraf yang terinspirasi oleh infrastruktur dari bagian otak yang memproses gambar statis, daripada bagian yang memproses interaksi sosial. Sebagian besar model AI dilatih untuk melihat gambar dan mengenali objek dan wajah, tetapi bukan hubungan, konteks, atau dinamika sosial. Mereka mungkin dilatih pada set data yang mencakup film, klip YouTube, atau panggilan zoom, dan mereka mungkin telah menemukan label yang menjelaskan apa arti senyum, lengan silang, atau alis berkerut. Tetapi mereka tidak memiliki pengalaman akumulasi dari tahun dan dekade yang dihabiskan terus -menerus menemukan set data ini dan menumbuhkan pemahaman intuitif tentang bagaimana menavigasi mereka secara real time.
Karena lini penelitian lain di Lab Isik di Johns Hopkins sedang mengembangkan model untuk membangun lebih banyak prioritas yang berpusat pada manusia ke dalam sistem AI modern, mungkin penelitiannya akan membantu menutup beberapa celah ini pada akhirnya.
Jika demikian, itu tidak akan menjadi yang kedua terlalu cepat, karena booming AI terus berkembang menjadi terapi dan teman AI, bersama dengan area lain yang mengandalkan isyarat nonverbal dan segala sesuatu yang bersembunyi di bawah permukaan.
“Setiap kali Anda ingin bantu AI atau tentu saja robot bantu di tempat kerja atau di rumah, Anda akan ingin dapat mengambil isyarat nonverbal yang halus ini,” kata Isik. “Namun, lebih pada dasarnya, Anda juga hanya ingin tahu apa yang dilakukan orang satu sama lain. Dan saya pikir penelitian ini menyoroti bahwa kita masih cukup jauh dari kenyataan itu dengan banyak sistem ini.”