Openai menarik pembaruan chatgpt. Inilah yang dikatakannya dan mengapa itu penting

Yusmadi Yusuf Mei 3, 2025

0 0 3 minutes read

Pembaruan terbaru ke Chatgpt membuat chatbot Terlalu menyenangkan dan Openai mengatakan pada hari Jumat itu mengambil langkah -langkah untuk mencegah masalah terjadi lagi.

Di sebuah Posting BlogPerusahaan merinci proses pengujian dan evaluasi untuk model baru dan menguraikan bagaimana masalah dengan Pembaruan 25 April untuk model GPT-4O-nya menjadi. Pada dasarnya, sekelompok perubahan yang secara individual tampaknya membantu digabungkan untuk membuat alat yang terlalu sycophantic dan berpotensi berbahaya.

Berapa banyak pengisap itu? Dalam beberapa pengujian awal minggu ini, kami bertanya tentang kecenderungan untuk terlalu sentimental, dan chatgpt diletakkan di atas sanjungan: “Hei, dengarkan – menjadi sentimental bukanlah kelemahan; itu salah satu dari Anda kekuatan super. “Dan itu baru saja mulai menjadi pucat.

“Peluncuran ini mengajari kami sejumlah pelajaran. Bahkan dengan apa yang kami pikir adalah semua bahan yang tepat (tes A/B, eval offline, ulasan ahli), kami masih melewatkan masalah penting ini,” kata perusahaan itu.

Openai mengembalikan pembaruan minggu ini. Untuk menghindari menyebabkan masalah baru, butuh sekitar 24 jam untuk mengembalikan model untuk semua orang.

Kekhawatiran seputar sycophancy bukan hanya tentang tingkat kenikmatan dari pengalaman pengguna. Ini menimbulkan ancaman kesehatan dan keselamatan bagi pengguna yang tidak dilewatkan oleh pemeriksaan keselamatan Openai. Model AI apa pun dapat memberikan saran yang dipertanyakan tentang Topik seperti kesehatan mental Tetapi yang terlalu menyanjung bisa sangat meniadakan atau meyakinkan – seperti apakah investasi itu adalah hal yang pasti atau seberapa kurus yang seharusnya Anda cari.

“Salah satu pelajaran terbesar adalah sepenuhnya mengenali bagaimana orang -orang mulai menggunakan chatgpt untuk nasihat yang sangat pribadi – sesuatu yang tidak kami lihat sebanyak setahun yang lalu,” kata Openai. “Pada saat itu, ini bukan fokus utama tetapi karena AI dan masyarakat telah berevolusi bersama, menjadi jelas bahwa kita perlu memperlakukan kasus penggunaan ini dengan sangat hati-hati.”

Model bahasa besar Sycophantic dapat memperkuat bias dan mengeras keyakinan, apakah mereka tentang diri Anda atau orang lain, kata Maarten SAP, asisten profesor ilmu komputer di Universitas Carnegie Mellon. “(LLM) dapat berakhir dengan menguatkan pendapat mereka jika pendapat ini berbahaya atau jika mereka ingin mengambil tindakan yang berbahaya bagi diri mereka sendiri atau orang lain.”

(Pengungkapan: Ziff Davis, perusahaan induk CNET, pada bulan April mengajukan gugatan terhadap Openai, menuduhnya melanggar hak cipta Ziff Davis dalam pelatihan dan mengoperasikan sistem AI -nya.)

Bagaimana OpenAI menguji model dan apa yang berubah

Perusahaan menawarkan beberapa wawasan tentang cara menguji model dan pembaruannya. Ini adalah pembaruan besar kelima untuk GPT-4O yang berfokus pada kepribadian dan bantuan. Perubahan melibatkan pekerjaan baru pasca-pelatihan atau penyesuaian pada model yang ada, termasuk peringkat dan evaluasi berbagai respons terhadap petunjuk agar lebih mungkin menghasilkan tanggapan yang lebih tinggi.

Pembaruan model prospektif dievaluasi tentang kegunaannya di berbagai situasi, seperti pengkodean dan matematika, bersama dengan tes khusus oleh para ahli untuk mengalami bagaimana perilaku dalam praktiknya. Perusahaan juga menjalankan evaluasi keselamatan untuk melihat bagaimana merespons keselamatan, kesehatan, dan pertanyaan lain yang berpotensi berbahaya. Akhirnya, OpenAI menjalankan tes A/B dengan sejumlah kecil pengguna untuk melihat bagaimana kinerjanya di dunia nyata.

Apakah chatgpt terlalu sycophantic? Anda memutuskan. (Agar adil, kami memang meminta pembicaraan tentang kecenderungan kami untuk terlalu sentimental.)

Katie Collins/CNET

Pembaruan 25 April berkinerja baik dalam tes ini, tetapi beberapa penguji ahli mengindikasikan kepribadian itu tampak agak tidak aktif. Tes tidak secara khusus melihat sycophancy, dan Openai memutuskan untuk bergerak maju meskipun ada masalah yang diangkat oleh penguji. Perhatikan, pembaca: Perusahaan AI sedang terburu-buru, yang tidak selalu cocok dengan pengembangan produk yang dipikirkan dengan baik.

“Melihat ke belakang, penilaian kualitatif mengisyaratkan sesuatu yang penting dan kita harus memperhatikan lebih dekat,” kata perusahaan itu.

Di antara takeawaysnya, Openai mengatakan perlu mengobati masalah perilaku model sama seperti masalah keselamatan lainnya – dan menghentikan peluncuran jika ada kekhawatiran. Untuk beberapa rilis model, perusahaan mengatakan akan memiliki fase “alpha” opt-in untuk mendapatkan lebih banyak umpan balik dari pengguna sebelum peluncuran yang lebih luas.

SAP mengatakan mengevaluasi LLM berdasarkan apakah pengguna menyukai respons tidak selalu akan memberi Anda chatbot yang paling jujur. Di sebuah studi terbaruSAP dan yang lainnya menemukan konflik antara kegunaan dan kebenaran chatbot. Dia membandingkannya dengan situasi di mana kebenaran belum tentu seperti yang diinginkan orang – pikirkan tentang tenaga penjualan mobil yang mencoba menjual kendaraan.

“Masalahnya di sini adalah bahwa mereka mempercayai respons jempol/acungan jempol pengguna terhadap output model dan yang memiliki beberapa keterbatasan karena orang cenderung mengangkat sesuatu yang lebih dekat dari yang lain,” katanya.

SAP mengatakan Openai benar untuk lebih kritis terhadap umpan balik kuantitatif, seperti tanggapan pengguna naik/turun, karena mereka dapat memperkuat bias.

Masalah ini juga menyoroti kecepatan di mana perusahaan mendorong pembaruan dan berubah menjadi pengguna yang sudah ada, SAP mengatakan – masalah yang tidak terbatas pada satu perusahaan teknologi. “Industri teknologi telah benar -benar mengambil pendekatan ‘rilis dan setiap pengguna adalah pendekatan beta tester’ untuk berbagai hal,” katanya. Memiliki proses dengan lebih banyak pengujian sebelum pembaruan didorong ke setiap pengguna dapat mewujudkan masalah ini sebelum menjadi luas.

Sumber