Дослідження показують, що найпотужніші моделі штучного інтелекту від OpenAI мають значно вищий рівень галюцинацій, що ставить під сумнів їхню надійність і корисність.
Неочікувана проблема найпотужніших моделей
OpenAI нещодавно представила свої найновіші моделі штучного інтелекту — o3 та o4-mini, заявивши, що вони є найпотужнішими на сьогоднішній день. Однак, згідно з дослідженням, опублікованим у системній картці компанії, ці моделі демонструють значно вищий рівень галюцинацій порівняно з попередніми версіями.
Галюцинації в контексті штучного інтелекту — це випадки, коли AI-система генерує неправдиву інформацію, вигадані дослідження, неіснуючі URL-адреси та інші недостовірні дані, представляючи їх як факти. Це явище залишається серйозною проблемою навіть для найсучасніших систем штучного інтелекту.
Згідно з внутрішнім тестуванням OpenAI, що базується на загальнодоступній інформації (PersonQA), модель o4-mini продемонструвала галюцинації у 48% відповідей, що втричі перевищує показник моделі o1. Хоча o4-mini є меншою, дешевшою та швидшою версією порівняно з o3, і тому від неї не очікували кращої продуктивності, модель o3 також галюцинувала у 33% відповідей, що вдвічі перевищує рівень галюцинацій моделі o1.
“Модель o3 має тенденцію робити більше тверджень загалом, що призводить як до більшої кількості точних тверджень, так і до більшої кількості неточних/галюцинованих тверджень”, — пояснюється у звіті OpenAI. “Необхідні додаткові дослідження для розуміння причин такого результату”.
Причини збільшення галюцинацій у новіших моделях
Проблема галюцинацій залишається складною для розв’язання. На сьогодні не існує ідеального рішення для запобігання чи виявлення галюцинацій у моделях штучного інтелекту, незважаючи на різні підходи, які випробовує OpenAI.
Перевірка фактів є рухомою ціллю, що ускладнює її вбудовування та масштабування. Цей процес вимагає певного рівня людських когнітивних навичок, яких здебільшого бракує ШІ, таких як здоровий глузд, здатність розрізняти та контекстуалізація. У результаті, ступінь галюцинацій моделі значною мірою залежить від якості навчальних даних (і доступу до Інтернету для отримання актуальної інформації).
Мінімізація неправдивої інформації у навчальних даних може зменшити ймовірність неправдивих тверджень, але цей метод не запобігає галюцинаціям повністю, оскільки багато творчих рішень чатботів на базі ШІ досі не повністю зрозумілі.
Несподівані результати та їх наслідки
Загалом, ризик галюцинацій зазвичай поступово зменшується з кожним новим випуском моделі, що робить показники o3 та o4-mini дещо неочікуваними. Хоча o3 отримала на 12 відсоткових пунктів вищу точність порівняно з o1, факт, що модель галюцинує вдвічі частіше, свідчить про те, що її точність не зросла пропорційно до її можливостей.
Подібно до інших недавніх випусків, o3 та o4-mini є моделями міркування, що означає, що вони зовнішньо демонструють кроки, які вони роблять для інтерпретації запиту, щоб користувач міг їх бачити. Минулого тижня незалежна дослідницька лабораторія Transluce опублікувала свою оцінку, яка виявила, що o3 часто фальсифікує дії, які вона не може виконати у відповідь на запит, включаючи твердження про запуск Python у середовищі кодування, незважаючи на те, що чатбот не має такої можливості.
Більше того, модель наполягає на своєму, коли її викривають. “[o3] продовжує виправдовувати галюциновані результати, коли користувач ставить під сумнів їх достовірність, навіть стверджуючи, що вона використовує зовнішній MacBook Pro для виконання обчислень і копіює результати в ChatGPT”, — пояснюється у звіті. Transluce виявила, що ці неправдиві твердження про запуск коду були частішими в моделях серії o (o1, o3-mini та o3), ніж у моделях серії GPT (4.1 та 4o).
Вплив на корисність моделей
Цей результат є особливо заплутаним, оскільки моделі міркування витрачають більше часу на надання більш ґрунтовних, якісніших відповідей. Співзасновниця Transluce Сара Шветтман навіть заявила TechCrunch, що “рівень галюцинацій o3 може зробити її менш корисною, ніж вона могла б бути”.
У звіті Transluce зазначено: “Хоча проблеми з правдивістю після навчання відомі, вони повністю не пояснюють підвищену серйозність галюцинацій у моделях міркування. Ми припускаємо, що ці проблеми можуть бути посилені конкретними проектними рішеннями в моделях міркування серії o, такими як навчання з підкріпленням на основі результатів та відсутність ланцюжків міркувань з попередніх ітерацій”.
Минулого тижня джерела всередині OpenAI та сторонні тестувальники підтвердили, що компанія суттєво скоротила тестування безпеки для нових моделей, включаючи o3. Хоча системна картка показує, що o3 та o4-mini “приблизно на одному рівні” з o1 щодо стійкості до спроб обходу захисту (усі три моделі мають показники між 96% і 100%), ці показники галюцинацій викликають питання щодо впливу зміни термінів тестування на аспекти, не пов’язані з безпекою.
Джерело:
А ви як вважаєте: чи варто впроваджувати моделі з вищою потужністю, якщо вони частіше генерують недостовірну інформацію? Поділіться своєю думкою в коментарях!