Новый научный труд от OpenAI поднимает вопрос, почему крупные языковые модели, такие как GPT-5, и чат-боты, подобные ChatGPT, продолжают «галлюцинировать», и возможно ли уменьшить эти галлюцинации.
В блоге, суммирующем статью, OpenAI определяет галлюцинации как «правдоподобные, но ложные утверждения, генерируемые языковыми моделями», признавая, что, несмотря на прогресс, галлюцинации остаются «фундаментальной проблемой всех крупных языковых моделей» — проблемой, которую, вероятно, никогда не удастся полностью устранить.
Для иллюстрации исследователи отмечают, что при запросе к «широко используемому чат-боту» о названии диссертации Адама Таумана Калаи (одного из авторов статьи) они получили три разных ответа, и все они были неверными. Запрос о дне рождения Калаи также дал три разных даты — и снова все ошибочные.
Как чат-бот может быть настолько неправ и при этом звучать так уверенно? Исследователи предполагают, что галлюцинации частично возникают из-за процесса предобучения, который фокусируется на предсказании следующего слова без меток «правда» или «ложь» для обучающих утверждений: «Модель видит только позитивные примеры беглого языка и должна аппроксимировать общую распределенность».
«Орфография и скобки следуют четким шаблонам, поэтому ошибки в них исчезают с увеличением масштаба, — пишут они. — Но произвольные низкочастотные факты, такие как день рождения питомца, невозможно предсказать только по шаблонам, что и приводит к галлюцинациям».
Однако предложенное решение в статье акцентирует не начальный процесс предобучения, а методы оценки крупных языковых моделей. Утверждается, что текущие модели оценки сами по себе не вызывают галлюцинации, но «задают неверные стимулы». Исследователи сравнивают эти оценки с тестами с множественным выбором, где случайное угадывание имеет смысл, поскольку «можно случайно угадать правильно», тогда как пропуск ответа «гарантирует ноль».
«Точно так же, когда модели оцениваются только по точности, то есть по проценту абсолютно правильных ответов, они поощряются к угадыванию вместо того, чтобы сказать ‘я не знаю’», — поясняют авторы.
Предложенное решение напоминает тесты (например, SAT), где за неправильные ответы начисляются отрицательные баллы, а за пропуск вопроса дается частичный кредит, чтобы отвадить от слепого угадывания. OpenAI утверждает, что оценки моделей должны «сильнее наказывать за уверенные ошибки, чем за неуверенность, и давать частичный кредит за корректное выражение неуверенности».
Исследователи подчеркивают, что недостаточно просто добавить «несколько новых тестов, учитывающих неуверенность». Вместо этого «широко используемые оценки, основанные на точности, должны быть обновлены, чтобы их система отучала от угадывания».
«Если основные рейтинги продолжат вознаграждать удачные догадки, модели будут продолжать учиться угадывать», — заключают исследователи.
Оригинал
Уникальность