OpenAI представила новые модели o3 и o4-mini, которые превосходят предыдущие версии в ряде задач (например, в программировании и математике).
Однако они чаще выдают ложную информацию, что странно, так как обычно с каждым новым поколением ИИ число ошибок снижалось.
В техническом отчёте OpenAI признаёт, что не понимает, почему улучшенные логические модели «фантазируют» чаще предшественников. Компания отмечает, что они делают больше утверждений в целом — как верных, так и ошибочных.
Согласно внутренним тестам OpenAI, o3 ошибается в 33% случаев в тесте PersonQA (проверка знаний о людях), что почти вдвое хуже, чем у o1 (16%) и o3-mini (14,8%).
У O4-mini результат и того печальнее — 48% ложных ответов.
Независимая лаборатория Transluce обнаружила, что o3 выдумывает действия, например, утверждает, что запускал код на MacBook Pro, хотя технически это невозможно.
Несмотря на преимущества перед конкурентами в программировании, o3 часто генерирует неработающие ссылки. Для компаний, где важна точность, например в юридической сфере, это недопустимо (достаточно вспомнить случай с адвокатами, которым ChatGPT процитировал несуществующие судебные дела).
«Фантазии» ИИ могут пригодиться для креативных задач, но и то не всегда.
Один из способов снизить ошибки — интегрировать веб-поиск. Например, GPT-4o с поиском достигает 90% точности в тесте SimpleQA. Но это требует передачи запросов третьим сторонам, что не всегда приемлемо.
OpenAI продолжает исследования и ищет решение сложившейся ситуации.
ИИ — полезный инструмент, но слепо доверять ему нельзя. Всегда проверяйте полученные данные.
Источник: techcrunch.com