Новые модели OpenAI выдают больше ошибокOpenAI представила новые модели o3 и o4-…

Новые модели OpenAI выдают больше ошибок

OpenAI представила новые модели o3 и o4-mini, которые превосходят предыдущие версии в ряде задач (например, в программировании и математике).

Однако они чаще выдают ложную информацию, что странно, так как обычно с каждым новым поколением ИИ число ошибок снижалось.

В техническом отчёте OpenAI признаёт, что не понимает, почему улучшенные логические модели «фантазируют» чаще предшественников. Компания отмечает, что они делают больше утверждений в целом — как верных, так и ошибочных.

Согласно внутренним тестам OpenAI, o3 ошибается в 33% случаев в тесте PersonQA (проверка знаний о людях), что почти вдвое хуже, чем у o1 (16%) и o3-mini (14,8%).
У O4-mini результат и того печальнее — 48% ложных ответов.

Независимая лаборатория Transluce обнаружила, что o3 выдумывает действия, например, утверждает, что запускал код на MacBook Pro, хотя технически это невозможно.

Несмотря на преимущества перед конкурентами в программировании, o3 часто генерирует неработающие ссылки. Для компаний, где важна точность, например в юридической сфере, это недопустимо (достаточно вспомнить случай с адвокатами, которым ChatGPT процитировал несуществующие судебные дела).

«Фантазии» ИИ могут пригодиться для креативных задач, но и то не всегда.

Один из способов снизить ошибки — интегрировать веб-поиск. Например, GPT-4o с поиском достигает 90% точности в тесте SimpleQA. Но это требует передачи запросов третьим сторонам, что не всегда приемлемо.

OpenAI продолжает исследования и ищет решение сложившейся ситуации.

ИИ — полезный инструмент, но слепо доверять ему нельзя. Всегда проверяйте полученные данные.

Источник: techcrunch.com

👍 Капиталистический Ватник. Подписаться

View Source

Пн	Вт	Ср	Чт	Пт	Сб	Вс
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30