
Учёные из трёх университетов США провели исследование о влиянии соцсетей на большие языковые модели (LLM) ИИ.
По аналогии с ухудшением когнитивных функций у людей при перепотреблении «мусорного» контента они предположили, что постоянное «питание» ИИ подобными данными вызовет схожие последствия.
Взяли 2 группы LLM: первую дообучили на самых популярных, но низкокачественных постах из соцсетей, вторую — на длинных, осмысленных и непопулярных текстах из тех же источников.
У LLM, потреблявших популярный контент, заметно снизились показатели:
• качество рассуждений с 74,9% до 57,2%;
• способность находить информацию в длинных текстах (на отдельных задачах с 91% до 22%);
• риск нарушения запретов и выдача вредных ответов вырос с 61% до 89%;
• усилились психопатия (с 2,2% до 75,7%) и нарциссизм (с 33,5% до 47%), снизилась доброжелательность.
LLM перестают «думать». В 84% случаев ошибок они просто пропускают анализ и сразу выдают ответ, часто неверный. Причём, чем больше «мусорного» контента, тем сильнее эффект.
Попытки «вылечить» модели с помощью дополнительного обучения на «чистых» данных не вернули их к исходному уровню — разрыв в точности достигал 17,3 пунктов.
Полученные результаты коррелируют с исследованиями интернет-зависимости у людей: соцсети создают искажённое представление о мнении большинства и приучают к поверхностному восприятию.
Главный вывод: чтобы модели не деградировали, нужно тщательно отбирать данные для их обучения, избегая «мусорного» контента.
П.С. Вы знаете, где найти проверенный, качественный и вдумчивый контент, без чернухи и излишнего нагнетания обстановки😉
Источник: arxiv.org