В новом исследовании, опубликованном в журнале Nature, ученые говорят о потенциальных опасностях использования синтезированных данных для обучения искусственного интеллекта. Информация, созданная предыдущими поколениями больших языковых моделей (LLM), может привести к быстрому коллапсу новых моделей, когда они начинают выдавать откровенную чушь. Захар Шумайлов, исследователь из Кембриджского университета, подчеркнул необходимость осторожности при включении таких данных в обучающие пакеты.
Исследовательская группа использовала математический анализ, чтобы продемонстрировать, что проблема коллапса является универсальной. Она касается всех размеров языковых моделей, которые используют непроверенные данные, а также генераторов изображений и других типов ИИ. Они начинали с создания записей в стиле Википедии с помощью LLM и далее обучали следующие итерации на текстах, созданных предшественниками. Результаты показали, что синтетические данные быстро загрязняли обучающие наборы, приводя к потере качества моделей.
Исследование также продемонстрировало, что даже до полного коллапса обучение на основе текстов, созданных ИИ, приводило к тому, что модели забывали редкую информацию из своих наборов данных. Это вызывает беспокойство, когда речь идет о справедливом представлении всех групп в моделях ИИ, так как маловероятные события часто связаны с маргинализированными группами.
Также исследование показало, что коллапс происходит из-за инбридинга данных. Модели делают выборку только из того, на чем они обучались, поэтому редкие слова становятся еще реже, а ошибки накапливаются с каждой новой итерацией. Это похоже на инбридинг в биологических видах, который снижает генетическое разнообразие и может привести к краху вида.
Хотя крах модели не означает полную остановку работы LLM, стоимость их изготовления растет. Законы масштабирования, которые указывают на улучшение моделей с накоплением данных, перестают работать из-за потери разнообразия данных. Шумайлов и его команда обнаружили, что настройка моделей на 10% реальных данных замедляет коллапс. Но, по словам Маттиаса Герстграссера из Стэнфордского университета, коллапс еще не наблюдался в реальной жизни.
Неясно, что происходит, когда модель обучается на данных, полученных другим ИИ, а не на собственных. Разработчикам, возможно, придется искать способы, как отделять данные, сгенерированные ИИ, от реальных данных, например, с помощью водяных знаков. Общество должно найти стимулы для создателей-людей продолжать производить контент. Фильтрация и курирование текстов с ИИ могут также помочь избежать коллапса моделей.
Таким образом, изучение проблемы коллапса моделей ИИ призывает к внимательному и осторожному подходу к использованию синтетических данных. Ученые подчеркивают важность поддержания разнообразия и аутентичности данных для дальнейшего развития искусственного интеллекта.
Если вам интересно, можно почитать: