В новому дослідженні, опублікованому в журналі Nature, науковці говорять про потенційні небезпеки використання синтетичних даних для навчання штучного інтелекту. Інформація, створена попередніми поколіннями великих мовних моделей (LLM), може призвести до швидкого колапсу моделей, коли вони починають видавати нісенітниці. Захар Шумайлов, дослідник з Кембриджського університету, наголосив на обережності при включенні таких даних у навчальні набори.
Дослідницька група використовувала математичний аналіз, щоб продемонструвати, що проблема колапсу є універсальною. Вона торкається всіх розмірів мовних моделей, що використовують неперевірені дані, а також генераторів зображень та інших типів ШІ. Вони починали із створення записів у стилі Вікіпедії за допомогою LLM і далі навчали наступні ітерації на текстах, створених попередниками. Результати показали, що синтетичні дані швидко забруднювали навчальні набори, призводячи до втрати якості моделей.
Дослідження також продемонструвало, що навіть до повного колапсу навчання на основі текстів, створених ШІ, призводило до того, що моделі забували рідкісну інформацію зі своїх наборів даних. Це викликає занепокоєння, коли йдеться про справедливу репрезентацію всіх груп у моделях ІІ, адже малоймовірні події часто пов'язані з маргіналізованими групами.
Також дослідження показало, що колапс відбувається через інбридинг даних. Моделі роблять вибірку тільки з того, на чому вони навчалися, тож рідкісні слова стають ще рідкіснішими, а помилки накопичуються з кожною новою ітерацією. Це подібно до інбридингу у біологічних видах, що зменшує генетичне різноманіття і може призвести до краху виду.
Хоча крах моделі не означає повну зупинку роботи LLM, вартість їх виготовлення зростає. Закони масштабування, які вказують на покращення моделей з накопиченням даних, перестають працювати через втрату різноманіття даних. Шумайлов та його команда виявили, що налаштування моделей на 10% реальних даних уповільнює колапс. Але, за словами Маттіаса Герстграссера зі Стенфордського університету, колапс ще не спостерігався у реальному житті.
Незрозуміло, що відбувається, коли модель навчається на даних, отриманих іншим ІІ, а не на власних. Розробникам, можливо, доведеться знаходити способи, як відокремлювати дані, згенеровані ІІ, від реальних даних, наприклад, за допомогою водяних знаків. Суспільство повинно знайти стимули для творців-людей продовжувати виробляти контент. Фільтрація та кураторство текстів з ІІ можуть також допомогти уникнути колапсу моделей.
Таким чином, вивчення проблеми колапсу моделей ШІ закликає до уважного і обережного підходу до використання синтетичних даних. Науковці підкреслюють важливість підтримання різноманіття та автентичності даних для подальшого розвитку штучного інтелекту.
Якщо вам цікаво, також можна почитати: