Чи використовується ваша стаття для навчання моделі ШІ? Вчені знають точну відповідь

16/08/2024| views

512

Чи використовується ваша стаття для навчання моделі ШІ? Вчені знають точну відповідь

Розробники штучного інтелекту активно купують доступ до цінних наборів даних, які містять дослідницькі роботи, що викликає питання щодо авторських прав. Академічні видавництва продають ці дані технологічним компаніям для навчання моделей штучного інтелекту. Це викликає занепокоєння у багатьох дослідників, які не були попередньо повідомлені про такі угоди.

Опубліковані та захищені авторським правом роботи часто використовуються для навчання великої мовної моделі (LLM). Експерти стверджують, що якщо ваша робота ще не використовувалася для навчання LLM, то це лише питання часу. Дослідники розглядають технічні методи для визначення, чи їхній контент використовується в навчанні ІІ.

У червні стало відомо, що видавець Taylor & Francis підписав угоду з Microsoft на 10 мільйонів доларів США, що дозволило компанії доступ до їхніх даних для покращення систем ІІ. Видавець Wiley заробив 23 мільйони доларів, надавши неназваній компанії можливість навчати свої моделі на своєму контенті.

MOZHNA. Допоможемо знайти свого психотерапевта

Навчальні дані та їх використання

Більшість онлайн-контенту, навіть платного, ймовірно, вже введене в LLM, стверджує Люсі Лу Ванг з Університету Вашингтона в Сіетлі. Після того, як стаття використовується для навчання, її видалення з моделі стає неможливим.

Наукові статті цінні для LLM через свою довжину і високу щільність інформації, зазначає Стефан Баак з Mozilla Foundation. Навчання моделей на великому обсязі наукової інформації значно покращує їх здатність до аналізу наукових тем.

Багато розробників тримають свої набори даних у секреті. Відкриті репозиторії, такі як arXiv та PubMed, є популярними джерелами для навчання моделей ІІ. Довести, що певна стаття використовувалася для навчання, складно. Один зі способів — підказати моделі незвичайну пропозицію з тексту і подивитися на збіг, пояснює Ів-Александр де Монжуа з Імперського коледжу Лондона.

Методи перевірки використання даних

Ще один метод перевірки наявності даних у навчальному наборі — атака виведення членства. Де Монжуа і його команда розробили метод, званий пасткою авторських прав, для LLM. Це включає генерацію пропозицій, які виглядають правдоподібно, але є нісенітницею, і приховання їх у тексті роботи.

Питання авторських прав

Судовий процес може допомогти вирішити питання авторських прав. Наприклад, The New York Times подала позов проти Microsoft і OpenAI за використання журналістського контенту без дозволу. Багато вчених раді, якщо їхня робота допомагає покращити моделі, але вони визнають, що наукові автори мають мало влади, якщо видавці вирішують продавати доступ до їхніх робіт.

Дослідники, включаючи де Монжуа, розчаровані поточною ситуацією. "Ми хочемо LLM, але ми також хочемо справедливості", — каже він. "І поки що ми ще не знайшли, як це реалізувати."

Якщо вам цікаво, також можна почитати:

⇢ Роберт Чалдіні. Психологія впливу

⇢ Ерік Берн. Ігри, у які грають люди

⇢ ЯК ПІТИ ВІД ЧОЛОВІКА

#ШІ

Читати більше