← Назад

Используется ли ваша статья для обучения модели ИИ? Ученые знают точный ответ

16/08/2024| views520
facebooktelegramviberX
Используется ли ваша статья для обучения модели ИИ? Ученые знают точный ответ

Опубликованные и защищенные авторским правом работы часто используются для обучения большой языковой модели (LLM). Эксперты утверждают, что если ваша работа еще не использовалась для обучения LLM, то это лишь вопрос времени. Исследователи рассматривают технические методы для определения того, используется ли их контент в обучении ИИ.

В июне стало известно, что издатель Taylor & Francis заключил сделку с Microsoft на 10 миллионов долларов США, что позволило компании получить доступ к их данным для улучшения систем ИИ. Издательство Wiley заработало 23 миллиона долларов, предоставив неназванной компании возможность обучать свои модели на своем контенте.

MOZHNA. Допоможемо знайти свого психотерапевта

Обучающие данные и их использование

Большая часть онлайн-контента, даже платного, вероятно, уже введена в LLM, утверждает Люси Лу Ван из Университета Вашингтона в Сиэтле. После того как статья используется для обучения, удалить ее из модели становится невозможно.

Научные статьи ценны для LLM благодаря своей длине и высокой плотности информации, отмечает Стефан Баак из Mozilla Foundation. Обучение моделей на большом объеме научной информации значительно улучшает их способность к анализу научных тем.

Многие разработчики держат свои наборы данных в секрете. Открытые репозитории, такие как arXiv и PubMed, являются популярными источниками для обучения моделей ИИ. Доказать, что конкретная статья использовалась для обучения, сложно. Один из способов — предложить модели необычное предложение из текста и посмотреть на совпадение, объясняет Ив-Александр де Монжуа из Имперского колледжа Лондона.

Методы проверки использования данных

Еще один метод проверки наличия данных в обучающем наборе — атака извлечения членства. Де Монжуа и его команда разработали метод, называемый ловушкой авторских прав для LLM. Это включает генерацию предложений, которые выглядят правдоподобно, но являются бессмыслицей, и их сокрытие в тексте работы.

Вопросы авторских прав

Судебный процесс может помочь решить вопросы авторских прав. Например, The New York Times подала иск против Microsoft и OpenAI за использование журналистского контента без разрешения. Многие ученые рады, если их работа помогает улучшать модели, но они признают, что у научных авторов мало власти, если издатели решают продавать доступ к их работам.

Исследователи, включая де Монжуа, разочарованы текущей ситуацией. "Мы хотим LLM, но мы также хотим справедливости", — говорит он. "И пока что мы еще не нашли, как это реализовать."

Subscribe Telegram
Subscribe Email
Читать больше
go up