Опубликованные и защищенные авторским правом работы часто используются для обучения большой языковой модели (LLM). Эксперты утверждают, что если ваша работа еще не использовалась для обучения LLM, то это лишь вопрос времени. Исследователи рассматривают технические методы для определения того, используется ли их контент в обучении ИИ.
В июне стало известно, что издатель Taylor & Francis заключил сделку с Microsoft на 10 миллионов долларов США, что позволило компании получить доступ к их данным для улучшения систем ИИ. Издательство Wiley заработало 23 миллиона долларов, предоставив неназванной компании возможность обучать свои модели на своем контенте.
Большая часть онлайн-контента, даже платного, вероятно, уже введена в LLM, утверждает Люси Лу Ван из Университета Вашингтона в Сиэтле. После того как статья используется для обучения, удалить ее из модели становится невозможно.
Научные статьи ценны для LLM благодаря своей длине и высокой плотности информации, отмечает Стефан Баак из Mozilla Foundation. Обучение моделей на большом объеме научной информации значительно улучшает их способность к анализу научных тем.
Многие разработчики держат свои наборы данных в секрете. Открытые репозитории, такие как arXiv и PubMed, являются популярными источниками для обучения моделей ИИ. Доказать, что конкретная статья использовалась для обучения, сложно. Один из способов — предложить модели необычное предложение из текста и посмотреть на совпадение, объясняет Ив-Александр де Монжуа из Имперского колледжа Лондона.
Еще один метод проверки наличия данных в обучающем наборе — атака извлечения членства. Де Монжуа и его команда разработали метод, называемый ловушкой авторских прав для LLM. Это включает генерацию предложений, которые выглядят правдоподобно, но являются бессмыслицей, и их сокрытие в тексте работы.
Судебный процесс может помочь решить вопросы авторских прав. Например, The New York Times подала иск против Microsoft и OpenAI за использование журналистского контента без разрешения. Многие ученые рады, если их работа помогает улучшать модели, но они признают, что у научных авторов мало власти, если издатели решают продавать доступ к их работам.
Исследователи, включая де Монжуа, разочарованы текущей ситуацией. "Мы хотим LLM, но мы также хотим справедливости", — говорит он. "И пока что мы еще не нашли, как это реализовать."
Если вам интересно, можно почитать: