← Назад

Искусственный интеллект обучают на “семейных” роликах YouTube: исследование ученых Массачусетского университета

27/06/2024| views470
facebooktelegramviberX
Искусственный интеллект обучают на “семейных” роликах YouTube: исследование ученых Массачусетского университета

Использование архива YouTube для обучения языковых моделей искусственного интеллекта представляет собой потенциальную угрозу конфиденциальности персональных видеозаписей, об этом пишет Старший научный сотрудник Инициативы по цифровой общественной инфраструктуре Массачусетского университета в Амхерсте Райан МакГрэйди.

Революция искусственного интеллекта требует данных. OpenAI и Google начали использовать видеоролики с YouTube для обучения своих текстовых моделей ИИ. Но что на самом деле включает в себя архив YouTube?

Команда исследователей цифровых медиа из Массачусетского университета в Амхерсте собрала и проанализировала случайные образцы видеороликов YouTube, чтобы лучше понять этот архив. Ученые опубликовали 85-страничный документ об этом исследовании и создали веб-сайт TubeStats для специалистов и журналистов, нуждающихся в базовой информации о YouTube.

MOZHNA. Допоможемо знайти свого психотерапевта

Верхушка айсберга YouTube

Опыт большинства пользователей на YouTube контролируется алгоритмами: до 70% видео, которые пользователи смотрят, рекомендуются алгоритмами сайта. Рекомендации обычно касаются популярного контента, такого как трюки известных личностей, новостные обзоры, объяснительные видео, видеоблоги о путешествиях и обзоры игр. В то же время контент, который не попадает в рекомендации, остается малоизвестным.

Некоторый контент на YouTube имитирует популярных авторов или вписывается в стандартные жанры, но большинство видео носят личный характер: семейные праздники, видео под музыку, домашние задания, фрагменты игр без контекста и детские танцы. Неизвестная сторона YouTube – в большинстве своем 14,8 миллиардов видеороликов, загруженных на платформу, плохо изучена.

Исследователи обнаружили, что многие видео на YouTube никогда не были предназначены для широкого распространения. Они задокументировали тысячи коротких личных видеороликов с низким числом просмотров, но высокой активностью (лайки и комментарии), что указывает на небольшую, но очень заинтересованную аудиторию. Очевидно, что такие видео были созданы для ограниченного круга друзей и семьи. Это социальное использование YouTube контрастирует с видео, которые стремятся максимизировать свою аудиторию, предлагая альтернативный взгляд на использование платформы как видео-центричной социальной сети для небольших групп.

Другие видео были предназначены для другой ограниченной, фиксированной аудитории: записи виртуальных уроков в период пандемии, заседания школьных советов и рабочие встречи. Хотя это не то, что обычно считается социальным использованием, они также показывают, что их создатели имеют другие ожидания относительно аудитории, чем создатели контента, который попадает в рекомендации пользователей.

Топливо для машины ИИ

Имея более глубокое понимание, ученые внимательно изучили разоблачение The New York Times о том, как OpenAI и Google обратились к YouTube в поисках новых источников данных для обучения своих больших языковых моделей. Архив стенограмм YouTube является уникальным набором данных для текстовых моделей.

Также существуют предположения, частично вызванные уклончивыми ответами технического директора OpenAI Миры Мурати, что сами видеоролики могут быть использованы для обучения моделей искусственного преобразования текста в видео, таких как Sora от OpenAI.

Статья в New York Times вызвала обеспокоенность относительно условий использования YouTube и вопросов авторских прав, которые становятся центральными в дебатах о ИИ. Но также есть и другие проблемы: откуда можно знать, что на самом деле содержится в архиве из более чем 14 миллиардов загруженных видеороликов? Это не совсем ясно, и Google, возможно, даже не имеет полного представления об этом.

Дети, как создатели контента

Ученые были удивлены обнаружив значительное количество видеороликов, на которых присутствуют дети или которые были созданы ими.  

Можно предположить, что OpenAI использует популярные видеоролики или телевизионные программы, загруженные на платформу, для обучения своих моделей. Однако предыдущие исследования показывают, что самый популярный контент не всегда оказывает наибольшее влияние на обучение искусственных интеллектуальных моделей. Простой разговор между тремя друзьями может иметь гораздо большую лингвистическую ценность для обучения языковой модели чат-бота, чем музыкальное видео с миллионами просмотров.

К сожалению, компании, занимающиеся искусственным интеллектом, не делают прозрачными свои обучающие данные. Они не указывают, какие данные включены в обучение искусственных интеллектуальных систем. Исследователи часто могут выявить проблемы с данными на основе систематических ошибок в результатах этих систем. Однако когда мы недостаточно информированы о данных обучения, это может вызывать беспокойство. Например, в отчете Human Rights Watch от 10 июня 2024 года показано, что популярный набор данных для обучения содержит множество фотографий узнаваемых детей.

Вопросы о правах и конфиденциальности

Обеспокоенность использованием пользовательского контента для обучения искусственных интеллектуальных моделей часто связана с вопросами интеллектуальной собственности. Однако также существуют проблемы с конфиденциальностью. YouTube представляет собой огромный архив, который невозможно полностью просмотреть.

Учитывая последние инициативы по регулированию искусственного интеллекта и предложения по всеобъемлющему законодательству о конфиденциальности, существует надежда на усиление защиты данных пользователей.

Subscribe Telegram
Subscribe Email
Читать больше
go up