Внутренние чаты Meta раскрывают споры о законности использования авторского контента для обучения ИИ

Согласно информации из судебных документов, опубликованных в четверг, в течение продолжительного времени работники компании Meta обсуждали внутрикорпоративные вопросы, связанные с использованием авторских произведений, полученных сомнительным образом, для обучения своих моделей искусственного интеллекта.

В рамках искового дела «Кадри против Мета» истцы предоставили материалы, которые являются частью ряда судебных разбирательств по вопросам авторского права в отношении искусственного интеллекта в США. Ответчик, компания Meta, утверждает, что подготовка моделей на основе охраняемых произведений, таких как книги, является примером «добросовестного использования». Однако истцы, среди которых находятся авторы Сара Сильверман и Та-Нехиси Коутс, не согласны с этой позицией.

Ранее в материалах иска утверждалось, что генеральный директор Meta Марк Цукерберг дал разрешение команде по ИИ использовать контент, защищённый авторским правом, для обучения, и что Meta прекратила обсуждения с издателями о лицензировании контента для ИИ. Новые документы, в большинстве своем являющиеся выдержками из внутренних переговоров сотрудников Meta, предоставляют ясное представление о том, как компания могла использовать защищённые авторским правом данные для обучения своих моделей, включая те, что входят в семейство Llama.

В одном из обсуждений сотрудники Meta, включая старшего менеджера исследовательской группы Ламы Мелани Камбадур, затрагивали вопрос обучения моделей на материалах, которые могли иметь сомнительное юридическое основание.

«Я бы считал более уместным сначала действовать и позже извиняться: мы пытаемся заполучить книги и передать их выше, чтобы они приняли решение», — высказал своё мнение Ксавье Мартине, инженер-исследователь Meta, в чате в феврале 2023 года.

Мартине предложил приобретать электронные книги по полной стоимости, чтобы сформировать обучающую базу, минуя лицензионные договора с издателями. После замечания другого сотрудника о потенциальной юридической ответственности использования защищённых материалов, он утверждал, что «миллионы» стартапов, вероятно, уже применяли пиратские книги в своих целях.

«В худшем случае мы бы поняли, что всё в порядке, в то время как миллиарды стартапов просто загружали кучу книг с торрентов», — заметил Мартине.

Также в этом чате Камбадур упоминала, что Meta ведёт переговоры с платформой для хранения данных Scribd и другими о получении лицензий, но отметила, что юристы компании стали более открыты к получению необходимых согласований, чем в прошлом.

В другом разговоре, упомянутом в документах, Камбадур обсуждала вариант использования Libgen, «агрегатора ссылок», который предоставляет доступ к произведениям, защищённым авторским правом, как альтернативу лицензированию данных.

Libgen подвергался многократным судебным разбирательствам и закрытиям, а также был оштрафован на значительные суммы за нарушения авторского права.

Согласно документам, некоторые руководители Meta выражали уверенность, что отказ от использования Libgen может существенно снизить конкурентоспособность компании в сфере искусственного интеллекта.

В переписке с вице-президентом Meta по ИИ Джоэлем Пино директор по продуктам Сони Тиаканат назвала Libgen необходимым для достижения лучших показателей в области современных AI-моделей.

Тиаканат также упомянула некоторые «меры по снижению рисков», которые помогут уменьшить юридическую ответственность Meta, такие как удаление явно пиратских данных из Libgen и отсутствие публичных заявлений о их использовании.

В практическом плане эти меры включали поиск в Libgen контента с метками «украдено» или «пиратство».

В другом рабочем чате Камбадур отметила, что команда ИИ Meta настроила модели так, чтобы они избегали запросов, связанных с авторскими правами, включая отказы отвечать на вопросы о содержании защищённых книг.

Также в документах упоминается, что Meta могла извлекать данные с Reddit для обучения своих моделей, возможно, имитируя поведение стороннего приложения Pushshift. В апреле 2023 года Reddit анонсировал введение платы за доступ к данным для компаний, создающих искусственный интеллект.

В одном из чатов марта 2024 года Чая Наяк, директор по продуктам в области генеративного ИИ, сообщила, что руководство компании рассматривает возможность пересмотра своих предыдущих решений по использованию обучающих наборов данных, включая контент из Quora и лицензированные произведения, чтобы обеспечить моделям необходимый объем информации.

Наяк выразила мнение, что собственных обучающих данных Meta недостаточно, отметив: «Нам необходимо больше данных».

Истцы по делу «Кадри против Meta» несколько раз вносили коррективы в свою жалобу с момента подачи иска в Окружной суд США по Северному округу Калифорнии в 2023 году. В последней версии жалобы утверждается, что Meta сопоставляла некоторые пиратские книги с лицензированными произведениями для оценки целесообразности заключения лицензионного договора с издателем.

В случае, если риск юридических последствий сильно возрастает, Meta усилила свою юридическую команду, добавив двух адвокатов из фирмы Paul Weiss.

Компания Meta не предоставила комментариев по запросу.

*Meta и её продукты (Instagram, Facebook) находятся под запретом на территории Российской Федерации.