Bluesky запускает революционный стандарт для этичного сбора данных в эпоху ИИ

В начале марта социальная платформа Bluesky выпустила на GitHub предложение, которое предоставило бы пользователям возможность разрешать использование их публикаций и данных для обучения искусственного интеллекта, а также для создания открытых архивов. Генеральный директор компании Джей Грейбер пояснила, что они стремятся установить «новый стандарт» для управления сбором данных, подобно файлу robots.txt, который сайты используют для уведомления веб-сканеров о своих разрешениях.

Ранее информация от Bluesky о планах на использование данных для обучения ИИ вызвала возмущение пользователей. Платформа обещала, что не будет продавать пользовательские данные рекламодателям и не станет обучать свои ИИ-модели на контенте пользователей.

По словам Грейбер, компании, занимающиеся ИИ, «уже собирают общедоступные данные с различных источников в Интернете», включая Bluesky. Поэтому компания решила инициировать создание нового стандарта.

Дискуссии по вопросам обучения ИИ и авторских прав обратили внимание на файл robots.txt, подчеркивая, что он не обладает юридической силой. Bluesky заявляет, что запланированный стандарт будет иметь схожий «механизм и ожидания», предлагая «машиночитаемый формат, которому должны следовать ответственные игроки». Новый стандарт будет «обладать этическим значением, но не будет иметь юридической силы».

Согласно предложению, пользователи Bluesky и других приложений, работающих на основе протокола ATProtocol, смогут в настройках разрешить или запретить использование своих данных. Эти данные будут делиться на четыре категории: генеративный ИИ, объединение протоколов, общие массивы данных и архивирование веб-контента.

Компании и исследовательские группы, создающие наборы данных для ИИ, обязаны уважать решение пользователей, если они увидят отказ при веб-скрейпинге или массовых загрузках, используя данный протокол.