Искусственный интеллект и физика: как V-JEPA раскрывает тайны мира через видеообучение

Недавнее исследование, возглавляемое Яном Лекуном, главой Meta* в сфере искусственного интеллекта, показывает, как AI может сформировать базовые представления о физике, просто анализируя видеоматериалы. Результаты работы подтверждают уникальную точку зрения Лекуна относительно генеративного искусственного интеллекта.

Команда исследователей, состоящая из специалистов Meta FAIR, Университета Гюстава Эйфеля и EHESS, продемонстрировала, что AI способен развивать интуитивные знания в области физики через самообучение на видео. Их наблюдения указывают на то, что AI может понимать основные физические принципы без предварительно заданных благонамеренных инструкций.

В отличие от генеративных моделей AI, таких как Sora от OpenAI, команда применила архитектуру прогноза видео (V-JEPA). Вместо того чтобы создавать идеальные по пикселям предсказания, V-JEPA делает прогнозы в абстрактном представлении, что, по мнению Лекуна, ближе к тому, как функционирует человеческий мозг.

В исследовании использовался метод оценки, заимствованный из психологии развития, известный как «нарушение ожиданий», который изначально применялся для проверки понимания детьми физических законов. Участникам демонстрировались две схожие сцены — одна физически возможная, другая — невозможная, например, катящийся сквозь стену мяч. Изучая удивление участников по поводу этих нарушений, специалисты могут судить о их понимании физики.

Система была оценена на трёх различных наборах данных: IntPhys для основных физиковых концепций, GRASP для сложных взаимодействий и InfLevel для реалистичных сценариев. V-JEPA проявила выдающиеся способности в осознании постоянства объектов, непрерывности и согласованности форм. При этом крупные мультимодальные языковые модели, такие как Gemini 1.5 Pro и Qwen2-VL-72B, показали лишь незначительное преимущество перед случайными предсказаниями.

Особенно выделяется эффективность обучения V-JEPA. Системе понадобилось всего 128 часов видеоконтента для освоения основных физических концепций, а даже простые модели с 115 миллионами параметров показали обнадеживающие результаты.

Эти находки ставят под вопрос общее предположение, которое поддерживают некоторые исследователи в сфере AI, о том, что системам нужно изначально заданное “базовое знание” о законах физики. V-JEPA продемонстрировала, что подобные знания могут формироваться лишь через наблюдения, аналогично тому, как младенцы, приматы и молодые птицы развивают понимание физики.

Данное исследование является частью более широкой инициативы Meta, связанной с архитектурой JEPA, представляющей собой альтернативу генеративным моделям AI типа GPT-4 и Sora для создания модельных представлений о мире. Лекун считает, что точные пиксельные генерации, как это делает Sora, являются «тупиковым путем» в разработке миро-ориентированных моделей.

Лекун предлагает использовать иерархически структурированные модули JEPA, которые создают предсказания на разных уровнях абстракции. Главной целью является создание полноценной модели мира, которая позволит автономным системам AI лучше осознавать своё окружение. Команда уже применяла этот подход к I-JEPA, версии для работы с изображениями, прежде чем переключиться на анализ видео.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации.

Источник: [The Decoder](https://the-decoder.com/well-it-looks-like-metas-yann-lecun-may-have-been-right-about-ai-again/)