Llama 4: Революция в мультимодальном ИИ с рекордным контекстом в 10 миллионов токенов

Meta анонсировала новое поколение моделей искусственного интеллекта с открытым доступом — семейство Llama 4. Эти модели являются первыми нативно мультимодальными и поддерживают открытые веса, что позволяет им обрабатывать изображения, видео и текст в рамках одной архитектуры.

P.S. Я кратко освещал этот вопрос в своем Телеграм-канале, ссылка на пост

1. Llama 4 Scout – модель с 17 миллиардами активных параметров и 16 экспертами (всего 109 миллиардов параметров). Она считается ведущей мультимодальной моделью, превосходящей такие решения, как Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1. Её ключевая особенность — рекордное контекстное окно в 10 миллионов токенов и возможность работы на одной графической плате H100 (с квантизацией Int4).

2. Llama 4 Maverick – мощная модель с 17 миллиардами активных параметров и 128 экспертами (в общей сложности 400 миллиардов параметров). Как утверждает Meta, она превышает по эффективности GPT-4o и Gemini 2.0 Flash на множестве тестов, при этом демонстрируя результаты, сравнимые с DeepSeek v3 в задачах рассуждения и программирования, но с в два раза меньшим числом активных параметров. Экспериментальная версия чата достигла ELO 1417 на LMArena.

3. Llama 4 Behemoth – обучающая модель с 288 миллиардами активных параметров и 16 экспертами, а также почти 2 триллионами общих параметров. Meta утверждает, что она превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro по множеству STEM-тестов. В данный момент модель всё ещё находится в стадии обучения и ещё не была выпущена для широкой публики.

Архитектура Mixture of Experts (MoE)

В новейшей линейке Llama впервые применяется архитектура MoE, которая активирует лишь часть параметров модели для обработки каждого токена. Это значительно улучшает как обучение, так и инференс.

Например, в Llama 4 Maverick каждый токен обрабатывается общим экспертом и одним из 128 маршрутизируемых экспертов, что позволяет снизить вычислительные затраты и задержки, обеспечивая при этом высокий уровень качества.

Модели используют раннее слияние (early fusion) для объединения текстовых и визуальных токенов в единую архитектуру, что позволяет осуществлять предобучение на больших объемах немаркированных текстов, изображений и видео.

Улучшенный визуальный энкодер базируется на MetaCLIP, однако он был отдельно обучен совместно с фиксированной моделью Llama для более точной адаптации к языковым функциям.

Llama 4 Scout имеет беспрецедентно длинный контекст в 10 миллионов токенов благодаря особой архитектуре iRoPE (интерливинг слоев внимания без позиционных эмбеддингов) и адаптивному масштабированию температуры внимания в процессе инференса.

MetaP – метод, который обеспечивает надежную настройку важных гиперпараметров модели, включая скорость обучения для каждого слоя и масштабы инициализации.

FP8-precision – осуществление обучения с 8-битной плавающей точностью без потери качества. При обучении Llama 4 Behemoth была достигнута производительность 390 TFLOPs/GPU с использованием 32K GPU.

Кодистилляция – эта техника использует Llama 4 Behemoth в качестве учителя для обучения более компактных моделей с новой функцией потерь, которая динамически балансирует между мягкими и жесткими целями во время обучения.

Полностью асинхронный онлайн-RL – была разработана новая инфраструктура для масштабного обучения с подкреплением, обеспечивающая десятикратное улучшение эффективности по сравнению с предыдущими версиями.

Стоимость:

$0.19-$0.49 за 1M токенов (в зависимости от конфигурации) по сравнению с $4.38 у GPT-4o, о Sonnet 3.7 даже не упоминается 😂

Обработка изображений:

MMMU: 73.4 (в то время как у Gemini 2.0 Flash — 71.7, а у GPT-4o — 69.1)

MathVista: 73.7 (против 73.1 у Gemini и 63.8 у GPT-4o)

ChartQA: 90.0 (в сравнении с 88.3 у Gemini и 85.7 у GPT-4o)

DocVQA: 94.4 (против 92.8 у GPT-4o)

Кодинг:

LiveCodeBench — 43.4 (DeepSeek v3.1 держит первое место с 45.8/49.2)

Рассуждения и знания:

MMLU Pro: 80.5 (Gemini показывает 77.6, а DeepSeek — 81.2)

GPQA Diamond: 69.8 (против 60.1 у Gemini, 68.4 у DeepSeek и 53.6 у GPT-4o)

Многоязычность:

Multilingual MMLU — 84.6 (в то время как у GPT-4o — 81.5)

Долгий контекст:

MTOB (полная книга) — 50.8/46.7 (в сравнении с 45.5/39.6 у Gemini)

Учительская модель Behemoth демонстрирует выдающиеся результаты:

LiveCodeBench: 49.4 (сныжше 36.0 у Gemini 2.0 Pro)

MATH-500: 95.0 (в то время как Claude Sonnet 3.7 показывает 82.2, а Gemini 2.0 Pro — 91.8)

MMLU Pro: 82.2 (по сравнению с 79.1 у Gemini 2.0 Pro)

GPQA Diamond: 73.7 (в сравнении с 71.4 у GPT-4.5, 68.0 у Claude и 64.7 у Gemini)

Multilingual MMLU: 85.8 (против 85.1 у GPT-4.5 и 83.2 у Claude)

MMMU (понимание изображений): 76.1 (по сравнению с 74.4 у GPT-4.5, 72.7 у Gemini и 71.8 у Claude)

Модели Llama 4 Scout и Llama 4 Maverick уже могут быть загружены на llama.com и Hugging Face. Они также внедрены в Meta AI в WhatsApp, Messenger, Instagram Direct и на сайте Meta.AI.

Для разработчиков, компаний и исследователей эти модели представляют собой оптимальное сочетание высокой производительности и доступности, предлагая самые передовые возможности в области мультимодального понимания, рассуждений и программирования при значительно более низкой стоимости по сравнению с частными решениями.

Meta уделила особое внимание аспектам безопасности и снижению предвзятости в новых моделях (по утверждениям):

Разработаны открытые инструменты безопасности: Llama Guard, Prompt Guard и CyberSecEval.

Введен новый метод тестирования – Generative Offensive Agent Testing (GOAT).

Снижена частота отказов модели предоставлять ответы на вопросы, касающиеся спорных политических и социальных тем (с 7% в Llama 3.3 до менее 2%).

Уровень политической предвзятости модели уменьшен до показателей, сопоставимых с Grok (в два раза ниже, чем в Llama 3.3).