DeepSeek революционизирует работу с текстами: новая технология сжатия для ИИ на основе визуального восприятия

Китайский стартап в области искусственного интеллекта DeepSeek анонсировал новый мультимодальный ИИ, который способен обрабатывать обширные и сложные документы, используя значительно меньше токенов.

DeepSeek-OCR использует визуальное восприятие для эффективного сжатия информации.

Этот проект стал итогом исследования «значения визуальных энкодеров» для оптимизации текста в крупных языковых моделях (LLM). Благодаря такому подходу нейросети могут обрабатывать огромные массы данных без пропорционального увеличения вычислительных затрат.

«С помощью DeepSeek-OCR мы доказали, что визуальное представление текста позволяет уменьшить количество токенов в 7–20 раз на разных уровнях контекста. Это открывает новые горизонты для решения проблемы длинных последовательностей в LLM», — прокомментировали в компании.

DeepSeek-OCR включает в себя два основных элемента:

Первый элемент представляет собой вычислительное ядро модели. Он обеспечивает низкий уровень активности при обработке высококачественных изображений и одновременно достигает значительного уровня сжатия, что позволяет уменьшить количество токенов.

Декодер, реализованный в архитектуре Mixture-of-Experts и имеющий 570 миллионов параметров, отвечает за воссоздание исходного текста. Эта архитектура разделяет нейросеть на несколько независимых подсетей («экспертов»), каждая из которых специализируется на определенной части входных данных. Вместе они работают над общей задачей.

DeepSeek-OCR может эффективно анализировать сложную визуальную информацию, включая таблицы, формулы и геометрические схемы. По утверждению компании, это делает модель особенно актуальной для применения в финансовом секторе и научных изысканиях.

Компания также подчеркнула, что DeepSeek-OCR демонстрировала 97% точности декодирования. При коэффициенте сжатия 20 она сохраняет около 60% информации, что доказывает ее способность сохранять данные даже при высоком уровне сжатия.

На эталонном тесте OmniDocBench, который оценивает способность к пониманию различных документов, DeepSeek-OCR превзошла лидирующие модели оптического распознавания текста, такие как GOT-OCR 2.0 и MinerU 2.0, при этом используя значительно меньше токенов.

Напомним, что в августе стартап обновил свою ключевую ИИ-модель V3.