Jina Embeddings v5 Omni

источник ↗ · 18 мая 2026, 16:14

Мультимодальные эмбеддинги Jina v5, поддерживающие текст, изображения, видео и аудио с сохранением геометрии.

multimodal-embeddings jina-embeddings text-geometry feature-extraction frozen-tower retrieval classification clustering

AI Summary

Jina выпустила серию мультимодальных моделей эмбеддингов v5-omni, которые объединяют текст с изображениями, видео и аудио через подход frozen-tower composition, сохраняя геометрию текста. Доступны две основные версии — small (2B) и nano (1B) — и четыре специализированных варианта для задач retrieval, classification, clustering и text-matching, включая GGUF и MLX квантизации.

• Модель основана на подходе Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition (arXiv:2605.08384) • Поддерживает четыре модальности: текст + изображение + видео + аудио • Две основные версии: small (2B параметров) и nano (1B параметров) • Четыре task-specific варианта: retrieval, classification, clustering, text-matching • Доступны квантизированные версии GGUF и MLX для локального запуска • Модели оптимизированы для feature extraction и downstream задач

AI Summary

Мои мысли