Jina Embeddings v5 Omni
Мультимодальные эмбеддинги Jina v5, поддерживающие текст, изображения, видео и аудио с сохранением геометрии.
AI Summary
Jina выпустила серию мультимодальных моделей эмбеддингов v5-omni, которые объединяют текст с изображениями, видео и аудио через подход frozen-tower composition, сохраняя геометрию текста. Доступны две основные версии — small (2B) и nano (1B) — и четыре специализированных варианта для задач retrieval, classification, clustering и text-matching, включая GGUF и MLX квантизации.
• Модель основана на подходе Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition (arXiv:2605.08384) • Поддерживает четыре модальности: текст + изображение + видео + аудио • Две основные версии: small (2B параметров) и nano (1B параметров) • Четыре task-specific варианта: retrieval, classification, clustering, text-matching • Доступны квантизированные версии GGUF и MLX для локального запуска • Модели оптимизированы для feature extraction и downstream задач