oLLM: LLM-инференс для больших контекстов

источник ↗ ·

oLLM — легковесная Python-библиотека для инференса больших LLM на потребительских GPU с 8GB VRAM без квантизации, поддерживает 100k контекст и мультимодальные модели.

AI Summary

📋 Обзор: oLLM — это лёгкая Python-библиотека от Mega4alik для инференса LLM с большим контекстом (до 100k токенов) на доступных GPU (~$200, 8GB VRAM, Nvidia). Построена на Huggingface Transformers + PyTorch, использует fp16/bf16 без квантизации. Поддерживает топ-модели вроде gpt-oss-20B, qwen3-next-80B, Llama-3.1-8B-Instruct, плюс новые мультимодальные (Voxtral 24B аудио+текст, Gemma3-12B изображение+текст). Оптимизации: AutoInference с Llama3/Gemma3 + PEFT, опциональные kvikio/flash-attn, chunked MLP и flash-attention-подобная реализация для снижения VRAM.

🔥 Ключевые фичи/новинки: • 🚀 qwen3-next-80B (160GB) — 1 токен/2с (самая быстрая модель) • 💾 gpt-oss-20B: flash-attn и chunked MLP для 8GB VRAM • 🎤 Мультимодал: Voxtral-small-24B (audio+text), Gemma3-12B (image+text) • ⚙️ AutoInference для Llama3/Gemma3 + PEFT-адаптеры • 🔓 Нет жёстких HW-ограничений (опционально kvikio/flash-attn) • 📱 Offline workloads для больших контекстов без облака

Мои мысли