записи.

oLLM: LLM-инференс для больших контекстов 3 мая 2026, 23:30

oLLM — легковесная Python-библиотека для инференса больших LLM на потребительских GPU с 8GB VRAM без квантизации, поддерживает 100k контекст и мультимодальные модели.

llm инференс large-context huggingface pytorch +3

источник ↗

#pytorch