#qwen3

2 записей

Atlas: Чистый Rust+CUDA для сверхбыстрого LLM 7 мая 2026, 21:48

Atlas — LLM-движок на чистом Rust и CUDA без Python, с Docker-образом 2.5 ГБ, дающим до 3x ускорение инференса на DGX Spark.

rust-cuda llm-inference docker-image mtp-decoding qwen3 +3

источник ↗

oLLM: LLM-инференс для больших контекстов 3 мая 2026, 23:30

oLLM — легковесная Python-библиотека для инференса больших LLM на потребительских GPU с 8GB VRAM без квантизации, поддерживает 100k контекст и мультимодальные модели.

llm инференс large-context huggingface pytorch +3

источник ↗