Atlas — LLM-движок на чистом Rust и CUDA без Python, с Docker-образом 2.5 ГБ, дающим до 3x ускорение инференса на DGX Spark.
источник ↗#qwen3
2 записейoLLM — легковесная Python-библиотека для инференса больших LLM на потребительских GPU с 8GB VRAM без квантизации, поддерживает 100k контекст и мультимодальные модели.
источник ↗