oLLM — легковесная Python-библиотека для инференса больших LLM на потребительских GPU с 8GB VRAM без квантизации, поддерживает 100k контекст и мультимодальные модели.
источник ↗oLLM — легковесная Python-библиотека для инференса больших LLM на потребительских GPU с 8GB VRAM без квантизации, поддерживает 100k контекст и мультимодальные модели.
источник ↗