Список доступных моделей и движков
| Движок | LLM | Embeddings | Rerank |
|---|---|---|---|
| vLLM | ✅ - Qwen2.5-14B-Instruct - Qwen3-14B - Qwen3-32B-AWQ - QwQ-32B-AWQ | ✅ - SFR-Embedding-Mistral - gte-Qwen2-1.5B-instruct - mxbai-embed-large-v1 | ✅ - bge-reranker-base |
| LMDeploy | ✅ - Qwen2.5-14B-Instruct - Qwen3-14B - Qwen3-32B-AWQ - QwQ-32B-AWQ | ❌ | ❌ |
| SGLang | ✅ - Qwen2.5-14B-Instruct - Qwen3-14B - Qwen3-32B-AWQ - QwQ-32B-AWQ | ✅ - SFR-Embedding-Mistral - gte-Qwen2-1.5B-instruct - mxbai-embed-large-v1 | ❌ |
| Llamacpp CPU-only mode | ✅ - Mistral-7B-Instruct-v0.1-GGUF - TinyLLaMA-1.1B-Chat-v1.0-GGUF | ✅ - mxbai-embed-large-v1 | ❌ |
| Infinity | ❌ | ✅ - SFR-Embedding-Mistral - gte-Qwen2-1.5B-instruct - mxbai-embed-large-v1 | ✅ - mxbai-rerank-large-v1 - bge-reranker-base |
Список моделей в таблице - это те модели, которые протестированы командой Compressa. Другие модели, совместимые с перечисленными движками, так же могут быть развернуты.
Прочие модели
- TTS (Text-To-Speech) - XTTS-v2 модель, на основе Coqui
- ASR (Authomatic Speech Recognition) - модель T-One
Для ASR модели доступны 3 режима:
- оффлайн - загрузка файла -> получение ответа Open-AI transcription
- стриминг - загрузка файла -> стриминг ответа Open-AI voice stream
- стриминг аудио входа и стриминг ответа (Web Socket) Open-AI Realtime