Перейти к основному содержимому

Список доступных моделей и движков

ДвижокLLMEmbeddingsRerank
vLLM
- Qwen2.5-14B-Instruct
- Qwen3-14B
- Qwen3-32B-AWQ
- QwQ-32B-AWQ

- SFR-Embedding-Mistral
- gte-Qwen2-1.5B-instruct
- mxbai-embed-large-v1

- bge-reranker-base
LMDeploy
- Qwen2.5-14B-Instruct
- Qwen3-14B
- Qwen3-32B-AWQ
- QwQ-32B-AWQ
SGLang
- Qwen2.5-14B-Instruct
- Qwen3-14B
- Qwen3-32B-AWQ
- QwQ-32B-AWQ

- SFR-Embedding-Mistral
- gte-Qwen2-1.5B-instruct
- mxbai-embed-large-v1
Llamacpp
CPU-only mode

- Mistral-7B-Instruct-v0.1-GGUF
- TinyLLaMA-1.1B-Chat-v1.0-GGUF

- mxbai-embed-large-v1
Infinity
- SFR-Embedding-Mistral
- gte-Qwen2-1.5B-instruct
- mxbai-embed-large-v1

- mxbai-rerank-large-v1
- bge-reranker-base

Список моделей в таблице - это те модели, которые протестированы командой Compressa. Другие модели, совместимые с перечисленными движками, так же могут быть развернуты.

Прочие модели

  • TTS (Text-To-Speech) - XTTS-v2 модель, на основе Coqui
  • ASR (Authomatic Speech Recognition) - модель T-One

Для ASR модели доступны 3 режима:

  • оффлайн - загрузка файла -> получение ответа Open-AI transcription
  • стриминг - загрузка файла -> стриминг ответа Open-AI voice stream
  • стриминг аудио входа и стриминг ответа (Web Socket) Open-AI Realtime