Установка и развертывание

Compressa LLM распространяется в виде Docker-контейнеров, которые доступны в Github package storage и могут быть развернуты одной командой.

Требования

1. Linux-сервер с поддерживаемым Nvidia GPU

Текущая версия протестирована на следующих моделях:

Nvidia H100
Nvidia A100
Nvidia V100
Nvidia T4
Nvidia 4090
Nvidia 4080
Nvidia 4070 / 4070Ti
Nvidia 3080 / 3080Ti

На GPU старше Nvidia A100 не гарантируется работа всех доступных движков инференса и всех моделей.

Сервер должен иметь объем оперативной памяти не менее объема памяти GPU (рекомендуется 1.2 от объема памяти GPU).

2. Установленные драйверы CUDA

Необходимо установить последние совместимые драйвера.

примечание

Версию драйвера CUDA по умолчанию можно установить с помощью следующих команд:

sudo apt update
sudo apt install software-properties-common -y
sudo apt install ubuntu-drivers-common -y
sudo ubuntu-drivers autoinstall
sudo apt install nvidia-cuda-toolkit

3. Docker

Инструкция по установке для Ubuntu:
https://docs.docker.com/engine/install/ubuntu/

Необходимо установить версию, которая поддерживает Docker Compose V2.

4. Nvidia Container Toolkit

Инструкция по установке для Linux:
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

Развертывание

1. Аутентификация в Docker:

export PAT=<TOKEN>
echo $PAT | docker login -u compressa --password-stdin

2. Файлы конфигурации:

Сначала клонируйте репозиторий с конфигурацией:

git clone git@github.com:compressa-ai/compressa-deploy.git
cd pod

3. Скачайте последнюю версию Compressa:

docker compose pull

4. Выберите LLM

Система позволяет выбрать модель, которая будет запущена по умолчанию.
Конфигурационные файлы доступны:

deploy-qwen25-14.json - Compressa-Qwen2.5-14B-Instruct
deploy-qwq.json - QwQ-32B
deploy-qwen3-14.json - Qwen3-14B

Помимо перечисленных выше моделей доступны и другие модели с другими движками на базе того же базового образа Compressa. Примеры конфигурационных файлов доступны в pod/configs/

Для изменения модели по умолчанию, можно поменять следующую строку в docker-compose.yaml:

  ...
      - ./deploy-qwen3-14.json:/configs/deploy.json:ro

5. Установите переменные окружения и запустите сервис:

DOCKER_GPU_IDS - список идентификаторов GPU, которые будут доступны для Compressa
RESOURCES_PATH - путь к директории для хранения моделей, например ./data.
HF_HOME - путь к директории для кеширования файлов ./data/cache.
COMPRESSA_API_KEY - ваш ключ Compressa
Установите права на чтение и запись для этой директории, используя chmod -R 777 ./data

примечание
Если вы развертываете Compressa в частной сети без доступа к интернету, используйте инструкцию для загрузки ресурсов.
```
export DOCKER_GPU_IDS=0
export RESOURCES_PATH=./data/compressa
```

6. Запустите сервис

docker compose up

Готово! Сервис доступен на порту 8501 (UI), API модели доступен на порту 5000.

Установка и развертывание

Требования​

1. Linux-сервер с поддерживаемым Nvidia GPU​

2. Установленные драйверы CUDA​

3. Docker​

4. Nvidia Container Toolkit​

Развертывание​

1. Аутентификация в Docker:​

2. Файлы конфигурации:​

3. Скачайте последнюю версию Compressa:​

4. Выберите LLM​

5. Установите переменные окружения и запустите сервис:​

6. Запустите сервис​