Как международный Managed IT Service провайдер, мы развиваем направление AI as a Service (AIaaS): единый шлюз доступа к языковым моделям (LLM) и сопутствующим AI-инструментам с маршрутизацией запросов, аутентификацией, квотированием, учётом потребления токенов, мониторингом доступности и агрегацией логов. Услуга предоставляет клиентам единую точку входа (OpenAI-совместимый API и веб-интерфейс) ко множеству моделей в рамках одного договора, а инфраструктуру, масштабирование, обновление версий и безопасность данных обеспечиваем мы.
Ищем технического лидера, который возглавит группу AI as a Service: будет развивать услугу на базе AI-инструментов, в том числе собственной разработки (Ainergy), обеспечивать их стабильную работу 24×7 и точечно усиливать смежные услуги (Managed IT, Managed DevOps).
В первую очередь нам важен сильный технический специалист с уверенным знанием Linux, контейнеризации и оркестрации контейнеров, который не боится сам погружаться в код, инфраструктуру и решать инциденты.
Чем предстоит заниматься:
- Развитие и эксплуатация платформы AIaaS и AI-инструментов собственной разработки (Ainergy): API-шлюз, маршрутизация к моделям, аутентификация, квотирование, учёт токенов;
- Развёртывание и сопровождение инференса языковых моделей (как проприетарных, так и open-source) в контейнерах под управлением Docker или Kubernetes на GPU-инфраструктуре;
- Обеспечение высокой доступности, масштабируемости и предсказуемой производительности сервисов в режиме 24×7;
- Контроль автоматизации рутинных задач и процессов для обеспечения стабильности и минимизации человеческого фактора;
- Организация мониторинга, алертинга и реагирования на инциденты с использованием Prometheus/VictoriaMetrics, Grafana, ELK;
- Подключение новых LLM-моделей и поддержание совместимости интеграций для клиентов без изменения их кода;
- Взаимодействие с командами разработки и смежными группами (Managed IT, Managed DevOps ) для быстрой адаптации сервисов под меняющиеся требования бизнеса;
- Участие в согласовании архитектуры, выборе инструментов и стандартов, развитие центра компетенций группы;
- Продвижение культуры применения AI внутри компании: личный пример активного использования AI-инструментов в повседневной работе, помощь командам во внедрении AI в их процессы, обмен практиками и обучение коллег.
Мы ждём, что вы:
- Уверенно владеете Linux: понимаете архитектуру ОС, умеете находить и устранять проблемы в работающем ПО, разворачивать и сопровождать практически любое Open-Source ПО;
- Имеете глубокий практический опыт контейнеризации (Docker) и оркестрации контейнеров (Kubernetes): деплой, сети, хранилища, ресурсные лимиты, отказоустойчивость;
- Свободно владеете bash, пишете автоматизацию на Python (или готовы быстро её освоить);
- Понимаете принципы работы сетей (TCP/IP, Ethernet), балансировки нагрузки (Nginx, HAProxy) и настройки безопасных соединений (SSL/TLS);
- Имеете опыт администрирования СУБД (PostgreSQL и др.) и работы с системами мониторинга и логирования (Prometheus, Grafana, ELK);
- Имеете опыт работы с системами управления конфигурацией (Ansible) и подходом IaC;
- Готовы быть техническим лидером: отвечать на любой технический вопрос подчинённых, развивать сильные стороны команды и выстраивать эффективные процессы работы;
- Умеете координировать задачи между командами, находить баланс между техническими и бизнес-требованиями и обеспечивать выполнение в срок;
- Сами активно используете AI-инструменты в повседневной работе и продвигаете их применение среди коллег, помогая командам работать быстрее и эффективнее;
- Знаете английский язык на уровне, достаточном для работы с ПО, чтения документации и текстовой коммуникации.
Будет здорово, если:
- У вас есть опыт работы с LLM и AI-инструментами: инференс-серверы (vLLM, Ollama, Triton, TGI), OpenAI-совместимые API, токенизация, эмбеддинги и векторные БД, RAG-пайплайны;
- Вы работали с GPU-инфраструктурой (NVIDIA/CUDA) и понимаете специфику планирования и шеринга GPU в Kubernetes;
- У вас есть опыт построения и эксплуатации API-шлюзов: маршрутизация, rate limiting, квоты, мультитенантность;
- Вы понимаете концепции Cloud-native, микросервисной архитектуры и IaC (Terraform, Ansible);
- Вы знакомы с DevOps-практиками и CI/CD (GitLab CI, Jenkins) и понимаете услугу Managed DevOps;
- У вас есть опыт работы по процессам ITIL/ITSM и понимание того, как применять их для улучшения управления IT-услугами;
- Вы знакомы с системами управления идентификацией (FreeIPA, Keycloak);
- Вы стремитесь постоянно улучшать процессы и готовы предлагать новые идеи и решения.
Технологический стек:
- LLM: GPT, Claude, Llama, Mistral, Qwen, Gemini, DeepSeek и др.;
- Инференс и AI-инструменты: vLLM, Ollama, Triton, OpenAI-совместимые API, векторные БД;
- Linux (Oracle Linux, Ubuntu);
- Docker + Kubernetes;
- GitLab + GitLab CI;
- Ansible + Terraform;
- Icinga2 + VictoriaMetrics + Prometheus + Grafana;
- ELK Stack;
- FreeIPA + Keycloak;
- PostgreSQL + MongoDB + Redis;
- Nginx + HAProxy;
- RabbitMQ + Kafka;
- PowerDNS;
- Jira + Confluence.
Работа у нас — это:
- Возможность реализовать свои идеи и строить AI-платформу собственной разработки;
- Талантливая команда, готовая поддержать ваши инициативы;
- Мощное железо и всё для продуктивной работы, включая GPU-ресурсы;
- Прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;
- Обучение за счёт компании: мы оплачиваем профильные курсы, сертификации и участие в конференциях и мастер-классах;
- Красивый и комфортный офис, а также возможность работать удалённо;
- У нас есть IT-аккредитация.
Мы постарались вместить в описание больше деталей, но нам всё ещё есть, что рассказать. Будем рады познакомиться!