Главная Вакансии Компании Рейтинги О портале

RAG Engineer (Python/ ML/ NLP/ LLM/ Data Science)

Middle Москва Более 6 лет
Опыт
Более 6 лет
Город
Москва
Опубликована
05.06.2026

ЦРТ - российская аккредитованная продуктовая IT-компания. Являемся лидерами в разработке систем для распознавания и синтеза речи, идентификации личности по голосу и изображению. Наши продукты внедрены в крупных корпорациях по всей России. 75+ стран присутствия продукта на стороне клиента.

Сейчас мы ищем RAG-инженера для разработки продукта по автоматизации корпоративных данных с помощью LLM. Ваша задача - построить интеллектуальную систему, которая упростит работу с информацией и ускорит принятие решений.

Хочешь решать амбициозные задачи и при этом иметь все плюшки работы в стабильной компании - присоединяйся!

Что мы предлагаем кандидатам:

  • Работу над проектами национального масштаба - не просто код, а технологии, которые влияют на жизнь миллионов.
  • Возможность «прокачать» экспертизу в самых востребованных направлениях.

Наши победы говорят за нас:

  • Digital Leaders Award 2024 («Проект года в бизнесе»)
  • CX World Awards («Лучший клиентский опыт»)
  • Победы в престижных конкурсах: ASVspoof 2021, CHiME-6, NIST SRE

Ключевые задачи:

  • Определить источники данных: внешние системы, документы, БД, API, файловые хранилища, стримы обновлений. В RAG данные извлекаются из внешней базы знаний, поискового слоя или SQL/ векторного хранилища;
  • Спроектировать модель данных: сущности, связи, версии, метаданные, lineage, права доступа, актуальность и домены ответственности;
  • Организовать сбор и нормализацию данных из внешних источников, очистку, дедупликацию, классификацию, разметку и контроль качества;
  • Построить golden record/ golden print: эталонную карточку объекта или записи, которая объединяет лучшие доступные атрибуты из разных источников и служит опорой для поиска, анализа и генерации;
  • Подготовить данные для indexing/ retrieval/ RAG: чанкинг, эмбеддинги, векторный индекс, гибридный поиск, reranking, обновление индекса;
  • При необходимости подготовить данные для обучения или дообучения модели, если RAG недостаточен и нужен supervised/ fine-tuning слой;
  • Определить метрики качества и мониторинг: retrieval precision/recall, groundedness, faithfulness, coverage, freshness, latency, cost, answer quality.

Мы ждём от успешных кандидатов:

  • Уверенное владение Python и ключевыми библиотеками для обработки данных (Pandas, PySpark);

  • Опыт работы с NLP-библиотеками (spaCy, NLTK);
  • Практический опыт работы с векторными базами данных и фреймворками для RAG (LlamaIndex, LangChain);
  • Опыт проектирования и разработки отказоустойчивых ETL-пайплайнов;
  • Понимание принципов работы LLM, эмбеддингов и семантического поиска;
  • Знание алгоритмов поиска по сходству;
  • Умение проводить исследовательский анализ данных (EDA), оценивать их качество, выявлять и устранять аномалии;
  • Опыт работы с неструктурированными данными.
    ​​​

Будет плюсом:

  • Опыт извлечения данных с помощью OCR;
  • Опыт работы с облачными платформами (AWS, GCP, Azure) и инструментами оркестрации (Airflow, Dagster);
  • Опыт внедрения систем оценки качества RAG (например, с помощью RAGAs).
Как работается в ЦРТ
Трудоустройство и онбординг
7.2
Финансовое вознаграждение
7.5
Рабочая среда и культура
7.4
Карьерная ценность
9
Другие вакансии ЦРТ
Старший системный аналитик
Москва
Старший бизнес-аналитик
Москва
Системный аналитик
Санкт-Петербург
Старший frontend-программист (react)
Москва