ЦРТ - российская аккредитованная продуктовая IT-компания. Являемся лидерами в разработке систем для распознавания и синтеза речи, идентификации личности по голосу и изображению. Наши продукты внедрены в крупных корпорациях по всей России. 75+ стран присутствия продукта на стороне клиента.
Сейчас мы ищем RAG-инженера для разработки продукта по автоматизации корпоративных данных с помощью LLM. Ваша задача - построить интеллектуальную систему, которая упростит работу с информацией и ускорит принятие решений.
Хочешь решать амбициозные задачи и при этом иметь все плюшки работы в стабильной компании - присоединяйся!
Что мы предлагаем кандидатам:
- Работу над проектами национального масштаба - не просто код, а технологии, которые влияют на жизнь миллионов.
- Возможность «прокачать» экспертизу в самых востребованных направлениях.
Наши победы говорят за нас:
- Digital Leaders Award 2024 («Проект года в бизнесе»)
- CX World Awards («Лучший клиентский опыт»)
- Победы в престижных конкурсах: ASVspoof 2021, CHiME-6, NIST SRE
Ключевые задачи:
- Определить источники данных: внешние системы, документы, БД, API, файловые хранилища, стримы обновлений. В RAG данные извлекаются из внешней базы знаний, поискового слоя или SQL/ векторного хранилища;
- Спроектировать модель данных: сущности, связи, версии, метаданные, lineage, права доступа, актуальность и домены ответственности;
- Организовать сбор и нормализацию данных из внешних источников, очистку, дедупликацию, классификацию, разметку и контроль качества;
- Построить golden record/ golden print: эталонную карточку объекта или записи, которая объединяет лучшие доступные атрибуты из разных источников и служит опорой для поиска, анализа и генерации;
- Подготовить данные для indexing/ retrieval/ RAG: чанкинг, эмбеддинги, векторный индекс, гибридный поиск, reranking, обновление индекса;
- При необходимости подготовить данные для обучения или дообучения модели, если RAG недостаточен и нужен supervised/ fine-tuning слой;
- Определить метрики качества и мониторинг: retrieval precision/recall, groundedness, faithfulness, coverage, freshness, latency, cost, answer quality.
Мы ждём от успешных кандидатов:
Будет плюсом:
- Опыт извлечения данных с помощью OCR;
- Опыт работы с облачными платформами (AWS, GCP, Azure) и инструментами оркестрации (Airflow, Dagster);
- Опыт внедрения систем оценки качества RAG (например, с помощью RAGAs).