Data/ML Engineer

Middle Москва Более 6 лет

Опыт

Более 6 лет

Город

Москва

Опубликована

27.05.2026

ЦРТ - российская аккредитованная продуктовая IT-компания. Являемся лидерами в разработке систем для распознавания и синтеза речи, идентификации личности по голосу и изображению. Наши продукты внедрены в крупных корпорациях по всей России. 75+ стран присутствия продукта на стороне клиента.

Сейчас мы ищем Data/ML Engineer для разработки продукта по автоматизации корпоративных данных с помощью LLM. Ваша задача — построить интеллектуальную систему, которая упростит работу с информацией и ускорит принятие решений.

Задачи:

Построение пайплайнов подготовки данных: Разработка, внедрение и поддержка ETL/ELT процессов для сбора, очистки и преобразования данных из различных источников (корпоративные Wiki, Confluence, базы знаний, PDF-документы, веб-сайты) в формат, пригодный для RAG.
Разработка стратегий фрагментирования (Chunking): Экспериментирование с различными подходами к разбиению документов на осмысленные фрагменты (чанки), настройка параметров (размер, перекрытие) с использованием инструментов вроде LlamaIndex и LangChain для оптимизации поиска и генерации.
Создание и оптимизация векторного хранилища: Внедрение и поддержка векторных баз данных (Milvus, Qdrant, Weaviate, ChromaDB). Настройка индексов, алгоритмов поиска (ANN, гибридный поиск) для обеспечения высокой скорости и точности извлечения релевантной информации.
Работа с эмбеддингами: Подбор, тестирование и внедрение моделей текстовых эмбеддингов (Sentence-BERT, OpenAI Embeddings и др.) для качественного преобразования текстовых фрагментов в векторные представления.
Обогащение данных: Добавление метаданных к фрагментам данных для фильтрации и повышения релевантности поиска. Разработка методов автоматического расширения контекста и суммаризации больших объемов информации.
Оценка качества данных: Участие в создании "золотых датасетов" и метрик для оценки качества работы RAG-системы. Взаимодействие с командой ML-инженеров для анализа результатов и итеративного улучшения пайплайнов.

Мы ждём от успешных кандидатов:

Технический стек: Уверенное владение Python и ключевыми библиотеками для обработки данных (Pandas, PySpark). Опыт работы с NLP-библиотеками (spaCy, NLTK). Практический опыт работы с векторными базами данных и фреймворками для RAG (LlamaIndex, LangChain).
Инженерные навыки: Опыт проектирования и разработки отказоустойчивых ETL-пайплайнов. Уверенная работа с Git, Linux/Unix. Понимание принципов работы распределенных систем.
Знания в области Data Science: Понимание принципов работы LLM, эмбеддингов и семантического поиска. Знание алгоритмов поиска по сходству.
Навыки работы с данными: Умение проводить исследовательский анализ данных (EDA), оценивать их качество, выявлять и устранять аномалии. Опыт работы с неструктурированными данными.

Будет плюсом:

Опыт работы с облачными платформами (AWS, GCP, Azure) и инструментами оркестрации (Airflow, Dagster).
Опыт внедрения систем оценки качества RAG (например, с помощью RAGAs).

Как работается в ЦРТ

Трудоустройство и онбординг

7.2

Финансовое вознаграждение

7.5

Рабочая среда и культура

7.4

Карьерная ценность

Другие вакансии ЦРТ

Инженер интеграционных проектов

Москва

Инженер по внедрению