ЦРТ - российская аккредитованная продуктовая IT-компания. Являемся лидерами в разработке систем для распознавания и синтеза речи, идентификации личности по голосу и изображению. Наши продукты внедрены в крупных корпорациях по всей России. 75+ стран присутствия продукта на стороне клиента.
Сейчас мы ищем
Data/ML Engineer для разработки продукта по автоматизации корпоративных данных с помощью LLM. Ваша задача — построить интеллектуальную систему, которая упростит работу с информацией и ускорит принятие решений.
Задачи: - Построение пайплайнов подготовки данных: Разработка, внедрение и поддержка ETL/ELT процессов для сбора, очистки и преобразования данных из различных источников (корпоративные Wiki, Confluence, базы знаний, PDF-документы, веб-сайты) в формат, пригодный для RAG.
- Разработка стратегий фрагментирования (Chunking): Экспериментирование с различными подходами к разбиению документов на осмысленные фрагменты (чанки), настройка параметров (размер, перекрытие) с использованием инструментов вроде LlamaIndex и LangChain для оптимизации поиска и генерации.
- Создание и оптимизация векторного хранилища: Внедрение и поддержка векторных баз данных (Milvus, Qdrant, Weaviate, ChromaDB). Настройка индексов, алгоритмов поиска (ANN, гибридный поиск) для обеспечения высокой скорости и точности извлечения релевантной информации.
- Работа с эмбеддингами: Подбор, тестирование и внедрение моделей текстовых эмбеддингов (Sentence-BERT, OpenAI Embeddings и др.) для качественного преобразования текстовых фрагментов в векторные представления.
- Обогащение данных: Добавление метаданных к фрагментам данных для фильтрации и повышения релевантности поиска. Разработка методов автоматического расширения контекста и суммаризации больших объемов информации.
- Оценка качества данных: Участие в создании "золотых датасетов" и метрик для оценки качества работы RAG-системы. Взаимодействие с командой ML-инженеров для анализа результатов и итеративного улучшения пайплайнов.
Мы ждём от успешных кандидатов: - Технический стек: Уверенное владение Python и ключевыми библиотеками для обработки данных (Pandas, PySpark). Опыт работы с NLP-библиотеками (spaCy, NLTK). Практический опыт работы с векторными базами данных и фреймворками для RAG (LlamaIndex, LangChain).
- Инженерные навыки: Опыт проектирования и разработки отказоустойчивых ETL-пайплайнов. Уверенная работа с Git, Linux/Unix. Понимание принципов работы распределенных систем.
- Знания в области Data Science: Понимание принципов работы LLM, эмбеддингов и семантического поиска. Знание алгоритмов поиска по сходству.
- Навыки работы с данными: Умение проводить исследовательский анализ данных (EDA), оценивать их качество, выявлять и устранять аномалии. Опыт работы с неструктурированными данными.
Будет плюсом:
- Опыт работы с облачными платформами (AWS, GCP, Azure) и инструментами оркестрации (Airflow, Dagster).
- Опыт внедрения систем оценки качества RAG (например, с помощью RAGAs).