Мы - команда платформы данных в направлении Trust & Safety.
Наша миссия - обеспечить T&S доступом к достоверным, актуальным и структурированным данным, предоставив надежную технологическую платформу и инструменты для их эффективного использования.
Мы строим платформу, которая объединяет в себе решения для:
- Хранения больших данных;
- Высокопроизводительных запросов (OLAP);
- Потоковой и батч-обработки;
- Визуализации и оркестрации данных.
Мы ищем разностороннего инженера, который сможет не только проектировать и разрабатывать пайплайны данных, но и активно участвовать в развитии платформенных сервисов, которому интересно разбираться в новом, который не боится задач на стыке разработки и дата инжиниринга.
Вам предстоит: - Развитие платформы: внедрение, настройка и поддержка компонентов платформы данных, обеспечение их отказоустойчивости и масштабируемости;
- Задачи с архитектурой данных: проектирование и оптимизация архитектуры хранения больших данных, разработка эффективных схем данных под аналитические задачи;
- Работа с ETL/ELT процессами: настройка и оптимизация пайплайнов обработки данных (как потоковых, так и батчей), обеспечение качества и надежности данных на всех этапах;
- Задачи в направлении DevOps для Данных: мониторинг производительности кластеров, тюнинг запросов, управление доступом и поддержка пользователей (аналитиков, дата-сайентистов);
- Исследовать: быстрое погружение в новые предметные области и технологии для решения нестандартных задач;
- Работа со следующим стеком: Clickhouse (обязательно), Trino, S3, Apache Iceberg, Cassandra; Apache Flink, Apache Airflow, Python, dbt; Kafka / RedPanda; Apache Superset, Redash.
Вы нам подходите, если:
- Есть опыт от 5 лет в области Data Engineering;
- Глубоко понимаете принципы работы с Big Data (распределенные вычисления, партиционирование, шардирование);
- Вы умеете проектировать сложные архитектуры решений для обработки данных;
- Владеете SQL и есть опыт оптимизации сложных запросов (особенно для OLAP-систем);
- Имели дело с потоковой обработкой данных и батч-процессами;
- Уверенно владеете Python для написания скриптов автоматизации, интеграционных задач;
- Есть практический опыт настройки CI/CD пайплайнов для Data проектов: линтеры, тесты, автоматическая выкладка дагов Airflow или dbt-моделей.