Наші проєкти
у бекенді та інженерії даних
Кейси з backend- та дата-інженерії
Автоматизоване завантаження та обробка даних
Challenge:
Неоднорідні джерела, різні розклади поставок і великі обсяги даних.
Solution:
Універсальна система інжестії з перевіркою даних, ретраями, валідацією цілісності та логікою для кожного постачальника.
Result:
Надійний дата-процес з мінімальною кількістю збоїв і гарантованою доставкою даних.
Monthly Data Collection Across 60+ Sources for U.S. Data Aggregator
Challenge:
Public data across 60+ websites, frequent website changes, inconsistent formats, and the need for a stable monthly feed for a new search feature.
Solution:
Modular ingestion with internal orchestration, continuous monitoring, normalization, state-level consolidation, and schema-stable CSV delivery.
Result:
Reliable monthly dataset, new search capability launched, and a data pipeline that runs without breaking downstream systems for 10+ years.
ETL-пайплайн для бази виборців Індії для компанії з політичних даних та консалтингу
Challenge:
1 мільярд записів виборців, 22 локальні мови, 36 форматів вхідних даних (PDF та рукописні форми).
Solution:
OCR-розпізнавання тексту та ML для транслітерації, перевірка даних за поштовими довідниками.
Result:
Транслітерована, придатна до пошуку база даних в єдиному форматі.
Завантаження та обробка даних для платформи пошуку людей
Challenge:
Набір даних обсягом 150 млн записів із щоденним оновленням близько 1 млн записів.
Solution:
Автоматизований дата-пайплайн зі щоденним завантаженням, розпакуванням і валідацією даних. Обробка даних з використанням Airflow та AWS Glue Jobs на Scala.
Result:
Пошукова база даних у хмарному сховищі Snowflake.
Збір та структурування даних про автомобільні запчастини
Challenge:
Кілька каталогів із різними форматами, мільйони потенційних API-запитів та обмеження бюджету.
Solution:
Фазовий підхід: побудова модуля завантаження, тестові вибірки, контрольований паралельний збір даних.
Result:
313K+ структурованих записів та масштабований план розширення.
4B+ U.S. Voter and Mover Records ETL Pipeline for Identity Intelligence Company
Challenge:
Five disconnected voter and mover data sources. Billions of records. No shared format. High duplication risk. All built when big-data tooling was immature and hardware was expensive.
Solution:
A staged ETL pipeline with source-level logic, data standardization, identity resolution, and centralized SOLR indexing.
Result:
4+ billion records processed and unified. Five external sources integrated into one searchable dataset.
Зіставлення сутностей для GTM-платформи
Challenge:
Об’єднати записи з трьох різних джерел в єдине представлення.
Solution:
Дата-пайплайн із ймовірнісним зіставленням і нормалізацією даних за іменами, контактами, місцем роботи та освітою.
Result:
76% дедуплікації при рівні збігу ≥85%. 400 млн записів зіставлено за 40 хвилин
AI-парсинг PDF-документів для провідної B2B-платформи
Challenge:
Витягнути дані з 18 000 відсканованих PDF-файлів у 30 різних форматах.
Solution:
Навчання моделі Gemini Vertex AI для шаблонного витягування даних. Автоматизоване завантаження й обробка даних за допомогою Airflow DAGs на Python.
Result:
Текстові файли з бізнес-контактними даними.
Оптимізація системи парсингу адрес для платформи пошуку людей
Challenge:
Оптимізувати систему парсингу, перевірки та очищення адрес, яка не справлялася з високим навантаженням і набором даних у 1 млн записів.
Solution:
Міграція системи з MSSQL на Redis. Попередньо скомпільовані запити MSSQL. Нові алгоритми парсингу адрес. Внутрішнє кешування, дедуплікація та індексація.
Result:
Стабільна й легко масштабована система для 1M+ записів У 2 рази швидша обробка даних –40% трафіку обробки –12% помилок