Проєкти з великими даними — Наші кейси

Автоматизоване завантаження та обробка даних

Challenge:

Неоднорідні джерела, різні розклади поставок і великі обсяги даних.

Solution:

Універсальна система інжестії з перевіркою даних, ретраями, валідацією цілісності та логікою для кожного постачальника.

Result:

Надійний дата-процес з мінімальною кількістю збоїв і гарантованою доставкою даних.

Monthly Data Collection Across 60+ Sources for U.S. Data Aggregator

Challenge:

Public data across 60+ websites, frequent website changes, inconsistent formats, and the need for a stable monthly feed for a new search feature.

Solution:

Modular ingestion with internal orchestration, continuous monitoring, normalization, state-level consolidation, and schema-stable CSV delivery.

Result:

Reliable monthly dataset, new search capability launched, and a data pipeline that runs without breaking downstream systems for 10+ years.

ETL-пайплайн для бази виборців Індії для компанії з політичних даних та консалтингу

Challenge:

1 мільярд записів виборців, 22 локальні мови, 36 форматів вхідних даних (PDF та рукописні форми).

Solution:

OCR-розпізнавання тексту та ML для транслітерації, перевірка даних за поштовими довідниками.

Result:

Транслітерована, придатна до пошуку база даних в єдиному форматі.

Завантаження та обробка даних для платформи пошуку людей

Challenge:

Набір даних обсягом 150 млн записів із щоденним оновленням близько 1 млн записів.

Solution:

Автоматизований дата-пайплайн зі щоденним завантаженням, розпакуванням і валідацією даних. Обробка даних з використанням Airflow та AWS Glue Jobs на Scala.

Result:

Пошукова база даних у хмарному сховищі Snowflake.

Збір та структурування даних про автомобільні запчастини

Challenge:

Кілька каталогів із різними форматами, мільйони потенційних API-запитів та обмеження бюджету.

Solution:

Фазовий підхід: побудова модуля завантаження, тестові вибірки, контрольований паралельний збір даних.

Result:

313K+ структурованих записів та масштабований план розширення.

4B+ U.S. Voter and Mover Records ETL Pipeline for Identity Intelligence Company

Challenge:

Five disconnected voter and mover data sources. Billions of records. No shared format. High duplication risk. All built when big-data tooling was immature and hardware was expensive.

Solution:

A staged ETL pipeline with source-level logic, data standardization, identity resolution, and centralized SOLR indexing.

Result:

4+ billion records processed and unified. Five external sources integrated into one searchable dataset.

Зіставлення сутностей для GTM-платформи

Challenge:

Об’єднати записи з трьох різних джерел в єдине представлення.

Solution:

Дата-пайплайн із ймовірнісним зіставленням і нормалізацією даних за іменами, контактами, місцем роботи та освітою.

Result:

76% дедуплікації при рівні збігу ≥85%. 400 млн записів зіставлено за 40 хвилин

AI-парсинг PDF-документів для провідної B2B-платформи

Challenge:

Витягнути дані з 18 000 відсканованих PDF-файлів у 30 різних форматах.

Solution:

Навчання моделі Gemini Vertex AI для шаблонного витягування даних. Автоматизоване завантаження й обробка даних за допомогою Airflow DAGs на Python.

Result:

Текстові файли з бізнес-контактними даними.

Оптимізація системи парсингу адрес для платформи пошуку людей

Challenge:

Оптимізувати систему парсингу, перевірки та очищення адрес, яка не справлялася з високим навантаженням і набором даних у 1 млн записів.

Solution:

Міграція системи з MSSQL на Redis. Попередньо скомпільовані запити MSSQL. Нові алгоритми парсингу адрес. Внутрішнє кешування, дедуплікація та індексація.

Result:

Стабільна й легко масштабована система для 1M+ записів У 2 рази швидша обробка даних –40% трафіку обробки –12% помилок

Розробка бекенду для розподіленої системи збору вебданих

Challenge:

Побудувати інструмент збору даних для масштабного отримання інформації з мінімальними налаштуваннями.

Solution:

Хмарна система збору даних великого масштабу з керуванням ресурсами, роботою з проксі та моніторингом проєктів.

Наші проєкти

у бекенді та інженерії даних

Кейси з backend- та дата-інженерії

Автоматизоване завантаження та обробка даних

Challenge:

Solution:

Result:

Monthly Data Collection Across 60+ Sources for U.S. Data Aggregator

Challenge:

Solution:

Result:

ETL-пайплайн для бази виборців Індії для компанії з політичних даних та консалтингу

Challenge:

Solution:

Result:

Завантаження та обробка даних для платформи пошуку людей

Challenge:

Solution:

Result:

Збір та структурування даних про автомобільні запчастини

Challenge:

Solution:

Result:

4B+ U.S. Voter and Mover Records ETL Pipeline for Identity Intelligence Company

Challenge:

Solution:

Result:

Зіставлення сутностей для GTM-платформи

Challenge:

Solution:

Result:

AI-парсинг PDF-документів для провідної B2B-платформи

Challenge:

Solution:

Result:

Оптимізація системи парсингу адрес для платформи пошуку людей

Challenge:

Solution:

Result:

Розробка бекенду для розподіленої системи збору вебданих

Challenge:

Solution:

Зв'яжіться з нами

Ваше повідомлення було успішно надіслано.