Реєстраційний Список Виборців в Індії
Реєстраційний Список Виборців в Індії

Проект «Список реєстрації виборців в Індії» був зосереджений на вилученні та перетворенні даних, зібраних із файлів різних типів. Intsurfing попросили зібрати в один файл усі дані про індійських виборців, які важко обробити.

З якими викликами ми зіткнулися

В рамках цього проекту нашій команді довелося мати справу з:

  • Нестандартизовані дані - інформація була представлена в різних типах файлів - PDF, зображення, фотографії рукописних зразків - усі файли мали різну структуру.
  • Обсяг даних — нашій команді довелося обробити 1 мільярд записів і перетворити їх у читабельний формат.
  • Різні мови - механізм обробки повинен був розпізнавати всі 22 окремі офіційні індійські мови.
Результати

Наприкінці проекту Клієнт отримав файл з опитуванням індійських виборців. Використовуючи передові технології та наш глибокий досвід роботи з великими даними, ми добули та перетворили інформацію про населення Індії, зібрану з відкритих ресурсів, і загорнули її в читабельний формат. Таким чином:

  • Адаптивний механізм, який ми розробили, сканував різні файли (PDF-файли, знімки екрана, зображення з рукописними нотатками тощо) і перетворював отриману інформацію у зручний для обробки формат.
  • Механізм також міг розпізнавати дані різними мовами Індії.
  • Intsurfing об’єднав усі фрагменти даних, щоб створити єдину базу даних виборців із 1 мільярдом записів.
  • Наша команда забезпечувала постійну підтримку та раз на рік оновлювала файл, видаляючи нерелевантну інформацію та додаючи нові дані.
Технології
  • .NET Core 2.0
  • Amazon AWS
  • Tesseract OCR
  • iText PDF