Реєстраційний Список Виборців в Індії
Реєстраційний Список Виборців в Індії
Проект «Список реєстрації виборців в Індії» був зосереджений на вилученні та перетворенні даних, зібраних із файлів різних типів. Intsurfing попросили зібрати в один файл усі дані про індійських виборців, які важко обробити.
З якими викликами ми зіткнулисяВ рамках цього проекту нашій команді довелося мати справу з:
- Нестандартизовані дані - інформація була представлена в різних типах файлів - PDF, зображення, фотографії рукописних зразків - усі файли мали різну структуру.
- Обсяг даних — нашій команді довелося обробити 1 мільярд записів і перетворити їх у читабельний формат.
- Різні мови - механізм обробки повинен був розпізнавати всі 22 окремі офіційні індійські мови.
Наприкінці проекту Клієнт отримав файл з опитуванням індійських виборців. Використовуючи передові технології та наш глибокий досвід роботи з великими даними, ми добули та перетворили інформацію про населення Індії, зібрану з відкритих ресурсів, і загорнули її в читабельний формат. Таким чином:
- Адаптивний механізм, який ми розробили, сканував різні файли (PDF-файли, знімки екрана, зображення з рукописними нотатками тощо) і перетворював отриману інформацію у зручний для обробки формат.
- Механізм також міг розпізнавати дані різними мовами Індії.
- Intsurfing об’єднав усі фрагменти даних, щоб створити єдину базу даних виборців із 1 мільярдом записів.
- Наша команда забезпечувала постійну підтримку та раз на рік оновлювала файл, видаляючи нерелевантну інформацію та додаючи нові дані.
Технології
- .NET Core 2.0
- Amazon AWS
- Tesseract OCR
- iText PDF