Виборці США та НРПС
Виборці США та НРПС

Це проект великих даних, який займається стандартизацією, очищенням та індексуванням даних SOLR. Ми були сповнені рішучості змусити все працювати за допомогою надійного рішення для серверної обробки пошуку, укладеного у зручний інтерфейс.

З якими випробуваннями ми зіткнулися

Команді Intsurfing було потрібно отримати, трансформувати та завантажити дані про виборців США та осіб, які змінюють свою адресу, з відкритих джерел. Таким чином, наші фахівці з великих даних повинні були:

  • Обробити великі обсяги даних – проект охопив 4 мільярди записів, розкиданих у різних базах даних, таких як Infutor, Movers, Thrive, NCOA та Spoke.
  • Нестандартизовані дані – оскільки нам доводилося обробляти кілька джерел, дані не підпадали під єдиний стандарт форматування та структуру.
  • Ризик дублювання даних – у кількох базах даних, з яких ми отримували дані, могла міститися інформація про одних і тих самих людей, тому ми мали переконатися, що наше рішення не містить дублікатів.
Результати

До кінця проекту нашому Клієнту була надана повністю стандартизована база даних американських виборців та осіб, які змінили місце проживання.

  • Зібрана база даних включала 4 мільярди записів.
  • Дані були стандартизовані, включаючи імена та адреси.
  • Ми очистили дубліковану та зайву інформацію, щоб забезпечити чіткість даних і їх зручність у використанні.
  • Наша команда завантажила записи в базу даних, запропонувавши зручний інтерфейс для легкої обробки даних.
Технології
  • .NET 4.5
  • WPF
  • WCF
  • SQL Server 2012
  • Amazon AWS
  • Hadoop
  • SOLR