Стандартизація даних: визначення, перевірка та трансформація

Стандартизація даних

У той час як організації переходять до встановлення культури даних у всьому підприємстві, багато хто все ще намагається правильно отримати свої дані. Отримання даних із різних джерел і отримання різних форматів і представлень того, що має бути тією самою інформацією, спричиняє серйозні перешкоди на вашому шляху до даних.

Команди стикаються із затримками та помилками під час виконання рутинних операцій або отримання інформації з наборів даних. Такі проблеми змушують підприємства запровадити механізм стандартизації даних, який гарантує, що дані представлені в узгодженому та єдиному вигляді в усій організації. 

Давайте глибше розглянемо процес стандартизації даних: що це означає, кроки, які він передбачає, і як ви можете отримати стандартне представлення даних у вашому підприємстві.

Що таке стандартизація даних?

Простіше кажучи, стандартизація даних — це процес перетворення значень даних із неправильного формату на правильний. Щоб забезпечити стандартизоване, уніфіковане та послідовне представлення даних у всій організації, значення даних мають відповідати необхідному стандарту – у контексті полів даних, до яких вони належать.

Приклад помилок стандартизації даних

Наприклад, запис одного клієнта, який проживає в двох різних місцях, не повинен містити розбіжностей в імені та прізвищі, адресі електронної пошти, номері телефону та адресі проживання:

Назва Адреса електронної пошти Номер телефону Дата народження Пол Житлова адреса
Джон Онел john.neal@gmail.com 5164659494 14/2/1987 M 11400 Вт Olimpic BL # 200
Джерело 1

Ім'я Прізвище Адреса електронної пошти Номер телефону Дата народження Пол Житлова адреса
Джон О'Ніл john.neal_gmail.com + 1 516-465-9494 2/14/1987 чоловік 11400 Вт Olimpic 200
Джерело 2

У прикладі вище ви можете побачити такі типи невідповідностей:

  1. Структурні: Перше джерело охоплює ім’я клієнта як одне поле, тоді як друге зберігає його як два поля – ім’я та прізвище.
  2. шаблон: Перше джерело має а дійсний шаблон електронної пошти застосовується в полі адреси електронної пошти, тоді як у другому полі явно відсутній @ символ. 
  3. Тип даних: Перше джерело дозволяє лише цифри в полі «Номер телефону», тоді як у другому є поле рядкового типу, яке також містить символи та пробіли.
  4. Формат: Перше джерело містить дату народження у форматі ММ/ДД/РРРР, а друге — у форматі ДД/ММ/РРРР. 
  5. Значення домену: Перше джерело дозволяє зберігати значення «Стать» як M або F, тоді як друге джерело зберігає повну форму — «Чоловік» або «Жінка».

Такі невідповідності даних призводять до серйозних помилок, через які ваш бізнес може втратити багато часу, коштів і зусиль. З цієї причини впровадження наскрізного механізму для стандартизація даних має вирішальне значення для підтримки гігієни даних.

Як стандартизувати дані?

Стандартизація даних — це простий чотириетапний процес. Але залежно від характеру невідповідностей у ваших даних і того, що ви намагаєтеся досягти, методи та техніки, які використовуються для стандартизації, можуть відрізнятися. Тут ми представляємо загальне емпіричне правило, яке будь-яка організація може використовувати для подолання своїх помилок стандартизації. 

  1. Визначте, що таке стандарт

Щоб досягти будь-якого стану, ви повинні спочатку визначити, що таке стан насправді. Першим кроком будь-якого процесу стандартизації даних є визначення того, що потрібно досягти. Найкращий спосіб дізнатися, що вам потрібно, — це зрозуміти бізнес-вимоги. Вам потрібно відсканувати свої бізнес-процеси, щоб побачити, які дані потрібні та в якому форматі. Це допоможе вам встановити базову лінію для ваших вимог до даних.

Стандартне визначення даних допомагає визначити:

  • Активи даних, важливі для вашого бізнес-процесу, 
  • Необхідні поля даних цих активів,
  • Тип даних, формат і шаблон, яким мають відповідати їхні значення,
  • Діапазон прийнятних значень для цих полів тощо.

  1. Перевірте набори даних на відповідність визначеному стандарту

Після того, як у вас буде стандартне визначення, наступним кроком буде перевірити, наскільки добре ваші набори даних працюють із ними. Одним із способів оцінити це є використання профілювання даних інструменти, які створюють вичерпні звіти та знаходять інформацію, як-от відсоток значень, що відповідають вимогам поля даних, як-от:

  • Чи відповідають значення необхідному типу даних і формату?
  • Значення виходять за допустимий діапазон?
  • Чи використовують значення скорочені форми, наприклад абревіатури та прізвиська?
  • Є стандартизовані адреси за потреби – наприклад Стандартизація USPS для адрес у США?

  1. Перетворення невідповідних значень

Тепер нарешті настав час трансформувати значення, які не відповідають визначеному стандарту. Давайте розглянемо типові методи перетворення даних, які використовуються.

  • Розбір даних – Деякі поля даних потрібно спочатку проаналізувати, щоб отримати необхідні компоненти даних. Наприклад, розбір поля імені для розділення імені, по батькові та прізвища, а також будь-яких префіксів або суфіксів, присутніх у значенні.
  • Перетворення типів і форматів даних – Вам може знадобитися видалити невідповідні символи під час перетворення, наприклад, видалити символи та літери з номера телефону, що складається лише з цифр.
  • Зіставлення шаблонів і перевірка – Перетворення шаблону виконується шляхом налаштування регулярного виразу для шаблону. Для значень адреси електронної пошти, які відповідають регулярному виразу, їх потрібно проаналізувати та перетворити на визначений шаблон. адресу електронної пошти можна підтвердити за допомогою регулярного виразу:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • Розширення абревіатури – Назви компаній, адреси та імена осіб часто містять скорочені форми, які можуть призвести до того, що ваш набір даних міститиме різні представлення тієї самої інформації. Наприклад, можливо, вам доведеться розширити штати країни, наприклад перетворити Нью-Йорк на Нью-Йорк.
  • Видалення шумів і виправлення орфографії – Певні слова насправді не додають значення значенням, а натомість створюють багато шуму в наборі даних. Такі значення можна ідентифікувати в наборі даних, перевіряючи його зі словником, який містить ці слова, позначаючи їх прапорцями та вирішуючи, які з них остаточно видалити. Той самий процес можна виконати для пошуку орфографічних помилок і помилок друку.

  1. Перевірте набір даних відповідно до визначеного стандарту

На останньому етапі трансформований набір даних повторно перевіряється на відповідність визначеному стандарту, щоб дізнатися відсоток виправлених помилок стандартизації даних. Для помилок, які все ще залишаються у вашому наборі даних, ви можете налаштувати або переналаштувати свої методи та повторно запустити дані через процес. 

Завершіть

Обсяг даних, що генерується сьогодні, а також різноманітність інструментів і технологій, що використовуються для збору цих даних, змушують компанії стикатися з жахливою плутаниною даних. У них є все необхідне, але вони не зовсім впевнені, чому дані не представлені в прийнятній і придатній для використання формі та формі. Застосування інструментів стандартизації даних може допомогти виправити такі неузгодженості та створити таку необхідну культуру даних у вашій організації.

Що ви думаєте?

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються ваші дані коментарів.