article-spots
article-carousel-spots
programs
Історії
Data Quality Engineers: спеціалісти, в чиїх руках — надійність даних
10 бер

За даними Harvard Business Review, будь-яка задача, виконана із використанням помилкових даних, у підсумку коштує бізнесу в 100 разів дорожче, ніж якби дані були правильними. Результати дослідження ґрунтуються на правилі 1-10-100, розробленому Джорджем Лабовіцем і Ю Санг Чангом, яке ілюструє важливість підтримки високого рівня якості даних на постійній основі.

Не дивно, що в сучасному світі, де дані є основою успіху будь-якого бізнесу, професія Data Quality інженера стрімко набирає популярності. Чим займаються ці спеціалісти та що потрібно знати початківцям – розповідає Вікторія Вахріна, Senior Data Quality Engineer в ЕРАМ.

Про комп’ютерні науки, роботу з даними та… авіацію

Мій шлях в ЕРАМ розпочався близько трьох років тому, з навчальної програми за напрямом Data Quality від ЕРАМ. До того моє життя було пов’язане з авіацією: я працювала старшим бортпровідником в авіакомпанії та паралельно здобувала другу вищу освіту в Київському національному політехнічному університеті за фахом «Програмна інженерія».

Цікавість до інформаційних технологій виникла в мене давно, а тому, коли через пандемію кількість авіарейсів (а отже й обсяг моєї роботи) значно скоротилася, вільний час я присвятила зануренню в ІТ тренди та вивчення мови Python. Ця мова часто використовується у напрямах, пов’язаних із роботою з даними. З часом я натрапила на курс з Data Quality від ЕРАМ, і зрозуміла, що ця спеціалізація ідеально поєднує роботу з даними, застосування технологій, а до того ж має нижчий поріг входження, аніж, приміром, професія розробника або DevOps-інженера. Після завершення навчання та кількох співбесід я почала співпрацювати з EPAM та менш ніж за 2,5 роки пройшла шлях від Junior спеціаліста до Senior Data Quality Engineer.

Про Data Quality очима практика

Data Quality, як зрозуміло з назви, має на меті перевірку якості даних. DQ інженери можуть працювати з даними на будь-якому етапі: від отримання «сирих» даних у різноманітних форматах до їхньої трансформації, зберігання, обробки за допомогою різних інструментів та візуалізації програмами на кшталт Power BI або Tableau. Ми вміємо обробляти дані та знаємо, які перевірки треба зробити, щоб упевнитися в їхній якості.

Як це відбувається на практиці? Інженери не телефонують людям, щоб перепитати, чи вірно вказаний email у базі. Натомість ми перевіряємо, чи відповідають дані бізнес-вимогам та чи підходять вони для отримання необхідного замовникові результату.

Приміром, компанія зберігає інформацію про продажі та хоче щотижня бачити її в динаміці, у вигляді BI report. Завдання Data Quality інженера – переконатися, що дані, які приходять від мережі магазинів, відповідають заданим параметрам (коректні найменування товарів, дати продажу, вартість покупки тощо) Потім – перевірити, чи правильно дані завантажуються у базу, чи немає дублів, чи забезпечується консистентність, чи є математично коректними усі подальші агрегації, які замовник хоче бачити у звітах, чи правильно дані відображаються у звітах, чи оновлюються звіти із надходженням нових даних тощо. DQ інженери тісно співпрацюють із бізнес-аналітиками, від яких ми отримуємо перелік вимог замовника, а також з Data-аналітиками та Data-інженерами або розробниками, залежно від специфіки проєкту.

До речі, з міркувань безпеки на проєктах ми здебільшого працюємо з тестовими даними, які були спеціально згенеровані для тесту, а не з реальною конфіденційною бізнес-інформацією.

Про робочий інструментарій DQ інженера

Інструментарій DQ інженерів – надзвичайно різноманітний, і його підбір залежить від особливостей проєкту. Проте, у 90% випадків використовуються SQL або SQL-подібні інструменти, які наявні у більшості хмарних платформ.

Незамінним для DQ інженера є Python та його бібліотеки для роботи з даними, які застосовуються, зокрема, для автоматизованого тестування.

Коли є потреба опрацьовувати величезні масиви даних, у пригоді стають рішення для big data на кшталт Spark або Hadoop.

Без комунікаційних навичок – ніяк, адже DQ інженерам доводиться дуже багато спілкуватися як з бізнес-аналітиками, так і з розробниками. Непорозуміння в команді може спричинити чимало проблем, тому треба з’ясовувати всі нюанси та ставити питання допоки не буде 100% впевненості в тому, що всі залучені сторони правильно розуміють одне одного.

І звісно, потрібно вміти працювати з проєктною документацією.

Про pet-проєкти DQ інженерів

На відміну від, приміром, розробників, перелік ідей для пет-проєкту у Data Quality є дуже обмеженим. Проте сьогодні в Інтернеті є чимало наборів відкритих даних, на яких можна потренуватися.

Наприклад, на широко відомому серед DQ-спільноти ресурсі Kaggle.com є багато різноманітних наборів даних. Використовуючи їх, можна спробувати побудувати дешборди, зробити класичні та прості перевірки даних, пофантазувати, що саме можна перевірити на кожному етапі. Також тренувальні набори даних можна знайти на платформах AWS та Google Cloud. Такий практичний досвід може знадобитися й під час співбесіди.

Особисті якості, які допоможуть бути успішним у цій професії:

  • Прискіпливість та уважність;
  • Допитливість та комунікабельність: деколи доводиться з’ясовувати незадокументовані нюанси проєкту;
  • Толерантність до періодичного виконання монотонної роботи;
  • Здатність мислити нестандартно, щоб знайти слабкі місця та виявити розбіжності, які, на перший погляд, непомітні.

Про важливість англійської

Володіння англійською мовою для людей, які прагнуть розвиватися в галузі інформаційних технологій, – не забаганка, а необхідність. Професія Data Quality інженера – не виняток. Здебільшого, свіжі матеріали доступні лише англійською, крім того, спілкування з замовниками, а деколи і з командою, теж відбувається англійською. В мене високий рівень володіння мовою, до того ж я постійно докладаю зусиль для його підтримання.

Мінімальний «стартовий набір» для початківців

На курсі Data Quality Engineering від ЕРАМ навчають усіх необхідних навичок для входження у професію. Тому, навіть непідготовані новачки можуть спробувати власні сили, за умови готовності інвестувати чимало зусиль та часу в навчання. Простіше буде тим кандидатам, які мають базові знання SQL, знайомі з реляційними базами даних та Git, розуміють CI/CD процеси та основні поняття тестування, зокрема, тест-кейси, баг-репорти тощо. Знання цих тем пришвидшить процес власного становлення як Data Quality інженера.

А як щодо ШІ?

Якщо штучний інтелект і замінить колись DQ інженера, на мою думку, це станеться не скоро.

Завдання тестувальника – піддавати сумнівам чимало аспектів. І хоча ШІ «вміє» проводити базові перевірки систем, які добре працюють, навряд чи він зможе змоделювати параметри для перевірки роботи системи за умови отримання некоректних і навіть неочікуваних даних. На сьогодні штучний інтелект не має здатності до критичного мислення, не зможе випадково помітити невідповідність у процесі перевірки якогось іншого параметру. Тому за професійне майбутнє DQ-інженерів можна бути спокійними. Принаймні поки що.

Цікаво спробувати? Тоді мерщій ознайомлюйтеся з деталями відкритого набору на напрямом Data Quality Engineering та пробуйте власні сили у світі перевірки якості даних! Усі відкриті можливості початку кар’єри в Data – за посиланням.