article-spots
article-carousel-spots
programs
Технології

З чого складається професія data-інженера?

15 квіт 2020

Сказати, що дата-інженер – це інженер, який працює з даними і створює дата-продукт, означає не збрехати, але й нічого не пояснити. Ми поговорили з Data and Cloud Solution Architect EPAM Романом Новіком і керівником Data Lab Ганною Петрашко, щоб розібратися, що таке дані і чим займається дата-інженер.

Авторитетні світові видання (The New York Times, The Economist, WIRED) давно виділили Data в тренд та оголосили новою нафтою. Так само як нафта, дані в сирому вигляді не дають жодної користі. Спочатку їх потрібно переробити на паливо, яке саме по собі все ще не несе відчутної цінності. Щоб отримати з нього енергію, нам потрібен двигун. Це і є дата-продукт. 

Що ми маємо на увазі під словом «сирі»: дані приземляються в нашу систему як клік з веб-сайту, блок фінансових транзакцій чи дамп медичних записів. В такому вигляді їх дуже складно використовувати. Завдання дата-інженера не просто зібрати дані, але й перетворити їх в зрозумілу для кінцевого користувача інформацію, яку умовно можна відкрити навіть в exсel. Однак, і це ще не буде дата-продуктом. Інформація повинна приносити конкретну користь в житті. Навіть вміло розшифрований шматок даних все ще нічого не означає. Потрібні певні інструменти, щоб їх використати. Тільки разом це починає набувати значення. 

Наприклад, ми зібрали дані метеорологічних спостережень за певний період, обробили й внесли до excel. Щоб з цією інформації вийшов дата-продукт, ми повинні проаналізувати температурні коливання і почати прогнозувати погоду на добу. Виходячи з цих прогнозів кінцевий споживач буде приймати рішення. Щоб рішення приносили прибуток, важливо знати, наскільки інформація правдива. Кожна модель має властивість помилятися, ми маємо розрахувати ступінь помилки. Скажімо, точність нашого прогнозу погоди – 70%. Ці цифри допоможуть користувачу тверезо оцінювати ситуацію і прийняти правильне рішення. 

Дата-продукт – це результат трансформації даних в якісну інформацію, яка приносить користь бізнесу. 

Кожен дата продукт має свій життєвий цикл і свій value chain або ланцюг цінності. Дата-інженери з точки зору розробки, підтримки, збору та аналізу даних забезпечують всі ланки в цьому ланцюжку. У кожного етапу є свої характеристики і атрибути, які диктують специфіку роботи. У великій машині інженерії даних безліч різних типів продуктів «під капотом», поведінки життєвих циклів, тому в дата-практиці існує багато різних інженерних спеціалізацій: 

  •  Data Engineer збирає і обробляє дані, запускає процеси і будує сервіси, щоб ці дані перетворилися на дата продукт.
  •  Data Platform Engineer займається підготовкою платформ: інфраструктури, інженерії, безпеки та моніторингу. 
  •  Data Quality Engineer поєднує у собі інженерні задачі, аналіз даних та елементи тестування; в певний момент ми зрозуміли, що традиційне тестування (QA) – це все ж таки не та дисципліна, яка може забезпечувати належний контроль якості даних у наших платформах, і виділили окремий напрямок. 
  •  Data DevOps Engineer працює з розподіленими системами, паралельно обробляє складні дані в середовищі з великою кількістю рухомих частин, де доводиться тримати в голові дуже багато зв'язків між компонентами систем, аналізувати й усувати проблеми. 
  •  Data Science Engineer структурує і аналізує великі обсяги даних, передбачає події. 
  •  Search Engineer. Ми віднесли Search Engineer до дата-експертизи, тому що сучасний пошук став дуже розумним, зараз він набагато ближчий до Data Science і роботи з даними, ніж до будь-яких інших дисциплін. 
  •  ML Engineer. Machine Learning – це окремий випадок Data Platform Engineering, потрібно не тільки працювати з даними, але й забезпечувати прозорість та керованість життєвого циклу ML-продукту; через складність цього процесу ML-інженер повинен мати більш глибоку експертизу. 

Кар'єрні можливості для дата-інженера

Не всі компанії виробляють дата-продукт. Важливо це розуміти і відрізняти веб- та датацентричні компанії. Наприклад, Gmail – це дата-продукт? Ні. Це email сервіс, мета якого спростити взаємодію між людьми. Всередині цього продукту існують різні дата-продукти, інтегровані непомітно для користувача: Gmail автоматично сортує листи на важливі та неважливі. Для цього він застосовує дата-алгоритми, але при цьому сервіс може існувати й без них. Тут дата-продукти виступають в якості покращення UX. Можемо сказати, що це веб-продукт, не дата. Якщо керівництво компанії не має на меті за допомогою даних покращити якість свого продукту, там взагалі не потрібні дата-інженери. Такі спеціалісти потрібні в компаніях, де люди прагнуть покращити якості продукту завдяки персоналізації, рекомендаціям, іншим фічам, які здатні не тільки існувати над даними, але й самі є похідною від даних. 

Акули, як Google або Яндекс постійно найматимуть дата-інженерів, тому що робота з даними – це ядро їх бізнесу. Сучасні тенденції говорять про те, що потреба в дата-продуктах зростає в принципі. Жорстка конкуренція на ринку підштовхує компанії розвивати свої продукти: вбудовувати унікальні фічі, автоматизувати процеси, піклуватися про зручність для кінцевого користувача. А більшість таких зручностей, як персоналізація, рекомендації, штучний інтелект створюються саме за допомогою дата-продуктів. 

Наведемо конкретний приклад. FedEx конкурує на ринку з Amazon. Обидві компанії займаються комерцією і працюють з даними, але Amazon виходить вперед за рахунок штучного інтелекту: посилки доставляють дрони, практично немає потреби в людях, а отже й витрати менші. Щоб влитися в тренд і відвоювати собі частку, FedEx планує оцифрувати сервіси, операційну модель і навчитися приймати data driven decisions. Ось чому попит на дата-інженерів ще довго не зникне. 

Де навчатися на дата-інженера

  1.  Онлайн-курси. В інтернеті все частіше можно знайти якісні тренінги з Data Engineering від компаній, які рухають індустрію вперед (Google, Microsoft і т.д). Але частіше за все вони розповідають про дата-продукти власного виробництва, обмежуючи користувача. Гарні курси з Data Analysis на теренах інтернету зустрічаються рідко, треба знати, де шукати.
  2.  Тренінги на базі компаній. Це ідеальний варіант для навчання. Тут вам детально розкажуть всю теорію, нададуть можливість застосувати знання на практиці та працевлаштують у разі успіху. 

Наші експерти переконані, що онлайн-тренінги – це хороший старт, але для того, щоб отримати роботу цього недостатньо. Після самостійного навчання багато хто приходить на інтерв'ю з кашею в голові та цілковитим нерозумінням скоупу завдань дата-інженера. Позиції для новачків в цьому сегменті можна полічити на пальцях, оскільки кіт в мішку нікому не потрібен. Вихід з цієї ситуації один – стажування. Шукайте компанію з великим досвідом в дата-практиці, яка візьме вас на поруки і буде показувати, що таке продакшн і «з чим його їдять». Вам треба проявити себе так, щоб затриматися й вирости до middle або senior спеціаліста. З цих позицій буде легше зайти на цікаві проекти в будь-якій компанії. 

З яким бекграундом легше опанувати професію дата-інженера

Інженерія – це вміння знаходити оптимальні рішення в дуже нестандартних ситуаціях. Людина з аналітичним складом розуму і технічною освітою легше зайде до бекенд розробки, тому що там не вимагається тісного спілкування із замовником. Спеціаліст з економічним бекграундом і знанням бізнесу за плечима швидко долучиться до командної роботи і розумітиме клієнта. Однак, чіткого розмежування немає, все індивідуально: залежить від особистих якостей людини. Soft skills також мають значення: комунікабельні, мотивовані люди частіше затримуються в компанії. Пам'ятайте, чим більше ви знаєте, тим швидше вас помітять і заберуть на проект, тим швидше ви виростете. 

Поради дата-інженерам початківцям

  • Приділіть час матеріалам для самопідготовки. Пройдіть за посиланнями при реєстрації на тренінг і почитайте. Це перший крок до відповіді на питання «робота з даними – це моє чи не моє?»
  • Тверезо оцініть свої скіли і будьте чесними на інтерв'ю. Далі пройдуть тільки найбільш вмотивовані, кому дійсно цікаво працювати і вчитися. 
  • Не вчіться для інших, вчіться для себе. Це не університет, тут не спрацює «здав і забув». Всі знання, які ви отримаєте на курсі стануть цеглинами та цементом для вашої кар'єри Вони всі потрібні, жодну неможливо викинути. 
  • Задавайте питання. Якщо вам щось незрозуміло, запитайте ментора. Питання повинні бути вашим основним інструментом спілкування на період навчання. Краще спитати й зрозуміти, ніж списати й не одержати роботу. Пам'ятайте, на інтерв'ю із замовником ви будете сам на сам. 
  • Позбудьтеся упереджень. Ментори – це не викладачі в університеті, це ваші майбутні колеги, з якими можна потеревенити і попити чаю. Не треба їх боятися. Якщо вам важко, охоплює втома, невпевненість або розчарування, поділіться своїми почуттями і вам обов'язково допоможуть.