Data Science зараз дуже гаряча тема. Останні 3-5 років ця сфера розвивається дуже стрімко, як може здатися на перший погляд. Ми з Оксаною вирішили не відставати від часу і щоб бути в тренді поїхали на 2 дні в Київ на курс “Introduction to Data Science, Analytics and Artificial intelligence” що вів Oleksandr Romanko, Senior Research Analyst, Watson Financial Services, IBM Canada. Також він Adjunct Professor, University of Toronto. Загалом, розумний мужик, знає про що говорить.

Івент організував Data Science UA і за  їхніми словами, його відвідало приблизно 300 людей. Аудиторія була різна, переважно початківці, люди які трохи уміють програмувати або ті хто знає математику. Вартість розпочиналась від 550 грн, але ми купували квитки пізніше і тому заплатили по 790,00 грн.

Оскільки курс розрахований на початківців, у вступі лектор розказав що таке Jupiter Notebook, чому будемо його використовувати для роботи з Python. Перевага надається Python, а не R, тому що це, все-таки, мова програмування і вона надає набагато ширший діапазон можливостей і проста для вивчення.

Однією з найбільших проблем для Data  Science є дані. Де взяти дані? З наявних дата сетів, з інету, збирати самому з датчиків. Недостатня кількість даних може суттєво впливати на результати. Наприклад, медичні дані дуже важко збирати, але за їх допомоги можна прискорити передчасне визначення діагнозу пацієнтів.

Найкращий варіант це автоматична генерація прикладів даних для машинного навчання, наприклад ігри (Шахи та Го). Adobi  зробили програму генерацію фоток людей на основі уже існуючих і алгоритм для визначення фейкова людина  на фото чи ні.

Наука про дані складається лише з 3 складових: знання математики та статистики, уміння програмування та експертиза в сфері.

1) Найбільше людей лякає математика. Не розуміють навіщо ці математичні речі є, а вони потрібні для аналітики алгоритмів даних (це пояснення особливо не допомогло). Без основ математики немає сенсу лізти в Deep learning. Треба вміти рахувати похідні й вирішувати нелінійні рівняння. Похідні потрібні, щоб вирішувати нелінійні рівняння, а вони в свою чергу вирішують оптимізаційні проблеми. А всі оптимізаційні проблеми можна перевести в гроші або в людей. Це те що мені, наприклад, не пояснили в коледжі. Ніяк не міг зрозуміти навіщо в житті ці інтеграли та похідні. Виявилось, що багато чого можна описати функцією, і математика допомагає оптимізувати процеси в житті. Ми вчимо математику або статистику в університеті, але не розуміємо для чого, де ці знання можна практично застосувати.

2) Уміння програмувати (Python, R)

На джуніорівську позицію в області Data science вимагають декілька років досвіду в розробці.

3) Експертиза в сфері де ми застосовуємо науку даних

Алгоритми використовуються всюди. Наприклад, GPS в кожному телефоні, пошук найкоротшого шляху між двома точками. Нас це вчили в коледжі теж і з того часу в цьому алгоритмі нічого не змінилось.

PageRank – алгоритм на честь Ларі Пейджа. Сергій і Ларі працював над цим алгоритмом в університеті. Один алгоритм створив всю компанію Google яка коштує мільярди зараз. Сторінка є важливою якщо вона має посилання на інші важливі сторінки і інші важливі сторінки мають посилання на неї. Все побудовано на матрицях.

Всі алгоритми машинного навчання були давно уже відомі, просто за останні роки з’явились ефективні комп’ютери для використання цих алгоритмів. Раніше обробка та аналіз даних могли займати рік, зараз максимум дні. Вимоги до нових алгоритмів – потрібно зрозуміти як він приймає рішення. Нейронна мережа більше ніж з 3 шарами приймає рішення незрозуміло як. Алгоритм не можна перекласти на людську логіку. В цьому випадку виникає проблема – як пояснити, наприклад, в суді чому self driving car збила котика, а не песика? З технологічної точки такі машини уже можна використовувати на наших дорогах, але з точки зору моралі неможливо пояснити як алгоритм вибирає що робити у випадку аварії. 

Загалом, за два дні лектор розповів про Лінійну і Логістичну регресії. Навіщо вони і яка між ними різниця. Для роботи в Data Science потрібно зрозуміти як працюють ці регресії (лінійна вирішує питання передбачення, логістична вирішує питання класифікації (спам не спам)). Також розглянули основні алгоритми машинного навчання і як вони працюю. А далі пішла суцільна математика з формулами, і тут я почав засинати, напевно якийсь рефлекс виробився після 5 років створення формочок на HTML і просиджування у FB. Формули були не складні, усе це колись вчив і навіть знав: перша і другі похідні, мінімізації функцій, градієнт функцій і матриці.

Для тих хто дочитав до цього місця, всі матеріали курсу є в доступу на Google Drive. Там багато прикладів на Python по всіх основних напрямках. Є багато цікавих речей.

Також можете отримати безкоштовний доступ на 6 місяців до IBM Cloud за допомогою CognitiveClass.ai portal http://cognitiveclass.ai/ibm-cloud-promotion/ and login to IBM Cloud at https://console.bluemix.net. В IBM Cloud можна поекспериментувати з розпізнаванням голосу і переведення в текст, визначення сентиментальності мови або попрацювати з IBM Watson.

Висновок

Алгоритми які були розроблені 20 і 50 років тому (а то і більше) зараз знаходять своє ефективне застосування. Ще коли ми були в Mountain View нам казали що за Data Science майбутнє. З цією думкою я цілком погоджуюсь, аналіз даних застосовуватиметься на кожному кроці та кожним, можливо і не цілком явно. Чудовим прикладом є скандал з Facebook і виборами президента США.  Дані зібрані з ФБ допомогли побудувати передвиборчу програму Трампа.

Потрібно не відставати від прогресу і хоч трішки розібратися в цій сфері. Тут не все так ідеально. Нічого нового за останні роки не придумали, просто технології дійшли до того етапу що ці алгоритми можна ефективно використовувати.

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

Схожі статті

Leave a Reply

Your email address will not be published. Required fields are marked *