Профессия Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)
Data Scientist (дата-сайентист или датасаентист) обрабатывает и анализирует массивы больших данных (Big Data), чтобы с использованием алгоритмов машинного обучения найти в них новые связи и закономерности и построить прогнозную алгоритмическую модель, которую можно использовать для решения задач бизнеса, науки, повседневной жизни. Профессия подходит людям с аналитическим складом ума и способностями к математике. Кстати, недавно центр профориентации ПрофГид разработал точный тест на профориентацию, который сам расскажет, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.
Профессия подходит тем, кого интересует физика, математика и информатика (см. выбор профессии по интересу к школьным предметам).- Краткое описание
- Особенности профессии
- Разница между Data Scientist и другими Data-специалистами
- Плюсы и минусы профессии
- Место работы
- Важные качества
- Профессиональные знания и навыки
- Обучение на Data Scientist´а
- Курсы по Data Science
- Оплата труда
- Зарплата data scientist на ноябрь 2024
- Ступеньки карьеры и перспективы
- Видео: Новая специализация «Большие данные» – Михаил Левин
- Примеры компаний с вакансиями data scientist
Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.
С. Мальцева, В. Корнилов. НИУ ВШЭ
Профессия новая, актуальная и чрезвычайно перспективная. Термин Big Data появился в 2008 году. А профессия Data Scientist – «учёный по данным» официально зарегистрирована как академическая и межотраслевая в начале 2010 г. Хотя первое упоминание термина data science было отмечено в книге Петера Наура 1974 г., но в ином контексте.
Краткое описание
Data Scientist работает с Big Data (большими данными) – огромными массивами неструктурированной информации.
Массивы больших данных подразделяют на 3 вида:
- структурированные (например, данные кассовых аппаратов в торговле);
- полуструктурированные, или слабоструктурированные (сообщения email, статистика из трекеров событий: Yandex.Metrika, GAnalytics и т. д.);
- неструктурированные (видеофайлы, изображения, текстовые посты в соцсетях, метеорологические сводки, аудиозаписи, результаты спортивных матчей, базы геномов и многое другое).
Большая часть информации в Big Data – это неструктурированные или слабоструктурированные данные, что значительно усложняет их анализ. В работе с такими данными дата-сайентист пользуются методами математической статистики и машинного обучения (machine learning, ML).
Задача дата-сайентиста – проанализировать большие данные, чтобы на их основании сделать прогнозы. Какие именно – зависит от решаемой задачи. Результат работы Data Scientist′а – прогнозная модель, упрощённо, это программный алгоритм, который находит оптимальное решение поставленной задачи.
Благодаря работе дата-сайентистов бизнес может принимать взвешенные решения, основанные на разного рода данных, и опережать своих конкурентов, а продукты становятся более удобными и полезными для людей.
Особенности профессии
Обычные специалисты по статистике, системный аналитик или бизнес-аналитик по отдельности не могут обрабатывать массивы информации, которые относятся к категории Big Data. Для этого нужен профи с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях, – специалист по работе с данными, то есть Data Scientist.
Главные задачи Data Scientist´а:
- извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени;
- устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений.
Рабочиее место датасайентиста – не 1 компьютер и даже не 1 сервер, а кластер серверов.
Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество дата-сайентиста – это умение видеть логические связи в системе собранной информации и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для принятия правильных бизнес-решений.
Что делает Data Scientist
В разных компаниях задачи дата-сайентиста будут отличаться, но основные этапы работы похожи:
- Выяснить, что нужно заказчику.
- Оценить, возможно ли решить поставленную задачу методами машинного обучения (ML).
- Собрать данные для анализа, преобразовать их в формат, более удобный для работы по методике ML. (Если возможность применить ML есть, а если целесообразнее использовать методы математической статистики, визуализации, то задачу решает бизнес-аналитик.)
- Найти критерии оценки, чтобы выяснить, насколько эффективной будет модель, которую предстоит создать.
- Запрограммировать и «натренировать» модель ML.
- Оценить экономическую целесообразность применения этой модели (на этом этапе возможна помощь других специалистов – бизнес-аналитика, главного экономиста предприятия и др.).
- Внедрить модель в производство/продукт.
- Сопровождать внедренную модель – дорабатывать, если нужно, или адаптировать под текущие запросы заказчика.
Что можно сделать по такому шаблону? Очень много. Дата-сайентисты создали сотни сервисов, к которым мы давно привыкли и пользуемся каждый день. Алгоритмы поисковых систем, прогнозы погоды в смартфонах, голосовые помощники, программы распознавания лиц или изображений, рекомендательные алгоритмы, подбирающие видео и музыку или потенциальных друзей в соцсетях, чат-боты – всё это плоды трудов Data Scientist′ов.
В работе с данными Data Scientist использует:
- статистические методы;
- моделирование баз данных;
- методы интеллектуального анализа;
- искусственный интеллект для работы с данными;
- методы проектирования и разработки баз данных.
Разница между Data Scientist и другими Data-специалистами
С Big Data работают многие специалисты, но у каждого из них свои инструменты и цели.
Отличие Data Scientist от Business Analyst
Дата-сайентист и бизнес-аналитик (Business Analyst) делают выводы, опираясь на данные, но разница состоит в результате их работы. Data Scientist находит в данных связи и закономерности, чтобы создать прогнозную модель и предсказать результат. Фактически дата-сайентист смотрит в будущее. При этом он решает поставленную задачу технически, пользуясь алгоритмами и математической статистикой.
Бизнес-аналитика интересуют коммерческие метрики компании. Опираясь на статистику, он может оценить, к примеру, эффективность рекламы, динамику продаж за определенный период. Эту информацию из прошлого бизнес-аналитик может использовать для предложений, как улучшить показатели компании. Когда данных много и нужен основанный на них прогноз, то техническую сторону задачи помогает решить Data Scientist.
Итак, результат работы дата-сайентиста – алгоритмическая модель, код, написанный на основе анализа данных. Data Scientist – это технический специалист. Результат работы бизнес-аналитика – визуализированные рекомендации, как улучшить коммерческие показатели компании. Эти советы тоже делаются на основе анализа данных, но бизнес-аналитик погружается в бизнесовую составляющую задачи.
Отличие Data Scientist от Data Engineer
Оба специалиста – технические. Они делают данные качественными и доступными, часто работают в связке, поэтому их обязанности и зону ответственности нередко путают.
Data Scientist на основе потребностей бизнеса формулирует задачи анализа данных. Он знает, какие именно данные нужны, умеет находить в них закономерности (иногда не замеченные другими) и создает прогнозные модели, в случаях, когда можно и нужно применить методы ML. Дата-сайентист контролирует качество разработанной модели и оценивает эффект ее применения.
Data Engineer собирает данные, обеспечивает их качественную структуру, чтобы Data Scientist мог тренировать и внедрять алгоритмы и модели ML. Data Engineer может обработать гигантские объемы информации и добыть из них самое важное, он знает, как наладить регулярную выгрузку и интеграцию противоречивых или неполных данных из разных источников.
Итак, задачи Data-инженера и дата-сайентиста разные:
- Data Engineer предоставляет очищенные и структурированные данные дата-сайентисту, разрабатывает пайплайн поддержки алгоритма ML;
- Data Scientist тестирует гипотезы в системе данных, разрабатывает алгоритмы.
Data Scientist находит в данных коммерчески важную информацию для построения стратегии компании и изучает возможность использования ML. Data Engineer – командный работник, его задача – обеспечить высокую продуктивность бизнес-аналитиков, связывать членов команды разработки ПО.
Плюсы и минусы профессии
Плюсы:
- Профессия Data Scientist чрезвычайно востребованная в России и за рубежом, на рынке острый дефицит специалистов по данным такого уровня.
- Высокооплачиваемая профессия.
- Интересная работа для тех, кто увлечен IT-технологиями и математикой. Каждый проект по-своему уникален, поэтому работу не назовешь рутинной.
- Профессия Data Scientist´а обязывает быть всесторонне развитой, интеллектуальной личностью: надо быть в курсе трендов в экономике, торговле, культуре, образовании, социологии и многих других сферах жизни и главное – уметь анализировать их и делать выводы.
Минусы:
- Не каждый человек сможет освоить профессию Data Scientist´а, нужен особый склад ума.
- При построении моделей могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным, и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Data Scientist не имеет права сказать «нет» проблеме. Он должен найти способ, который поможет решить поставленную задачу.
- Большая ответственность: ошибки дата-сайентиста дорого стоят компаниям. Например, из-за просчётов в построении скоринговой модели (оценивает кредитоспособность) банк массово выдаст займы ненадёжным клиентам, которые не вернут деньги.
Место работы
Data Scientist – незаменимый сотрудник везде, где надо делать прогнозы, совершать сделки, оценивать риски. Основные сферы применения знаний и навыков дата-сайентистов:
- высокотехнологические отрасли производства;
- наука;
- IT (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
- медицина (автоматическая диагностика болезней);
- финансовые структуры (принятие решений о выдаче кредитов) и т. д.;
- телекоммуникации;
- транспорт;
- крупные торговые сети;
- сельское хозяйство;
- страхование;
- социология.
По сведениям Академии больших данных MADE Mail.ru Group и hh.ru, три основные сферы занятости Data Scientist′ов: ИТ (38 % вакансий), финансы (29 %), B2B (9 %).
Data Scientist может работать и со стартапами, и с транснациональными корпорациями. В небольших, начинающих бизнесах дата-сайентист обычно один и решает отдельные задачи. В крупных компаниях в сотрудничестве с аналитиками данных и бизнес-аналитиками, сисадминами, программистами, Data-инженерами, дизайнерами, менеджерами проектов Data Scientist занимается долгосрочными проектами.
Важные качества
- Аналитический склад ума.
- Трудолюбие.
- Настойчивость.
- Скрупулёзность, точность, внимательность.
- Способность доводить исследования до конца, несмотря на неудачные промежуточные результаты.
- Коммуникабельность.
- Умение объяснить сложные вещи простыми словами.
- Бизнес-интуиция.
Профессиональные знания и навыки
- Математика, матанализ, математическая статистика, теория вероятностей.
- Подготовка данных к анализу с использованием библиотек.
- Английский язык.
- Языки программирования, у которых имеются компоненты для работы с большими массивами данных: SQL, Java (Hadoop), C++(BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy). Чаще всего дата-сайентисты пользуются SQL, Python, а для сложных вычислений – C/C++.
- Статистические инструменты: SPSS, R, MATLAB, SAS Data Miner, Tableau и др.
- Основательное знание отрасли, в которой работает Data Scientist (например, если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств).
- Законы развития бизнеса.
Data Science – это использование научных методов в работе с большими данными для того, чтобы найти нужное решение. Data Scientist работает с данными так же, как учёный любой сферы знания. Он применяет математическую статистику, логические принципы и современные инструменты визуализации, чтобы получить результат. Он должен уметь анализировать и обобщать частные наблюдения, исключать случайности, отсеивать несущественные факты и делать верные выводы.
Коротко говоря, Data Scientist′у надо знать математику, матстатистику, один-два языка программирования, принципы машинного обучения и иметь представление о той отрасли, где всё это будет использоваться для работы с данными.
Обучение на Data Scientist´а
Data Scientist должен уметь программировать, работать со статистикой, пользоваться аналитическими методами. Всему этому учат в вузах на программах ИТ-направлений, несколько примеров:
- «Прикладная математика и информатика» (01.03.02), профили:
- «Прикладной анализ данных и искусственный интеллект» (НИУ ВШЭ, СПб);
- «Анализ и принятие решений» (НИУ ВШЭ, Москва);
- «Математические и компьютерные методы в прикладных разработках» (ВГУ, Воронеж);
- «Прикладная математика и информатика» (такой профиль есть в более чем 80 российских вузах).
- «Прикладная математика» (01.03.04), профили:
- «Применение математических методов к решению инженерных и экономических задач» (МИЭТ, УГАТУ, ВГУ, ДГТУ, ИжГТУ им. Калашникова, ОГУ);
- «Анализ данных» (МТУСИ, РТУ МИРЭА);
- «Математическое моделирование» (АлтГПУ, КнАГУ и др.).
- «Статистика» (01.03.05), профиль:
- «Аналитика и управление данными» (РЭУ им. Плеханова).
С бэкграундом разработчика легко за несколько месяцев перейти в дата-сайентисты. Профессионалам из других сфер будет сложнее, но зато у них есть важное конкурентное преимущество – глубокое понимание своей предметной области.
Как и в любой профессии, для Data Scientist´а важно самообразование. Для самостоятельной прокачки знаний и скиллов будут полезны:
- Machine Learning 101 – канал ML Youtube;
- YouTube-курс машинного обучения от «ШАД» Яндекса.
- курсы Udacity;
- курсы Dataquest, на которых можно стать настоящим профи в Data Science;
- 6-шаговые курсы Datacamp;
- обучающие видео O’Reilly;
- скринкасты для начинающих и продвинутых Data Origami;
- ежеквартальная конференция специалистов Moskow Data Scients Meetup;
- соревнования по анализу данных Kaggle.сom.
Курсы по Data Science
Оплата труда
Профессия Data Scientist одна из самых высокооплачиваемых в ИТ. В США оплата труда дата-сайентиста составляет $110–140 тыс. в год. В России зарплата Data Scientist´ов зависит от опыта работы, объёма обязанностей и региона. Начинающий специалист может рассчитывать на 70 тыс. руб. в Москве и 60 тыс. руб. в Санкт-Петербурге. С опытом работы от 3 лет зарплата повышается до 110–250 тыс. руб.
Ступеньки карьеры и перспективы
Как и все ИТ-специалисты, Data Scientist проходит карьерные ступени от джуниора до сеньора и тимлида. Каждый этап профессионального роста занимает примерно год-два. Дата-сайентист уровня Middle глубже понимает бизнес-задачи, ему по силам предложить лучшее решение для них. Чем больше опыта и выше карьерный уровень, тем меньше Data Scientist фокусируется на технических задачах: он подходит к проекту глобально и может оценивать его смысловую составляющую.
Профессия Data Scientist сама по себе уже достижение: для работы требуются серьёзные теоретические знания и практический опыт в нескольких ИТ-специальностях. В любой крупной компании или организации дата-сайентист – ключевая фигура. Чтобы достичь таких высот, надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.
Применение Data Science не ограничивается одной сферой. Можно обучать нейросети для поиска новых электронных частиц или кодов ДНК, а если захочется разнообразия, то перейти в совершенно другую отрасль и создать рекомендательный музыкальный сервис.
Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.
Видео: Новая специализация «Большие данные» – Михаил Левин