Бакалавры в -вышке будут изучать data science — студенческий портал

Сегодня data science — одно из самых востребованных ИТ-направлений, но возможность изучить «науку о данных» есть не у всех.

Фанат машинного обучения Харрисон Янсма уверен, что даже несмотря на отсутствие средств, главное — энтузиазм и настрой на успех.

alt

Узнай стоимость своей работы

Бесплатная оценка заказа!

Оценим за полчаса!

В статье на Medium он поделился советами, как составить индивидуальную программу изучения науки о данных, и инструментами, которые помогут сделать первые шаги на этом пути. dev.by публикует перевод статьи.

Под «data science» я имею в виду инструменты для обработки информации с целью применить её в прикладных решениях. Сюда относятся машинное обучение, технологии баз данных, статистика, программирование и специализированные технологии.

С чего начать

Интернет — это безграничный океан неструктурированной информации, и сориентироваться в ней бывает непросто. Но есть ресурсы, которые предлагают выжимку наиболее полезных материалов, например Dataquest, DataCamp или Udacity.

Каждый сайт имеет готовые учебные программы, последовательно охватывающие различные темы. Проблема в том, что не все желающие могут их себе позволить, к тому же они не учат применять понятия в рабочих проектах.

Также студенты должны придерживаться установленного плана и не могут переключиться на то, что им кажется более интересным.

Но есть бесплатные альтернативы вроде edX и coursera, которые предоставляют единичные курсы по конкретным темам. Они подойдут тем, кто хорошо усваивает информацию в формате видео или лекций.

На этом сайте можно найти список доступных курсов по науке о данных. Есть также бесплатные учебные планы, например в статье Дэвида Вентури, или же более традиционная программа обучения на Open Source DS Masters.

Если вам удобнее читать, книга «Data Science Наука о данных с нуля» Джоэла Граса содержит полноценную программу, которую можно дополнить онлайн-ресурсами. Книгу можно бесплатно скачать в формате pdf.

alt

Узнай стоимость своей работы

Бесплатная оценка заказа!
Читайте также:  Студенты смогут изучать отдельные курсы в других вузах - студенческий портал

Оценим за полчаса!

Это лишь некоторые ресурсы. Есть много других. В следующей части я приведу общую программу обучения, чтобы вы хорошо понимали, какие навыки вам нужно приобрести.

Учебная программа

Бакалавры в -Вышке  будут изучать data science - Студенческий портал

Программирование на Python

Программирование — главный навык специалиста по обработке данных. Освойте синтаксис Python, разберитесь, какими разными способами можно запускать программу на этом языке: через блокнот Jupyter, командную строку, IDE.

Примерно за месяц я прошёл руководство по Python, вот этот «путеводитель» по Python, и сложности программирования на этом языке на CodeSignal.

Подсказка: собирайте распространённые методы (алгоритмы) решения задач, которыми пользуются программисты.

Статистика и линейная алгебра

Это фундамент для машинного обучения и обработки данных. Если у вас уже есть глубокое знание этих дисциплин, отведите пару недель, чтобы повторить ключевые понятия.

Сделайте особый акцент на описательную статистику: умение понимать датасет стоит дороже золота.

Numpy, Pandas, & Matplotlib

Научитесь загружать, визуализировать данные и проводить над ними различные операции. Владение этими библиотеками будет для вас бесценно в будущих проектах.

Подсказка: не нужно зубрить название каждого метода или функции — это придёт с опытом. Если что-то забыли — загуглите.

Изучите руководства по Pandas, Numpy и Matplotlib. Не ограничивайтесь этими ресурсами: возможно, вам попадётся что-то более интересное.

И помните: единственный способ освоить библиотеки — использовать их практике.

Бакалавры в -Вышке  будут изучать data science - Студенческий портал

Машинное обучение

Изучите теорию по алгоритмам машинного обучения и как применять их. Отрабатывайте изучаемые методы на реальных данных, которые вам интересны.

Большинство новичков начинает с тренировочных датасетов из репозитория по машинному обучению от UCI. Экспериментируйте с данными и пользуйтесь пошаговыми руководствами.

В документации Scikit-learn есть отличные уроки по применению распространённых алгоритмов. Вот этот бесплатный образовательный подкаст содержит полезную теорию по машинному обучению. Его можно слушать в пути или во время тренировок.

Производственные системы

Получив должность специалиста по данным, вы будете применять данные об окружающем мире в прикладных решениях. Вам придётся научиться использовать вычислительные ресурсы компании для добычи, преобразования и обработки данных.

Объяснению этой части программы по науке о данных уделяют меньше всего внимания, в основном потому, что в каждой отрасли применяют определённые проблемно-ориентированные инструменты.

Однако навык управления базами данных является обязательным. Работе с базами данных с помощью кода можно научиться на ModeAnalytics или Codecademy. За небольшую сумму можно реализовать свою базу данных на DigitalOcean.

Ещё один навык, без которого часто нельзя обойтись — управление версиями. Для этого можно создать аккаунт на GitHub и делать ежедневные коммиты через командную строку.

Выбирая, какие технологии изучить, важно прислушиваться к себе и к тому, что вам самому хотелось бы узнать. Например, если вам нравится веб-разработка, беритесь за инструменты, которые используют компании в этой отрасли.

Советы по прохождению программы

1. Новая информация будет поступать быстрее, чем вы сможете её «переваривать»

Существуют тысячи сайтов и форумов, посвящённых популярным инструментам по обработке данных. Поэтому одна из проблем онлайн-обучения — вы начинаете быстро отвлекаться на постороннее.

Начиная разбирать ту или иную тему, не отступайте от намеченной цели, иначе будете перескакивать на любую попавшуюся на глаза ссылку.

Сохраняйте и систематизируйте интересующие вас веб-ресурсы. Так вы не потеряете материалы, которые нужно посмотреть позже, и сможете сосредоточиться на теме, которая наиболее важна в данный момент.

Бакалавры в -Вышке  будут изучать data science - Студенческий портал

Если всё делать правильно, вы выстроите последовательную программу самообучения, которая поможет вам придерживаться правильного курса. Вы не будете распыляться, и процесс пойдёт быстрее.

Ваш список материалов к прочтению очень скоро вырастет до сотен. Так и должно быть, поэтому

2. Не паникуйте. Это долгий путь, а не лёгкая прогулка

Самообучение — это погружение в бездонный колодец знаний. Если вы действительно хотите стать профессионалом в обработке данных, вам придётся учиться всю жизнь. Но помните, что это не самоцель, и главное — процесс обучения.

На пути к знаниям вы будете всё больше открывать и себя и понимать, к чему у вас лежит душа. И чем лучше вы будете понимать себя, тем больше удовольствия станете получать от обучения.

3. Выучили — применили — закрепили

Нельзя просто выучить одно новое понятие и сразу же браться за другое. И «выучить» здесь значит научиться применять его на практике.

Не обязательно делать отдельный проект по каждому понятию, но нужно справедливо оценивать свои способности и помнить, что вы учитесь для того, чтобы создать что-то важное для остального мира.

4. Соберите портфолио: по нему о ваших умениях будут судит другие люди

Сомнения — одно из самых трудных для преодоления препятствий в изучении науки о данных. Сомневаться в вас могут как окружающие, так и вы сами. Портфолио — визитная карточка, которая демонстрирует миру ваши способности и уверенность в своих навыках.

Насыщенное портфолио поможет вам получить работу и придаст уверенность в своей компетентности, и это — самое важное, чем вам нужно заняться в процессе обучения.

Наполните его проектами, которыми вы гордитесь, будь то построенное с нуля веб-приложение, ваш собственный аналог IMDB или любопытный анализ медицинских данных.

Подготовьте к ним чёткое описание, хорошо задокументируйте код. И само портфолио должно быть аккуратным. Вот моё портфолио.

Бакалавры в -Вышке  будут изучать data science - Студенческий портал

https://harrisonjansma.com/archive

Или можно создать репозиторий на GitHub с хорошим ReadMe-файлом (краткое резюме) и соответствующими файлами по проектам.

Вот пример симпатичного и простого портфолио на GitHub. Можно даже сделать отдельную страницу на GitHub.io.

5. Наука о данных + _________________ = карьера моей мечты

Пропуск заполните сами.

Data science позволяет создавать инструменты, которые изменяют мир. Одни специалисты по данным строят системы машинного зрения для анализа медицинских снимков, другие — обрабатывают миллиарды единиц информации, чтобы найти закономерности в поведении пользователей сайтов. Из всего множества вариантов применения науки о данных найдите то, что будет «зажигать» вас.

Когда тема вам кажется увлекательной, вы будете больше выкладываться, чтобы проект получился как можно лучше. Пока учитесь, ищите проекты или идеи, которые будут разжигать ваш энтузиазм.

Ищите общее в проектах, над которыми работаете с удовольствием. Не поленитесь изучить отрасли, которые связаны с такими проектами. Когда вы найдёте правильную отрасль, сосредоточьтесь на технических знаниях и навыках, необходимых конкретно в ней.

Тогда все вложенные в обучение силы и упорство станут основой успешной карьеры в деле, которое приносит вам настоящее удовольствие.

Заключение

Если вам нравится познавать мир и вы увлекаетесь искусственным интеллектом, дверь в науку о данных для вас открыта, в каком бы положении вы ни находились.

Будет непросто, и вам потребуется целеустремлённость и самодисциплина. Если вы способны заставить себя развиваться, то вполне сможете изучить всё самостоятельно. Ведь это и есть качества специалиста по данным: пытливый ум, мотивация и стремление найти ответы на свои вопросы.

Источник: https://dev.by/news/kak-izuchit-data-science

Как учат Computer Science в России и США

Первые строчки всех мировых рейтингов вузов в области компьютерных наук занимают американские университеты. Российские обычно находятся далеко за пределами первой сотни.

Тем не менее наши студенты нередко выигрывают чемпионаты мира по программированию или находят работу в ведущих IT-компаниях мира.

Александр Журавлев и умный поисковик образовательных программ StudyQA — об основных особенностях бакалаврских программ по компьютерным наукам в России и США.

Рассылка «Мела»

Мы отправляем нашу интересную и очень полезную рассылку два раза в неделю: во вторник и пятницу

На первый взгляд бакалаврские программы американских вузов могут показаться российским студентам не слишком интенсивными.

Во-первых, обучение длится три года вместо четырёх, а во-вторых, специализированных предметов обычно значительно меньше, чем в России.

Так нормальной академической нагрузкой в американских вузах считается 8-9 предметов в год. У нас же дисциплин бывает и в два раза больше.

Ещё одно важное отличие американских программ от большинства российских — возможность выбирать курсы самому.

В небольших колледжах разнообразие может быть не так уж велико, но в ведущих университетах у студентов обычно есть выбор между десятками различных курсов.

Для получения диплома обычно необходимо прослушать несколько общеобразовательных курсов, не связанных с направлением обучения, а также набрать определённое число кредитов по специализированным дисциплинам.

Помимо этого, во многих американских вузах не нужно выбирать специальность заранее: поступают в университет обычно по единому конкурсу, а с направлением обучения (Major) можно определиться уже после начала учёбы. Впрочем, чтобы лучше разобраться в том, чем всё же отличаются программы, рассмотрим примеры бакалаврских программ по компьютерным наукам в США и России.

Бакалавр по Computer Science в США: MIT и Стэнфорд

Бакалавры в -Вышке  будут изучать data science - Студенческий порталМассачусетский технологический институт (MIT)

Одна из лучших программ по компьютерным наукам в США — бакалавр в области Computer Science and Engineering, предлагаемая MIT (в рейтинге QS 2016 года по компьютерным наукам этот университет занимает первое место в мире). Кроме того, это ещё и самая популярная бакалаврская программа в MIT, что, впрочем, неудивительно — средняя зарплата выпускников по этой специальности составляет $90 000 в год.

Все студенты MIT, независимо от специализации, должны прослушать несколько общеобразовательных предметов: математику, физику, биологию и химию (в каждой области можно выбрать из нескольких курсов), а ещё два курса по гуманитарным или социальным наукам.

Кроме того, в MIT существует специальное требование, связанное с развитием коммуникационных навыков.

Как минимум четыре курса должны включать в себе интенсивную устную или письменную коммуникацию — например, гуманитарные курсы, где студентам нужно регулярно писать эссе или готовить презентации.

Для получения специализации в области компьютерных наук студенты должны прослушать один вводный курс (по робототехнике, программному обеспечению, коммуникационным сетям или медицинским технологиям), один базовый курс по программированию (введение в программирование на Python), набор обязательных предметов: «Вычислительные структуры», «Введение в алгоритмы», «Основы программирования», «Создание программного обеспечения», «Инжиниринг компьютерных систем», «Искусственный интеллект» или «Введение в машинное обучение» и «Дизайн и анализ алгоритмов».

Зачем гуманитариям изучать программирование и математику

Обычно университеты позволяют студентам зачесть некоторые предметы в том случае, если они уже изучались в старшей школе.

Для этого в США существует специальная программа (AP), в рамках которой успешные школьники могут изучать предметы из университетской программы.

Так, например, студенты бакалаврской программы Стэнфорда должны прослушать базовый курс по математическому анализу, однако большинство из них уже проходили этот материал в школе, поэтому могут зачесть результаты экзаменов вместо того, чтобы посещать курс.

Помимо математического анализа, бакалавры в Стэнфорде должны изучить ещё четыре математических дисциплины: два курса из цикла «Математика для компьютерных наук» и два электива на выбор студента.

Кроме того, обязательно изучение физики (два курса — по механике и электричеству и магнетизму) и естественных наук — здесь можно выбрать любой курс из весьма широкого списка, в котором есть, например, геология, химия и молекулярная биология.

Шесть курсов обязательны для всех студентов, желающих получить степень бакалавра в области компьютерных наук: «Абстрактное программирование», «Устройство и организация компьютерных систем», «Принципы компьютерных систем», «Математические основания вычислений», «Введение в теорию вероятностей», «Данные и алгоритмы». Также студенты должны выбрать специализацию, или «трек» (например, искусственный интеллект или графика), который включает себя 6-7 курсов.

Бакалавриат по прикладной математике и информатике в России: МФТИ

Бакалавры в -Вышке  будут изучать data science - Студенческий порталМосковский физико-технический институт (МФТИ)

Бакалаврское образование в России гораздо менее вариативно: например, программа по прикладной математике и информатике на факультете инноваций и высоких технологий (ФИВТ) МФТИ на протяжении первых пяти семестров не предполагает курсов по выбору. За четыре года студенты изучают больше 20 математических дисциплин. В этом отношении подготовка гораздо более интенсивная, чем в США, где бакалавры обычно изучают от трёх до пяти математических курсов. Кроме того, если в США у бакалавров обычно бывает не больше пяти курсов в семестр, то в МФТИ студенты одновременно изучают 8-10 курсов. До шестого семестра предметов по выбору не существует — программа одинакова для всех студентов.

Читайте также:  Кто приходит в 1 класс: галерея типичных портретов первоклассников - студенческий портал

Набор курсов по компьютерным наукам в МФТИ похож на тот, что предлагается в американских университетах, только порядок и количество курсов жёстко закреплены учебным планом.

На первом курсе студенты изучают «Введение в программирование», после чего следуют «Базы данных», «Архитектура компьютеров и операционные системы», «Объектно-ориентированное программирование», «Алгоритмы и структуры данных», «Формальные языки и трансляции», «Программирование на Java», «Функциональное программирование», «Параллельные алгоритмы» и «Машинное обучение». Бакалаврам положены три курса по физике, а на последних курсах студенты также изучают предметы в соответствии с кафедрой, которую они выбрали.

5 неожиданных трендов в IT-образовании

Отличия между лучшими американскими и российскими вузами довольно значительны: в США студентам предоставляется выбор между разнообразными вариантами, хотя часть базовых предметов все равно является обязательной.

Вопреки существующим представлениям, американским студентам иногда нужно изучать не меньше общеобразовательных курсов, чем российским.

Однако и в этом случае у них есть возможность выбора из довольно внушительного списка конкретных дисциплин.

Перспективы трудоустройства

Как в России, так и в США, компьютерные науки — одна из самых бурно развивающихся областей экономики, поэтому поиск весьма неплохо оплачиваемой работы (при наличии необходимых навыков и образования) должен оказаться проще, чем для представителей других специальностей.

Например, выпускники МФТИ, работающие в IT-сфере, по статистике Superjob, зарабатывают в среднем 130 000 рублей в месяц (речь идёт о выпускниках с опытом работы от года до пяти лет). Выпускники МИФИ и МГТУ им.

 Баумана могут рассчитывать на 100 000 рублей в месяц, МГУ — 90 000 рублей, ИТМО — 87 000.

При этом возможности, открывающиеся перед выпускниками ведущих американских вузов, конечно, несколько более радужные — это в первую очередь связано с тем, что большая часть ведущих IT-компаний находится именно в США. Среднестатистический выпускник бакалавриата по специальности Computer Science может рассчитывать на зарплату в $60 000 в год, а выпускник одного из ведущих вузов — примерно в полтора раза больше.

Конечно, не стоит забывать и о том, что российские выпускники вполне могут составить конкуренцию своим американским коллегам.

Можно как поступить на PhD программы в США, так и устроиться на стажировку или работу сразу после окончания университета.

Такой путь может быть не всегда простым, однако нехватка квалифицированных кадров диктует свои правила: IT-компании сегодня готовы нанимать высококлассных специалистов с любым гражданством.

  • Всё, что нужно знать для поступления в зарубежный вуз
  • 10 московских вузов с самыми высокими стипендиями
  • Чем полезен годовой перерыв перед поступлением

Источник: https://mel.fm/kompyuternyye-nauki/3519278-comp_science

Как работать в Data Science без ученой степени

Привет, я хочу рассказать вам, как стать Data Scientist, не имея диплома (или просто бесплатно). По иронии судьбы, у меня есть диплом, и он даже имеет отношение к Data Science (Магистерская программа в Северо-Западном университете). Но до этого я работал бухгалтером в Deloitte.

Странно, да? Я был далек от Data Science и всего технического. Мне приходилось много изучать онлайн самостоятельно после работы и даже во время магистратуры, чтобы догнать однокурсников, так как я пришел не из технической сферы.

Как человек, прошедший через все это, могу с уверенностью сказать, что обучение в университете очень помогает, но совсем не обязательно. Мне кажется, раз я побывал по обе стороны — и диплом получил, и онлайн учился — я смогу дать вам особый взгляд.

Получение магистерской степени в Data Science — хороший и быстрый способ попасть в эту сферу, но, к счастью, вовсе не единственный, особенно, если вы не хотите тратить $60–90 тысяч на обучение. Однако от вас потребуется строгая самодисциплина.

Если кто-то спросит меня, как попасть в Data Science, этот пост будет для них. Надеюсь, что мои советы будут актуальны и полезны; во время моего обучения мне очень помогали эти ресурсы. Прежде, чем мы углубимся в детали, давайте разберемся, что такое Data Science.

Чем занимается Data Scientist?

Пропустите этот пункт, если вы это уже знаете.

Ну, исходя из моего опыта работы Data Scientist в нескольких компаниях вроде GoDaddy, HERE, и GoGo, Data Scientist решает задачи с помощью машинного обучения в Big Data.

Несколько примеров: предсказать вероятность отказа клиента от подписки, выявить ошибки в данных, вычислительный специальный анализ гигабайт и терабайт данных, кластеризация клиентов по смысловым группам, аналитика текста при определении тем в расшифровках чатов онлайн поддержки, расчет предполагаемых доходов, и так далее до бесконечности.

Как Data Scientist вам придется продираться через множество разных проблем. Чтобы быть компетентным, нужно иметь хорошее знание математики, статистики и программирования.

Вам нужно знать, когда и какие именно техники и алгоритмы использовать в зависимости от проблемы и имеющихся данных.

Ну и наконец, вам часто придется представлять результаты использования соответствующих методов руководителям и другим людям, не связанным с этой сферой.

Кроме того, как Data Scientist вам нужно будет постоянно учиться и подстраиваться. Так как эта сфера очень быстро развивается, важно всегда держать руку на пульсе и быть в курсе новых методик. Даже сейчас я трачу много времени на обучение.

Что нужно, чтобы стать data scientist (без траты средств)

Бакалавры в -Вышке  будут изучать data science - Студенческий порталБесплатные онлайн-ресурсы.

Тебя привлекает работа в Data Science? Замечательно. Мы живем в прекрасное время, когда все можно изучать бесплатно. Я пытался сосредоточиться на бесплатных или дешевых вариантах — кто не любит бесплатные штуки? Просто это требует усидчивости и упорства. Я разделю весь процесс на три этапа.

Не забывайте, что есть и другие прекрасные ресурсы помимо тех, что я упомяну ниже. Но сам я пользовался именно этими.

1 этап: детство

Чтобы быть хорошим Data Scientist, нужно разбираться в программировании, статистике и математике. Я советую посмотреть как минимум это:

  • Университетский курс введения в computer science (в моем случае это был С++).
  • Менее сложные университетские курсы по математике: такие как многовариантные исчисления, дифференциальные уравнения, линеарная алгебра. Это очень поможет вам понимать элементарные математические процессы в глубинном обучении, например, обратное распространение и матричные операции.
  • Университетский курс введения в статистику и вероятности поможет разобраться с R.

Прелесть в том, что проходить их можно не только в университете. Чтобы прокачать эти скилы онлайн, я рекомендую:

Примеры того, на что способны Data Science, можно посмотреть на Kaggle.com, где ребята изучают и соревнуются в Data Science-проектах. Кроме того, на DataCamp.com есть практические пособия по множеству тем в Data Science — и на R, и на Python.

К концу 1 этапа вы должны хорошо разбираться в простых техниках машинного обучения вроде логистической/линеарной регрессии, деревьев решений на R или на Python. Вообще, я советую выучить и R, и Python. Конечно, в большинстве случаев я использую Python, но знать полезно оба, чтобы применять их в зависимости от проблемы, которую нужно решить.

2 этап: отрочество

Сейчас вы уже должны лучше разбираться в Data Science и статистических методах. На 2 этапе вам уже хочется пойти дальше и получше разобраться с машинным обучением. Я понял, что онлайн-ресурсы типа Coursera обычно не охватывают тему так же глубоко, как курсы университетского уровня. К счастью, Stanford’s AI Lab выкладывает много классных онлайн-курсов.

Так что вы можете смотреть лекции мирового уровня, комментарии к ним и еще много материалов по теме абсолютно бесплатно. Поэтому советую по возможности смотреть курсы на Coursera и Стэндфордские лекции одновременно. Например, DeepLearning.

ai на Coursera очень хорош для понимания практической стороны глубинного обучения, а курс Stanford’s CS231n Computer Vision— рассматривает все гораздо глубже.

На этом этапе пройдите курсы:

Повторюсь, есть и другие ресурсы типа DataCamp, Udacity, edX, and fast.ai, на которых можно найти информацию по множеству тем.

3 этап: юность

На этом этапе вам нужно готовиться к собеседованиям и продолжать изучать новые и углубляться в уже знакомые темы. Если вы чувствуете себя уверенно со всеми темами 2 этапа, то, думаю, вы уже готовы для подачи заявления на невысокие должности. Хотя есть еще несколько моментов, чрезвычайно важных для успешного прохождения собеседования.

Во-первых, личные проекты. Если вы учитесь на программе Data Science, большая часть курсов посвящена выполнению проектов по машинному обучению — они хороши и для практики навыков, и для иллюстрации ваших способностей работодателю.

Поэтому я очень советую попробовать себя в сторонних проектах. Самый простой путь — Kaggle. Еще, даже если этого нет в требованиях, не помешает иметь на Github примеры ваших кодов и проектов, чтобы показать их вашему будущему начальству.

Во-вторых, скорее всего вам будут задавать вопросы по SQL. Когда я только начинал работать в GoDaddy, я мало что знал о SQL. К собеседованию я немного полистал W3Schools.

com, CodeAcademy и погуглил частые вопросы на собеседованиях по SQL. Зависит от компании но, знания по машинному обучению и программированию в любом случае ценятся больше, чем SQL. Этому довольно легко научиться на работе.

Здесь Leetcode.com можно потренироваться в SQL и программировании.

Ну и наконец, к завершению этого этапа вы должны обладать необходимыми знаниями, чтобы разбираться в самых разных темах машинного обучения. На чем именно сосредоточиться — будь это RNN, CNN, NLP или что угодно еще — только ваше дело. Что касается меня, сейчас я пытаюсь разобраться в обучении с подкреплением (reinforcement learning).

Заключение

Это был мой первый пост на Medium и я очень надеюсь, что он был вам полезен. Я постарался сосредоточиться на курсах, которые можно пройти, а не на конкретных инструментах или Python/R библиотеках, которые нужно знать, потому что в этих курсах о них так или иначе расскажут.

Если вы хотите посмотреть примеры кодов в машинном обучении, зайдите на мой репозиторий Github, в который я регулярно выкладываю все новое, что узнаю. Я планирую и дальше выкладывать новости о проектах, над которыми работаю, и вообще рандомные мысли на Medium!

Источник

Источник: https://datastart.ru/blog/read/kak-rabotat-v-data-science-bez-uchenoy-stepeni

Анализ данных: куда пойти учиться

AboutData публикует список образовательных курсов и полезных ссылок для тех, кто хочет развиваться в сфере анализа больших данных.

Бакалавриат

Бакалавриат «Анализ данных» МФТИ и «Яндекса»

Поступить может любой студент ФИВТ (Факультет инноваций и высоких технологий в МФТИ), окончивший 2 курс и прошедший конкурсный отбор по среднему баллу обучения.

Технопарк Mail.ru Group и МГТУ им. Баумана

Поступить могут студенты или аспиранты любого курса и факультета МГТУ.

Магистратура

  • МГУ, магистерская программа «Интеллектуальный анализ больших данных»
  • Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования).
  • МГУ, магистерская программа «Большие данные: инфраструктуры и методы решения задач»
  • Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования).
  • ВШЭ, магистерская программа «Науки о данных»

Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.

Олимпиада проводится ежегодно в феврале-марте, в ней могут принять участие студенты, завершающие обучение по образовательным программам высшего профессионального образования, а также лица с высшим образованием, имеющие степень бакалавра или специалиста.

ВШЭ, магистерская программа «Интеллектуальный анализ данных»

Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов. Документы принимаются с 1 июня по 20 июля 2017 года включительно. Участие в Олимпиаде бесплатное. Время проведения: 18-19 марта 2017 года. Регистрация откроется в декабре 2016 года.

ВШЭ, магистерская программа «Системы больших данных»

Обучение ведется на английском языке. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.

Олимпиада проводится ежегодно в феврале/ марте, в ней могут принять участие студенты, завершающие обучение по образовательным программам высшего профессионального образования, а также лица с высшим образованием, имеющие степень бакалавра или специалиста.

  1. Магистратура «Анализ данных» МФТИ и «Яндекса» 
  2. Поступить в магистратуру может любой студент, имеющий диплом бакалавра или специалиста и прошедший отбор в Школу анализа данных «Яндекса».
  3. ИТМО, Экстренные вычисления и обработка сверхбольших объемов данных 

Обучение ведется на английском языке. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования), владеющий численными методами и технологиями программирования. Зачисление производится на конкурсной основе по результатам сдачи междисциплинарного экзамена.

  • СПБГУ, магистратура «Исследование операций и системный анализ»
  • Поступить может бакалавр или специалист, владеющий численными методами и технологиями программирования.
  • МФТИ, магистратура кафедры «Интеллектуальные системы»
  • Правила приема студентов описаны здесь.

Профессиональная переподготовка

Онлайн-программа профессиональной переподготовки от Санкт-Петербургского Академического университета РАН и Института биоинформатики

Чтобы поступить на программу достаточно иметь аккаунт на платформе Stepik.org и оплатить обучение. Студенты получают диплом о профессиональной переподготовке СПбАУ РАН.

Диплом выдается только при наличии документа о высшем или среднем специальном образовании на момент завершения программы.

В дипломе будет указано, что получивший может вести профессиональную деятельность по специальности «Анализ данных».

Офлайн-курсы

Школа анализа данных «Яндекса», отделения «Анализ данных», «Компьютерные науки» и «Большие данные»

Рассчитана на студентов и выпускников инженерных и математических специальностей, готовых несколько раз в неделю посещать вечерние занятия. Требуется хорошая математическая подготовка. Можно учиться заочно.

Программа «Специалист по большим данным» New Professions Lab в Digital October

Для поступления необходимо уметь программировать на языках высокого уровня (в частности на Python 2), базовые знания Linux, понимание принципов работы языка запросов SQL и знание теории вероятностей и статистики в объеме 1-2 семестров технического вуза.

Онлайн-курсы

  1. Новичкам
  2. На русском языке
  3. На английском языке

Полезные ссылки новичкам

Сообщества

Книги

  • На русском языке
  • На английском языке
  • Статистика и машинное обучение:
  • Временные ряды:
  • Нейронные сети:
  • I.Goodfellow, Y.Bengio, A.Courville. Deep Learning. 2016

Источник: https://aboutdata.ru/2017/02/12/bigdato/

Как устроена онлайн-магистратура Вышки по наукам о данных — Академия Яндекса

Совместно с Яндексом Высшая школа экономики открыла набор в англоязычную онлайн-магистратуру по data science на платформе Coursera.

Помимо курсов и домашних заданий студентов ждет работа над проектами и общение с представителями науки и индустрии.

Академические руководители программы Евгений Соколов и Владимир Подольский рассказали о том, чего ждать от новой магистратуры и с какими вызовами они столкнулись во время разработки программы.

Как устроены онлайн-магистратуры

Онлайн-магистратуры — популярное направление в современном образовании. За последние годы этот формат стал очень востребован. Он решает ряд проблем, которые возникают у онлайн-курсов.

Студенты активно вовлекаются в научную и проектную деятельность, а не предоставлены сами себе.

Читайте также:  Колонка родителей: наши пальчики устали - студенческий портал

Это полноценная учебная программа со множеством дисциплин, общением с преподавателями и дипломом международного образца.

Наша главная задача — организовать учебный процесс так, чтобы студенты чувствовали, что они учатся в университете, а не просто заплатили за курсы на Coursera и слушают их холодными зимними вечерами.

У всех слушателей всегда есть возможность пообщаться с преподавателями в формате онлайн-вебинаров и в специальных чатах. Важной составляющей общения становится проектная деятельность.

Особенности онлайн-магистратуры Вышки

Наши конкурентные преимущества — это цена и не слишком высокий порог входа.

Программа устроена так, что даже человек с непрофильным бакалаврским образованием может прийти к нам учиться и после магистратуры найти работу в области анализа данных.

Наверняка мы столкнемся с трудностями, связанными с тем, что у наших студентов разный бэкграунд и разный багаж знаний. Но у нас есть опыт проведения майнора по анализу данных в Вышке для людей с совершенно разным бэкграундом.

Поступление 

Наши формальные требования к поступающим включают только наличие бакалаврского диплома. Но важнее всего экзамен, на котором проверяется математическая подготовка: базовые знания, умение строго рассуждать и алгоритмически мыслить.

Дело в том, что мы ожидаем увидеть среди наших студентов людей из разных стран с совершенно разными традициями преподавания математики в университете. Поэтому мы проверяем не столько знания, сколько умение рассуждать.

Мы не собираемся проверять, умеет ли студент программировать, требуется только базовое алгоритмическое мышление.

Набор будет проводиться дважды в год: в феврале и сентябре.

Программа магистратуры

Первый семестр рассчитан на то, чтобы дать студентам необходимую базу. Мы учим их высшей математике, которая требуется для анализа данных, и программированию на Python.

Курсы первого семестра включают всё, что нужно для начала работы в области анализа данных.

Это очень интенсивная подготовка, но наш опыт показывает, что именно так бакалавров можно вывести на подходящий уровень за короткое время.

После этого студент выбирает одно из трех направлений:

  • Data scientist — в первую очередь про машинное обучение, глубинное обучение и их приложения. Но анализ данных — это ещё и сбор данных, их подготовка и грамотная валидация моделей. Такие навыки тоже будут даваться в рамках этого направления.
  • Machine Learning Engineer — сделано с уклоном в разработку, написание эффективного кода, проектирование крупных систем и сервисов.
  • Researcher in Data Science — предназначено для тех, кто хочет после магистратуры заняться наукой, или хочет применять научные знания в индустрии.

Практически все курсы предполагают работу над проектом. К примеру, в курсе по дискретной математике студенты будут работать с графом социальной сети, а на курсе по анализу текстов студенты делают диалоговую систему.

Помимо этого магистратура предполагает три больших проектных курса. Это не только лекции, но, например, и постепенное создание большого продукта, который будет не стыдно показать работодателю.

Защита диплома — тоже один из проектов.

Либо студент решает какую-то из стандартных задач и защищает по ней диплом, либо он получает оригинальное задание и научного руководителя из Вышки или из индустрии, особенно если речь идет про научный трек.

Яндекс выступает индустриальным партнером магистратуры, сотрудники компании участвуют в разработке курсов и сами преподают. Существенно, что Яндекс помогает с данными и задачами для студентов, нам важна актуальность заданий, которые мы будем давать. Также в планах компании пригласить на собеседование наших лучших выпускников — тех, кто окажется в топе рейтинга.

Источник: https://academy.yandex.ru/posts/kak-ustroena-onlayn-magistratura-vyshki-po-naukam-o-dannykh

Как стать экспертом в Data Science: пошаговый план обучения

Мало кто может предсказывать события до ста процентов верно. Но дата-сайнтисты научились. А мы нашли последние тренды Data Science и составили план для тех, кто хочет глубоко изучить эту область.

Выбор языка

Сейчас в науке о данных используются два основных языка: Python и R. Язык R применяется для сложных финансовых анализов и научных исследований, потому его глубокое изучение можно отложить на потом.

На начальном этапе можно остановиться на изучении основ:

  • нюансы работы RStudio;
  • библиотеки Rcmdr, rattle и Deducer;
  • типы данных контейнеров, векторы и первичные типы данных;
  • factors, структуры и матрицы.
  • Быстро разобраться в теории языка R поможет сайт Quick-R.
  • Python популярен больше: на нём проще научиться писать код и для него написано множество пакетов визуализации данных, машинного обучения, обработки естественного языка и сложного анализа данных.
  • Что важно освоить в Python:
  • функции, классы, объекты;
  • структуры данных;
  • базовые алгоритмы и библиотеки;
  • качественную отладку и тестирование кода;
  • Jupyter Notebook;
  • Git.

Чтобы освоить базовые понятия Python, у вас уйдёт примерно 4-6 недель при условии, что вы будете тратить на изучение 2-3 часа в день.

Где можно освоить: в Skillfactory.

Библиотеки для Python

NumPy

NumPy — библиотека научных вычислений. От неё зависит почти каждый пакет Python для Data Science или Machine Learning: SciPy (Scientific Python), Matplotlib, Scikit-learn.

NumPy помогает выполнять математические и логические операции: например, в ней содержатся полезные функции для n-массивов и матриц. А ещё библиотека поддерживает многомерные массивы и высокоуровневые математические функции для работы с ними.

Зачем нужно знать математику? Почему компьютер не может сам всё посчитать?

Часто методы машинного обучения используют матрицы для хранения и обработки входных данных. Матрицы, векторные пространства и линейные уравнения — всё это линейная алгебра.

Чтобы понимать, как работают методы машинного обучения, нужно хорошо знать математику. Поэтому будет лучше пройти весь курс алгебры целиком: самостоятельно или с наставниками.

Кроме того, математика и математический анализ важны для оптимизации процессов. Зная их, проще улучшать быстроту и точность работы моделей машинного обучения.

Что важно освоить:

  • основу линейной алгебры: линейные комбинации, зависимость и независимость, векторные точки и векторное произведение, матричные преобразования, матричное умножение,
  • обратные функции;
  • массивы;
  • обработку математических выражений и статических данных;
    визуализации через Matplotlib, Seaborn или Plotly.

Где можно подтянуть знания по NumPy: официальная документация.

Где можно подтянуть знания по алгебре: Calculus (глава 11), курс по математике для Data Science.

Pandas

Pandas — библиотека с открытым исходным кодом, построенная на NumPy. Она позволяет выполнять быстрый анализ, очистку и подготовку данных. Такой своеобразный Excel для Python.
Библиотека хорошо умеет работать с данными из разных источников: листов Excel, файлов CSV, SQL, веб-страниц.

Что важно освоить:

  • чтение и запись множества различных форматов данных;
  • выбор подмножеств данных;
  • поиск и заполнение недостающих данных;
  • применение операций к независимым группам в данных;
  • преобразование данных в разные формы;
  • объединение нескольких наборов данных вместе;
  • расширенную функциональность временных рядов.

Где можно подтянуть знания по Pandas: Pydata.

Базы данных и сбор информации

Если вы уже знакомы с Python, Pandas и NumPy, можете приступать к изучению работы с базами данных и парсингу информации.

SQL

Несмотря на то, что NoSQL и Hadoop уже пустили корни в науку о данных, важно уметь писать и выполнять сложные запросы на SQL.

Часто необработанные данные — от электронных медицинских карт до истории транзакций клиентов — находятся в организованных коллекциях таблиц, которые называются реляционными базами данных. Чтобы быть хорошим специалистом по данным, нужно знать, как обрабатывать и извлекать данные из этих баз данных.

Нужно научиться:

  • добавлять, удалять и извлекать данные из баз данных;
  • выполнять аналитические функции и преобразовывать структуры баз данных;
  • PostgreSQL;
  • MySQL;
  • SQL Server.

Хорошо структурированный курс по работе с SQL можно пройти здесь: SkillFactory.

Парсинг информации

Важно:

  • уметь использовать методы find и find_all в парсинге страниц с помощью Beautiful Soup;
  • понять, как работает перебор элементов и сохранение переменных в Python;
  • работать с get-запросами и взаимодействовать с API.

Алгоритмы

Быть программистом без знания алгоритмов страшно, а Data Scientist’ом — опасно. Так что если вы уже освоили Python, Pandas, NumPy, SQL и API, пора учиться применять эти технологии для исследований.

  1. Скорость работы хорошего специалиста часто зависит от трёх факторов: от поставленного вопроса, объёма данных и выбранного алгоритма.
  2. Потому на этом этапе важно понять алгоритмы и структуры данных Беллмана-Форда, Дейкстры, двоичного поиска (и двоичные деревья как инструмент), поиска в глубину и ширину.
  3. Подтянуть знания поможет Tproger (алгоритмы, структуры данных) и Khan Academy.

Машинное обучение и нейронные сети

Пора применять полученные навыки к решению реальных задач. До этого этапа важно знать математику: поиск, очистку и подготовку данных, построение моделей с точки зрения математики и статистики, их оптимизацию средствами матанализа — вот это всё.

Реальные задачи чаще всего решаются с помощью серьёзных библиотек вроде TensorFlow и Keras.

Нужно освоить:

  • предобработку данных,
  • линейную и логистическую регрессию,
  • кластеризацию и обучение без учителей,
  • анализ временных рядов,
  • деревья принятия решений,
  • рекомендательные системы.

Дополнительно закрепить знания о машинном обучении можно здесь: Машинное обучение от Эндрю Ына.

Заключение

Стать экспертом в Data Science непросто: приходится изучать множество инструментов и быть гибким, чтобы вовремя узнавать о трендах.

Хорошая стратегия — получить базу по Data Science на фундаментальном курсе, а новые инструменты и технологии изучать, решая практические задачи на работе.

Источник: https://tproger.ru/curriculum/data-science-expert-plan/

Подтяни бигдату. Курсы и полезные ссылки по теме data science | Rusbase

Бакалавриат «Анализ данных» МФТИ и «Яндекса» Есть бюджетные места

Обучение осуществляется на 3 и 4 курсах МФТИ. Поступить может студент Факультета инноваций и высоких технологий МФТИ, окончивший 2 курс и прошедший конкурсный отбор по среднему баллу обучения.

Технопарк Mail.ru Group и МГТУ им. Баумана Бесплатно

Поступать могут студенты любых курсов и аспиранты без ограничения по кафедре или факультету. Набор проходит 2 раза в год, в феврале и в сентябре.

Вузы, магистратура

  • МГУ, Магистерская программа «Интеллектуальный анализ больших данных» Есть бюджетные места
  • Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования).
  • МГУ, магистерская программа «Большие данные: инфраструктуры и методы решения задач» Есть бюджетные места
  • Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования).
  • ВШЭ, Магистерская программа «Науки о данных» Есть бюджетные места
  • Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
  • ВШЭ, Магистерская программа «Интеллектуальный анализ данных» Есть бюджетные места
  • Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.
  • ВШЭ, Магистерская программа «Системы больших данных» Есть бюджетные места

Обучение ведется на английском языке. Поступление на программу возможно на общих основаниях (по результатам вступительных экзаменов) или по олимпиаде для студентов и выпускников вузов.

  1. Магистратура «Анализ данных» МФТИ и «Яндекса» Есть бюджетные места
  2. Поступить в магистратуру может любой студент, имеющий диплом бакалавра или специалиста и прошедший отбор в Школу анализа данных «Яндекса».
  3. ИТМО, Экстренные вычисления и обработка сверхбольших объемов данных Платно

Обучение ведется на английском языке. Поступить может бакалавр или специалист (желательно по направлениям прикладной математики, информационных технологий и программирования), владеющий численными методами и технологиями программирования. Зачисление производится на конкурсной основе по результатам сдачи междисциплинарного экзамена.

  • Магистратура «Яндекса» в СПБГУ Есть бюджетные места
  • Поступить на кафедру может любой бакалавр или специалист, успешно прошедший собеседование и имеющий высокий средний балл диплома.
  • Магистратура кафедры «Интеллектуальные системы» в МФТИ Есть бюджетные места
  • Для участия в программе нужно одновременно поступить в магистратуру МФТИ и Школу анализа данных.
  • «Компьютерная алгебра» от «Яндекса» и мехмата МГУ Есть бюджетные места
  • Для обучения требуется одновременно поступить в ШАД и магистратуру.

Вузы, профессиональная переподготовка

Онлайн-программа профессиональной переподготовки от Санкт-Петербургского Академического университета РАН и Института биоинформатики Платно

Студенты получают диплом о профессиональной переподготовке СПбАУ РАН. Диплом выдается только при наличии документа о высшем или среднем специальном образовании на момент завершения программы.

Офлайн-курсы

Школа анализа данных «Билайн»Платно

Есть программа для продвинутых пользователей (знакомы с математической статистикой и имеют опыт программирования на языке Python), а также для менеджеров (для тех, кто не обладает глубокими знаниями в математике и анализе).

Курс состоит из 12 занятий. Все участники соревнуются между собой в течение обучения. Финал — реальное состязание на Kaggle. Занятия проходят в Москве в главном офисе «Билайн» по адресу ул. Краснопролетарская, д. 4, ближайшая станция метро «Новослободская». 

Про большие данные в телекоме

Все телеком-компании начнут обрабатывать свои данные. При этом у всех будут разные системы, процессы и оргструктуры.

У всех будут одни и те же вызовы, связанные с поиском аналитиков, поиском успешных кейсов и обеспечения эффективности работы подразделений big data.

Направления будут похожие: отток, целевой маркетинг, антифрод, персонализация и профилирование, геоаналитика.

Набрав команды и достигнув какого-то уровня успешности на внутренних кейсах, операторы, скорее всего, захотят использовать уже имеющиеся у них мощности как компьютеров, так и аналитики, для работы с чужими данными и аналитических исследований под заказ.

Школа анализа данных «Яндекса», отделения «Анализ данных», «Компьютерные науки» и «Большие данные» Бесплатно

Рассчитана на студентов и выпускников инженерных и математических специальностей, готовых несколько раз в неделю посещать вечерние занятия. Требуется хорошая математическая подготовка. Можно учиться заочно.

Программа «Специалист по большим данным» New Professions Lab в Digital October Платно

Для поступления необходимо уметь программировать на языках высокого уровня (в частности на Python 2), базовые знания Linux, понимание принципов работы языка запросов SQL и знание теории вероятностей и статистики в объеме 1-2 семестров технического вуза.

Онлайн-курсы

  1. Новичкам
  2. Курсы на Dataquest Бесплатно
  3. Курсы на DataCamp Бесплатно
  4. На русском языке
  5. Ключевые концепции анализа данных от ВШЭ Бесплатно
  6. 9 курсов по data science от Университета Джонса Хопкинса Платно
  7. Анализ данных в R Бесплатно
  8. Машинное обучение и анализ данных от МФТИ Платно
  9. На английском языке
  10. Месячный курс по big data от MIT Платно
  11. Введение в науку о данных от MIT Бесплатно
  12. Введение в big data от Калифорнийского университета в Беркли Бесплатно
  13. Магистратура информации и науки о данных Калифорнийского университета в Беркли Платно
  14. Введение в науку о данных Вашингтонского университета Бесплатно
  15. Курс Гарвардского университета по data science Бесплатно
  16. 5 курсов по data mining от Иллинойского университета Бесплатно
  17. Курс Эндрю Энга из Стэнфордского университета по машинному обучению Бесплатно
  18. Введение в data science Бесплатно в триал-версии
  19. Машинное обучение Бесплатно

Источник: https://rb.ru/list/bigdatye-kursy/

Ссылка на основную публикацию