Статистика и R
для научных исследований
Курс для тех, кто знает, что p-value должно быть меньше 0.05, но не понимает почему.
Старт
май 2021
Продолжительность
9 недель
Нагрузка
15 часов
в неделю
Вы познакомитесь с языком программирования R, основами статистики, научитесь проверять гипотезы, делать корреляционные анализ и делать поправку на множественное сравнение, научитесь кластеризовывать данные, применять регрессию и ANOVA. А самое главное, вы будуте учиться применять полученные знания на реальных данных.

Как происходит обучение
Теория

Теория и задачи для тренировки встроены в систему Stepik и всегда доступны онлайн.
В качестве основы мы использовали проверенные популярные курсы на Stepik.
Проект

Практические домашние работы, в которых вы будете анализировать реальные данные и писать код на R
Преподаватель

Проводит еженедельные вебинары, даёт обратную связь на проектные задания и отвечает на вопросы в чате учебной группы
Куратор

Поможет с организацией учебного процесса, напомнит про дедлайны и поделится лайфхаками о том, как бороться с прокрастинацией
Кому подойдет эта программа
Вы студент бакалавриата, магистратуры или специалитета и хотите корректно применять статистические методы в своей учебной работе
Вы научный работник и хотите улучшить качества статистического анализа в ваших работах
Вы планируете поступать в магистратуру или аспирантуру и хотите освежить навыки работы с инструментами статистического анализа
Вы переодически сталкиваетесь с тем, что не понимаете секцию про статистический анализ в работах других исследователей
Что вы получите от обучения
Знания
Вы научитесь формулировать и проверять гипотезы, используя корректные методы статистического анализа.
Релевантную практику
Вы будете учиться на примере реальных данных, такую практику легко перенести на вашу реальную научную работу.
Направление развития
Статистика – это всегда больше чем любой курс или книга. Кроме знаний мы поделимся с вами советами о том, как развивать дальше свои навыки.
Сертификат
Электронный сертификат от Stepik Академии, подтверждающий прохождение программы.
Мария Черниговская, преподаватель
Университет ИТМО
«Я закончила бакалавриат на мат-мехе СПбГУ, а в 2018 году я закончила магистратуру АУ по направлению алгоритмическая биоинформатика. Во время магистратуры я работала в Центре Алгоритмической Биотехнологии над иммуноинформатическим проектом, в котором мы изучали парные репертуары B-клеток на публичных данных 10x-genomics single cell VDJ.

Сейчас я занимаюсь биоинформатикой в Университете ИТМО. Мы строим метаболические сети на основании транскриптомных и метаболомных данных и находим метаболические модули, которые отвечают за фенотип».
Мария Черниговская, преподаватель
Университет ИТМО
«Я закончила бакалавриат на мат-мехе СПбГУ, а в 2018 году я закончила магистратуру АУ по направлению алгоритмическая биоинформатика. Во время магистратуры я работала в Центре Алгоритмической Биотехнологии над иммуноинформатическим проектом, в котором мы изучали парные репертуары B-клеток на публичных данных 10x-genomics single cell VDJ.

Сейчас я занимаюсь биоинформатикой в Университете ИТМО. Мы строим метаболические сети на основании транскриптомных и метаболомных данных и находим метаболические модули, которые отвечают за фенотип».
Отзывы студентов о преподавателе
«Хотелось бы, чтобы каждая практика была, как у Марии Черниговской.
Все быстро и понятно»

«Огонь, это было просто огонь!!!»

«Лучшая практика ever»

«Лучшее по статистике, что я слышал»


Анонимные отзывы
Участники и участницы летней школы по биоинформатике 2019
Программа
9 недель • 10 - 20 часов в неделю
Старт: май-июнь 2021
Неделя 1. Знакомство с R
  • Основы синтаксиса и базовый функционал R
  • Как гуглить и правила хорошего тона в программировани на R
  • Работа с датасетами
Проект: учимся работать в маркдауне
Неделя 2. Эксплораторный анализ данных (EDA)
  • Типы данных, выборка и типы выборок
  • Среднее, медиана, дисперсия
  • Типы графиков
  • Знакомство с ggplot
  • Как манипулировать зрителем с помощью плохих графиков (и как этого не делать)
  • Поиск элементов с помощью Selenium WebDriver
Проект: EDA на реальных данных
Неделя 3. Основы статистики
  • Распределение, случайная величина, плотность
  • qqplot
  • Центральная предельная теорема (ЦПТ)
  • CI на реальном датасете
  • CI vs SE
Проект: строим доверительные интервалы и qqplots

Неделя 4. Корреляционный анализ
  • Зависимые признаки
  • Определение корреляции
  • Что значит и не значит корреляция — spurious correlation, simpson paradox, etc
  • Корреляция Спирмана
Проект: EDA + корреляционный анализ на реальных данных
Неделя 5. Проверка гипотез
  • Гипотеза, нулевая гипотеза, альтернативная гипотеза
  • Статистический критерий, ошибки первого и второго рода
  • Уровень значимости, p-value
  • Одновыборочный t-test: как устроен внутри и как считать в R
  • Двувыборочный t-test
Проект:  t-test на реальных данных
Неделя 6. Проверка гипотез (продолжение)
  • Типы статистических тестов (равенство средних, goodness of fit, значимость корреляции, etc)
  • Параметрические и непараметрические тесты
  • Ограничения и assumptions
Проект: проверка на нормальность, значимость корреляции, goodness of fit
Неделя 7. Множественное сравнение, ANOVA
  • Откуда берутся ложноположительные ошибки и зачем делать поправку на множественное тестирование
  • Поправки: FWER, FDR
  • ANOVA
Проект: получаем фидбек по итоговым проектам и планируем дальнейшее развитие
Неделя 8. Базовые статистические методы — PCA, TSNE, кластеризация, регрессия
  • Зачем и как уменьшать размерность данных
  • Способы кластеризации
  • Регрессия
Проект: воспроизвести анализ из научной статьи, групповой проект
Неделя 9. Что дальше?
  • Защита групповых проектов
  • Обсуждаем, что ещё узнать и куда двигаться дальше
Мы планируем старт программы в мае-июне 2021 года. Если вам интересно участие, пожалуйста, заполните форму ниже. Это займёт у вас около 7 минут и поможет нам сделать содержание максимально полезным
для вас.
Анкета участника программы
Ваш email
Имя
Ваш номер телефона
Какой ваш учебный/рабочий статус
Направление ваших текущих или предполагаемых исследований
Был ли у вас курс по статистике?
Нужна ли вам статистика на работе или в учебе?
Если вы читаете научные статьи, испытываете ли вы трудности с пониманием статистических методов?
Есть ли опыт использования R?
Почему вы хотите на этот курс и что вы ожидаете от него?
У нас есть и другие программы