Привет! Это команда курса «Аналитик данных». Мы подготовили подборку материалов для тех, кто делает первые шаги в мире анализа данных и хочет освоить исследовательский анализ данных с нуля.

Разведочный или исследовательский анализ данных (Exploratory Data Analysis, EDA) — это этап работы с данными, на котором аналитик изучает доступную информацию перед построением сложных аналитических моделей. Это основа работы с данными, которая помогает понять, какая информация доступна и возникнут ли трудности с будущим анализом.


Статья «Визуальная обработка пропущенных значений при предварительной обработке данных», Russian Blogs

Каждый раз, когда данные обрабатываются, необходимо учитывать пропущенные значения. При этом очень трудно вручную проверить пропущенное значение каждой переменной. В статье рассказывается о библиотеке missingno. Она представляет собой гибкий и простой в использовании набор гаджетов для отсутствующих визуализаций данных и утилит, который позволяет обобщать целостность набора данных.

Читать статью → 

Книга «Python и анализ данных. Первичная обработка данных с применением pandas, NumPy и Jupyter», Уэс Маккини

Это практическое руководство по переформатированию, очистке и обработке данных на Python. В третьем издании, обновлённом под Python 3.10 и pandas 1.4, приведены примеры эффективного решения разных задач анализа данных. По ходу чтения вы познакомитесь с возможностями pandas, NumPy и Jupyter.

Книга подойдёт аналитикам, которые только начинают работать с Python, и программистам, ещё не знакомым с анализом данных. Дополнительные материалы и наборы данных доступны в репозитории на GitHub и на сайте издательства. Автор — Уэс Маккинни, создатель библиотеки pandas.

Купить книгу → 

Статья «Разведочный анализ данных в Python: руководство для новичков», Записки преподавателя

Автор даёт определение разведочному анализу данных в целом, а затем рассказывает об основных этапах анализа и методах, которые нужно знать каждому. Он объясняет, что такое одномерный и двумерный анализ, а также делится практическим примером кодирования. Вы можете скачать набор данных и пошагово следовать по инструкции. 

Читать статью →

Статья «Обработка пропусков в данных», Loginom

На практике в реальных данных очень часто встречаются пропуски. Причинами могут быть ошибки ввода данных, сокрытие информации, фрод. В результате аналитик оказывается перед выбором: игнорировать пропуски, отбросить или же заполнить пропущенные значения. 

Заполнение пропусков зачастую и вполне обоснованно кажется более предпочтительным решением. Однако это не всегда так. Неудачный выбор метода заполнения пропусков может не только не улучшить, но и сильно ухудшить результаты. В данной статье рассмотрены простые методы обработки пропусков, их преимущества и недостатки.

Читать статью → 

Статья «Что такое корреляция и что означает коррелировать — краткое определение, причины и простые примеры», KtoNaNovenkogo

Корреляция — это взаимосвязь между случайными величинами: когда одна величина растет или уменьшается, другая тоже изменяется. В статье автор объясняет, какие бывают типы связи, что означает коэффициент корреляции и насколько можно полагаться на него при формировании гипотез. А также объясняет, почему именно из-за корреляции правдиво правило любого инвестора: «не класть все яйца в одну корзину».

Читать статью → 

Статья «Линейный коэффициент корреляции Пирсона», StatAnaliz

В статье рассказывается о линейном коэффициенте корреляции Пирсона — простом и наглядном способе измерить, насколько тесно связаны между собой две переменные. Автор объясняет, как на практике рассчитывать этот коэффициент, в том числе в Excel, и как через преобразование Фишера найти доверительный интервал для оценки надёжности результата. 

В статье есть наглядные примеры, а также видеоролик, который поможет вместе с автором рассчитать коэффициент корреляции Пирсона с доверительными интервалами и ранговый коэффициент корреляции Спирмена.

Читать статью → 

Статья «Моем датасет: руководство по очистке данных в Python», proglib

Прежде чем передать набор данных ML-модели, его нужно очистить: обработать пропуски, дубликаты, выбросы. В этой статье объясняют, как это сделать, не потеряв важную информацию. Базой экспериментов служит набор данных по ценам на жилье в России, на её основе автор разбирает главные методы и операции. Практический материал с подробными пояснениями и примерами кода. 

Читать статью → 

Статья A Gentle Introduction to Exploratory Data Analysis, Daniel Bourke

Автор делится личной историей о том, как неожиданный выброс в датасете вызвал сбой в системе, и это помогло на практике осознать ценность EDA. Разведочный анализ рассматривается не как одноразовый этап, а как повторяющийся процесс, который помогает лучше понять структуру данных и увидеть потенциальные проблемы.

В статье множество иллюстраций, живой язык и пошаговый разбор датасета с информацией о пассажирах «Титаника». Автор делится чек-листом EDA и пытается ответить на вопрос: «Возможно ли предсказать, кто выживет на “Титанике”, на основе данных других пассажиров?». К статье прилагается видео, где автор изучает этот же датасет.

Читать статью → 

Статья A guide to Exploratory Data Analysis in Python, DataCareer

Статья служит вводным руководством для тех, кто хочет освоить основы EDA, и демонстрирует, как с помощью простых инструментов можно начать находить закономерности и получать инсайты из реальных данных. В качестве примера автор использует датасет приложений Google Play Store, а главным инструментом анализа выступает библиотека pandas. 

В статье показывается, как загрузить данные, просмотреть первые строки таблицы и получить общее представление о доступных признаках. Затем рассматриваются шаги анализа: проверка качества данных, поиск пропусков, выявление ошибок и подготовка к визуализации.

Читать статью → 

Задачи Data and Statistics in Python, CodeWars

Достаточно теории — теперь к практике. Это собрание задач, посвящённых базовым и продвинутым темам статистики и работе с данными на Python. Особенность платформы Codewars — соревновательный формат и сообщество: решения можно сравнивать с другими участниками, обсуждать подходы и учиться новым техникам. Можно не ограничиваться только этой коллекцией — по поиску доступны множество других задач по Python, работе с данными, статистике и смежным темам.

Перейти на сайт →

Комментарии (0)