Книг по Data Science в последние годы выходит просто море — от толстых академических учебников, перегруженных формулами, до популярных «лайтовых» пособий, обещающих образно говоря, за неделю научить предсказывать курс биткоина. Но далеко не каждая книга способна удержаться в золотой середине: быть одновременно достаточно практичной, понятной и при этом содержательной. Русское издание «Изучаем Data Science» как раз из таких примеров, на которые можно порекомендовать обратить внимание (хотя формул здесь тоже хватает).

Рецензия по традиции начинается со ссылки на страницу книги «Изучаем Data Science: обработка, исследование, визуализация и моделирование данных с помощью Python» на сайте издательства БХВ. Напомним, что на все бумажные книги (кроме распродажных) по компьютерным технологиям от издательств «БХВ Петербург», «Alist» и «Фолиант» доступен промокод SSPSOFT на скидку 25% как подарок читателям Хабра от нашего блога.

Работа трех опытных авторов рассчитана на инженеров, аналитиков и разработчиков, которые хотят системно войти в мир анализа данных, но не готовых тонуть в бесконечной математике или полных «воды» рассуждениях. Авторы захватывают внимание читателя и проводят через полный цикл работы с данными: от получения и их очистки до построения моделей машинного обучения и объяснения результатов “на выходе”. При этом язык книги довольно легкий, а примеры — вполне приближенные к реальности.

Главное отличие от большинства изданий по Data Science в том, что здесь акцент сделан не на теоретической статистике (хотя базовые концепции объясняются с формулами), а на инженерной практике. Каждая глава — это попробовать руками: написать код, запустить эксперимент, проверить гипотезу. Такой подход особенно ценен тем, кто работает в IT-индустрии и хочет не просто «войти с нуля в модное направление Data Science», а научиться применять знания из книги в проектах: от анализа пользовательского поведения и автоматизации процессов до построения прогнозных моделей для бизнеса или промышленности.

Кому будет полезна эта книга

Теперь о целевой читательской аудитории.

Судя по аннотации к оригиналу книги на сайте O’Reilly, авторы нацеливались на уровень Beginner для широкого круга начинающих профессионалов, для которых работа с данными уже является или будет частью повседневной практики.

Ниже — четыре IT-профессии, кому в первую очередь адресована книга «Изучаем Data Science».

  1. Младшие бизнес-аналитики найдут здесь ответы на главный вопрос: как превратить «сырые» данные в понятные инсайты, которые можно донести до руководства или использовать для принятия решений. Книга старается научиться выбирать правильные методы анализа, визуализировать результаты и проверять гипотезы так, чтобы цифры действительно работали на бизнес.

  2. Начинающие архитекторы данных оценят материал с другой стороны: как правильно организовать хранение и подготовку данных для последующей аналитики. В главах о получении, очистке и структурировании информации они найдут практические советы по построению надежных пайплайнов, которые позволяют безболезненно масштабировать системы и облегчать жизнь аналитикам и дата-сайентистам.

  3. Data scientists — как начинающие, так и уже работающие в профессии — смогут последовательно пройти через цикл обучения от базовой статистики и инструментов Python до построения и интерпретации моделей машинного обучения, и как применить это все в коде.

  4. Python-разработчики, которые хотят «развить скиллы» по направлению аналитики, получат здесь то самое введение в Data Science без излишней академичности. Для них полезность книги в том, что все примеры приводятся на Python с использованием распространенных библиотек, и освоить анализ данных можно буквально через знакомый синтаксис и привычные инструменты.

Резюмируем: книга «Изучаем Data Science» радует вполне приличным объемом около 600 страниц, в которых  объединены учебник, справочник и практическое руководство. Издание старается закрыть потребности сразу четырех ключевых ролей — от бизнес-аналитиков до инженеров-разработчиков, а насколько удачно —  судить читателям.

Аннотации к главам книги “Изучаем Data Science”

Оглавление русского издания книги «Изучаем Data Science» представлено на сайте издательства в виде пробного отрывка, который включает еще и авторское предисловие. Давайте теперь пройдемся по содержимому глав и дадим более подробные аннотации к каждой главе. В этот раз аннотации будут подробными, так что заранее извините за большой объем этой рецензии.

Часть I «Жизненный цикл Data Science»

Глава 1. Жизненный цикл Data Science

Первая глава вводит ключевую идею книги — жизненный цикл Data Science, состоящий из четырех стадий: постановка вопроса, получение данных, понимание данных и понимание мира. Такой подход позволяет увидеть аналитику не как набор отдельных техник, а как целостный процесс, где каждая стадия связана с предыдущей и последующей.

Авторы подчеркивают, что особенно важен первый шаг — правильно сформулированный вопрос о результате анализа данных. От него зависит выбор методов и сбор данных. Далее внимание уделяется источникам данных и их качеству, исследовательскому анализу (EDA) для поиска закономерностей и проверке гипотез, а также переходу от анализа выборки к обобщениям и прогнозам. Глава помогает понять, что Data Science — это не «магия алгоритмов», а системный процесс, где инженерные и аналитические навыки работают вместе, а главная цель — извлечь практическую ценность из данных.

Глава 2. Постановка вопроса и охват данных

Эта глава учит ключевому навыку — правильно формулировать исследовательский вопрос. Авторы выделяют четыре типа вопросов: описательные (что произошло?), исследовательские (почему это произошло?), предсказательные (что произойдет дальше?) и причинно-следственные (что произойдет, если мы изменим X?). Каждому типу соответствуют разные методы и подходы к анализу. Например, простой вопрос о том, как менялись цены на жилье требует лишь сводной статистики, тогда как вопрос о влиянии характеристик дома на его стоимость уже подразумевает более глубокий анализ.

Практическая ценность главы в том, что она показывает: неправильно сформулированный вопрос может свести на нет все усилия по сбору и анализу данных. Читатель учится переводить широкие идеи и бизнес-проблемы в конкретные, измеримые гипотезы. Для инженеров и аналитиков это особенно важно — грамотная постановка вопроса позволяет избежать ошибок и сосредоточить усилия на задачах, которые можно решить с помощью данных.

Глава 3. Структура данных и моделирование

Третья глава подробно рассматривает этап сбора данных. Авторы сравнивают ситуации, когда данные дорого обходятся и их нужно собирать по строгим протоколам (например, в медицинских исследованиях), и когда они доступны в изобилии, как в социальных сетях или открытых API. В обоих случаях внимание уделяется качеству данных: насколько они репрезентативны, есть ли пробелы в данных или систематические ошибки, которые могут повлиять на результат.

Для практикующего специалиста эта глава полезна конкретными приемами — как проверять данные на наличие выбросов и искажений, как учитывать контекст их появления, и как избежать типичных ловушек, связанных с предвзятостью выборки. Глава формирует инженерный подход: данные не просто берутся из источника, а проходят через оценку качества и пригодности для анализа.

Глава 4. Моделирование при помощи сводной статистики

Эта глава знакомит читателя с самой основой статистического моделирования — использованием сводных величин (среднее, медиана, мода) в качестве простейших моделей данных. На примере задержек автобусов авторы показывают, как можно свести множество наблюдений к одной оценке, которая отражает «сигнал» в данных. Такой подход не только помогает понять, как работают базовые статистики, но и закладывает фундамент для более сложных моделей, которые строятся в следующих главах.

Особое внимание уделяется концепции функции потерь. Авторы подробно объясняют, что любое моделирование предполагает измерение того, насколько хорошо выбранная модель соответствует реальности. Сравнение средней абсолютной ошибки (MAE) и среднеквадратичной ошибки (MSE) помогает понять, как выбор функции потерь меняет интерпретацию данных: медиана минимизирует MAE, а среднее — MSE. Эта связь между функциями потерь и статистическими характеристиками данных — ключевая идея, которую читатель уносит из главы.

Глава 5. Пример из практики: почему мой автобус всегда опаздывает?

Эта глава — первый большой практический кейс в книге, в котором авторы шаг за шагом проходят через весь жизненный цикл Data Science. В основе лежит блог Джейка Вандерпласа о «парадоксе ожидания автобуса» — ощущении, что автобус всегда опаздывает сильнее, чем предполагает расписание. Используя реальные данные транспортного центра Сиэтла по маршрутам C, D и E, читатель знакомится с процессом постановки вопроса, проверки охвата данных, их очистки и преобразования. Глава демонстрирует, что работа с данными — это не мгновенный поиск ответа, а последовательное уточнение гипотез, устранение ошибок и поиск адекватной модели.

Особое внимание уделяется тому, как «грязные» данные превращаются в структурированный материал для анализа: ненужные столбцы удаляются, коды маршрутов сопоставляются с понятными обозначениями, вычисляются новые переменные вроде времени опоздания. Анализ показывает важные детали — распределение задержек смещено вправо, в час пик автобусы опаздывают чаще, а интервал между рейсами оказывается далеко не постоянным. На основе этих наблюдений авторы переходят к имитационному моделированию, где симулируют прибытие как автобусов, так и пассажиров. Результат оказывается наглядным: медианное время ожидания около 6,5 минут, но верхний квартиль превышает 10 минут, что и формирует у пассажиров ощущение вечных опозданий. Глава учит видеть скрытые смещения, работать с неопределенностью и использовать Python-инструменты (pandas, plotly) не ради кода, а ради понимания сути задачи.

ЧАСТЬ II. ТАБЛИЧНЫЕ ДАННЫЕ

Глава 6. Работа с датафреймами с помощью pandas

В этой главе читатель знакомится с тем, как превратить разрозненные массивы информации в удобные для анализа таблицы. Основное внимание уделено библиотеке pandas, которая является стандартом де-факто в работе с данными на Python. Авторы показывают, как считывать данные из разных источников (CSV, Excel, базы данных), как упорядочивать их в формате DataFrame и какие операции над ними можно выполнять — от фильтрации строк до агрегирования и объединения таблиц.

Особое значение имеет обсуждение принципов «чистых данных» (tidy data), где каждая переменная представлена отдельным столбцом, каждая наблюдаемая сущность — строкой, а набор таких наблюдений — таблицей. Такой подход облегчает дальнейший анализ и визуализацию. На примерах показано, как преобразовывать данные к этому виду, исправлять несоответствия в типах, удалять пропуски и создавать новые производные признаки.

Глава 7. Работа с отношениями с помощью SQL

Эта глава знакомит читателя с фундаментальной идеей реляционных баз данных — представлением информации в виде отношений (таблиц), а также с базовыми приемами работы с ними при помощи SQL. Читатель начинает с простых операций: выборки строк (SELECT ... FROM), формирования подмножеств данных и фильтрации. На практических примерах показывается, как превращать большие наборы данных в удобные для анализа выборки: например, исследовать, когда имя Luna стало популярным в США.

Глава учит группировать сразу по нескольким полям, применять разные агрегатные функции (сумма, среднее, количество) и строить запросы, которые отвечают на аналитические вопросы. На примере анализа популярности имен по категориям из статьи New York Times показывается, как объединять разные источники данных, сохраняя контекст. SQL показан как универсальный язык описания данных: инженер, аналитик или дата-сайентист после ее изучения сможет уверенно формулировать вопросы к базе и получать на них ответы, закладывая основу для дальнейшего анализа и моделирования.

ЧАСТЬ III. ОСМЫСЛЕНИЕ ДАННЫХ

Глава 8. Первичная обработка файлов

Авторы знакомят с разнообразием источников и форматов данных: от CSV и файлов фиксированной ширины до иерархических структур и свободно форматированного текста. Разбираются типичные технические проблемы — кодировки, большие объемы файлов, соответствие формы и уровня детализации таблиц исследовательским задачам. На примерах из исследования DAWN и проверок ресторанов в Сан-Франциско показывается, как такие особенности напрямую влияют на корректность последующего анализа.

Кроме форматов рассматриваются практические приемы предварительного осмотра данных с помощью командной строки и Python. Отдельное внимание уделяется выбору «гранулярности» — уровня, на котором описываются факты (например, ресторан в целом или отдельное нарушение). Эта глава полезна аналитикам и инженерам тем, что учит не только читать сырые данные, но и критически оценивать их структуру, прежде чем переходить к обработке и моделированию.

Глава 9. Первичная обработка датафрейма

Эта глава посвящена систематическому подходу к работе с «сырыми» данными и показывает, что анализ невозможен без проверки их качества. Авторы начинают с примера измерений содержания CO₂ на обсерватории Мауна-Лоа, где даже небольшие неточности или пробелы могут исказить выводы о глобальных изменениях климата. Рассматриваются основные аспекты проверки качества: полнота охвата данных, корректность измерений, согласованность признаков и пригодность к исследованию. 

Далее внимание уделяется обработке пропущенных данных, изменению структуры таблиц и преобразованию временных меток. Авторы демонстрируют разные стратегии: от аккуратного заполнения и интерполяции до решения оставить пропуски, если это отражает реальность. Важная мысль — корректировка данных должна зависеть от цели исследования. 

Вторая часть главы иллюстрирует принципы на практическом кейсе — обработке данных о нарушениях санитарной безопасности в ресторанах. Это учит видеть в данных не только цифры, но и контекст, а также понимать, что подготовка информации — это не механическая чистка, а часть исследовательского процесса.  

Глава 10. Разведочный анализ данных 

В этой главе авторы подробно рассматривают разведочный анализ данных (EDA) как важнейший этап жизненного цикла Data Science. Основной акцент сделан на том, что до построения моделей необходимо «познакомиться» с данными: изучить их типы, распределения и взаимосвязи. Читатель учится различать признаки — количественные, качественные, порядковые — и выбирать для них корректные методы анализа и визуализации. Отдельный раздел посвящен тому, на что стоит обращать внимание в распределениях признаков: асимметрия, выбросы, кластеры, различия в масштабах. Все это формирует понимание структуры данных и помогает выявить потенциальные проблемы до построения моделей.

Вторая часть главы посвящена поиску взаимосвязей между признаками. Авторы систематизируют подходы: анализ двух количественных переменных через корреляцию и диаграммы рассеяния; исследование связки «категориальный–числовой признак»; анализ двух категориальных переменных при помощи таблиц сопряженности. Рассматриваются и более сложные случаи — сравнения в многомерных системах, где приходится искать нетривиальные закономерности. 

Глава 11. Визуализация данных

Эта глава показывает, как превратить «сырые» данные в наглядные и интерпретируемые визуальные образы. Отдельное внимание уделяется приемам «спрямления» и сглаживания, которые помогают разглядеть тренды и связи в сложных наборах данных, а также обсуждаются случаи, когда сглаживание может исказить картину и лучше отказаться от него. 

Далее авторы переходят к особенностям визуализации разных типов данных: временных рядов, наблюдений с неравномерной выборкой, географических данных. Для каждого случая показаны специфические приемы и подводные камни. В качестве наглядного примера рассматриваются результаты спринтерских забегов на 100 метров, где визуализация позволяет понять динамику рекордов. Глава показывает не только технические навыки построения графиков, но и понимание того, как визуализация влияет на интерпретацию данных и принятие решений.

Глава 12. Тематическое исследование: проверка точности показателей качества воздуха

В этой главе авторы показывают на практическом кейсе, как подходы из предыдущих разделов помогают решать задачу валидации данных. Объект исследования — показатели качества воздуха, измеряемые двумя источниками: государственной системой мониторинга AQS и сетью низкобюджетных датчиков PurpleAir. Проблема в том, что «дешевые» датчики часто дают искаженные результаты, поэтому возникает необходимость проверить их точность и сопоставить с эталонными измерениями. Шаг за шагом описан полный цикл работы: от постановки исследовательского вопроса и оценки охвата данных до сопоставления датчиков по географической близости и временным интервалам.

Особое внимание уделяется первичной обработке: очистке наборов AQS и PurpleAir, удалению нерелевантных столбцов, проверке корректности временных меток и частоты выборки. На примере данных PM2.5 демонстрируются типичные проблемы — пропуски, различия в гранулярности, возможные аномалии. После очистки авторы переходят к разведочному анализу: визуализируют данные, исследуют распределения и закономерности, а затем строят модель для корректировки показаний PurpleAir относительно AQS. Такой подход показывает, как объединение статистики, визуализации и моделирования позволяет повысить достоверность анализа и превратить «шумные» данные в источник ценной информации.

ЧАСТЬ IV. ДРУГИЕ ИСТОЧНИКИ ДАННЫХ

Глава 13 «Операции с текстом» 

Авторы переходят от работы с числовыми и табличными данными к обработке текстовой информации — важнейшему источнику признаков в анализе данных. Глава начинается с примеров задач, связанных с текстом: нормализация строк, выделение ключевых фрагментов и преобразование текста в набор признаков для анализа. Рассматриваются методы преобразования текста в стандартный формат с помощью встроенных функций Python и библиотеки pandas, а также базовые техники манипуляции строками. Отдельное внимание уделяется регулярным выражениям как мощному инструменту извлечения и структурирования информации из текста: авторы показывают на примерах, как использовать классы символов, якоря, квантификаторы и группировки для поиска и создания новых признаков.

Текст связывается с задачами анализа: показано, как конструировать категориальные или числовые признаки из текстовых данных, объединять результаты в таблицы и сопоставлять их с другими источниками информации. Разбираются приемы извлечения конкретных сущностей (например, частей слов или кодов из строк) и генерация новых признаков через комбинации строковых операций. Глава служит практическим руководством для тех, кто хочет «превратить слова в данные».

Глава 14 «Обмен данными»

Рассматриваются ключевые форматы и протоколы, позволяющие эффективно передавать и использовать данные из разных источников. Особое внимание уделяется формату NetCDF, широко применяемому в науках о Земле и климатических исследованиях, а также формату JSON, ставшему стандартом в веб-сервисах благодаря простоте и универсальности. Далее подробно объясняются основы работы с HTTP и архитектурой REST, без которых невозможно представить современный обмен данными между приложениями и сервисами. 

Часть главы посвящена иерархическим форматам XML и HTML и методам их обработки с помощью XPath. На конкретных примерах — парсинг результатов спортивных забегов из Википедии и получение актуальных курсов валют Европейского центрального банка — демонстрируется, как извлекать структурированную информацию из веб-страниц и API. Таким образом, глава формирует у читателя практические навыки интеграции внешних данных в проекты по Data Science: от работы с научными форматами и REST-сервисами до веб-скрапинга. 

ЧАСТЬ V. ЛИНЕЙНОЕ МОДЕЛИРОВАНИЕ

Глава 15. Линейные модели 

Авторы делают важный переход от подготовки и первичной обработки данных к построению первых статистических моделей. Читатель знакомится с фундаментальными принципами простой линейной регрессии, на примере оценки качества воздуха демонстрируется, как можно формализовать зависимость между переменными и измерить силу этой зависимости. Подробно разбирается процесс интерпретации коэффициентов линейной модели, что особенно важно для тех, кто хочет не просто получить предсказание, но и понять, какие факторы реально влияют на результат. Рассматриваются способы оценки качества подгонки — от визуального анализа остатков до формальных метрик — и объясняется, почему критически важно проверять корректность выводов, а не ограничиваться «красивыми графиками».

Приводится яркий пример о «стране возможностей», где анализируется влияние времени в пути на работу и других факторов на социальную мобильность. Также рассматриваются методы конструирования признаков — как числовых, так и категориальных, что делает модели более выразительными и приближенными к реальности. Эта глава полезна тем, что закладывает основу для понимания более сложных алгоритмов машинного обучения: освоив линейные модели, глава учит мыслить в терминах связей между данными и интерпретировать результаты анализа, что особенно важно в прикладных инженерных и бизнес-задачах.

Глава 16 «Выбор модели» 

Здесь поднимается один из ключевых вопросов в машинном обучении — баланс между сложностью модели и ее способностью к обобщению. Начинается глава с обсуждения проблемы переобучения: когда модель слишком хорошо «запоминает» обучающие данные и теряет способность адекватно работать на новых примерах. Далее вводятся практические методы борьбы с переобучением, начиная с базовой техники разбиения данных на обучающую и тестовую выборки (train_test_split). Это позволяет оценить модель на «неизвестных» данных и лучше понять ее реальную эффективность.

Затем авторы переходят к перекрестной проверке (cross-validation) как более надежному способу оценки качества, который снижает влияние случайных факторов при разбиении данных. Подробно разбирается понятие регуляризации, которая помогает контролировать сложность модели и снижать риск переобучения за счет введения штрафов за большие коэффициенты. В завершение рассматривается фундаментальное понятие смещения и дисперсии модели: как эти характеристики влияют на ошибки прогнозирования и как правильно интерпретировать компромисс между ними. 

Глава 17 «Теория логического вывода и прогнозирования» 

Авторы переходят к статистическим основам принятия решений на основе данных. Рассматриваются три ключевых вида распределений — популяционное, эмпирическое и выборочное, — и показывается, как они связаны между собой. На примерах объясняется, почему выборочные данные никогда не дают полной картины, но позволяют делать обоснованные выводы о популяции. Далее подробно разбираются принципы проверки гипотез, которые лежат в основе любого научного или прикладного исследования. На живых примерах — от анализа продуктивности авторов Википедии до проверки эффективности вакцины — показано, как статистические тесты помогают принимать решения и интерпретировать результаты в условиях неопределенности.

Особое внимание уделяется бутстрап-процедурам, которые позволяют строить выводы даже тогда, когда классические методы неприменимы. Рассматриваются доверительные и прогнозные интервалы, их различия и практическое использование: например, при прогнозировании задержек автобуса или оценки размеров морских животных.Статистика — это про понимание вероятностной природы выводов и предсказаний. Глава особенно полезна тем, что учит отличать корреляцию от причинности, правильно интерпретировать результаты тестов и использовать статистику не как «черный ящик», а как инструмент уверенного принятия решений в реальных проектах.

Глава 18 «Тематическое исследование: как взвесить осла»

Здесь про необычный пример, который показывает, как методы Data Science помогают решать реальные практические задачи. В сельской местности у ветеринаров нет возможности использовать весы, чтобы рассчитать дозировку анестетиков для осла, и нужно найти альтернативный способ определить его вес. Эта задача превращается в полноценное исследование: начиная с постановки вопроса и сбора доступных данных о животных, авторы демонстрируют процесс первичной обработки, преобразования и подготовки данных к анализу. Уже на этом этапе подчеркивается важность аккуратной работы с реальными данными, которые могут содержать ошибки, пропуски и разные типы признаков.

Далее глава переходит к разведочному анализу и построению моделей. Сначала рассматриваются простые линейные модели, которые позволяют выявить базовые зависимости между характеристиками животного (например, рост или обхват груди) и его весом. Затем анализ усложняется: вводятся множественные линейные модели и качественные признаки, что делает прогноз точнее и ближе к реальности. Авторы объясняют, как правильно интерпретировать коэффициенты, оценивать качество подгонки и выбирать метрики. Особое внимание уделено ошибке в прогнозе, что приведет к неверной дозировке лекарств. Таким образом, эта глава не только закрепляет все теоретические знания о моделировании, но и показывает ценность дата-сайенса в самых неожиданных областях, где точные измерения невозможны.

ЧАСТЬ VI. КЛАССИФИКАЦИЯ

Глава 19 «Классификация» 

Ключевая задача Data Science — разделения объектов на категории. Классификация ставит цель определить, к какому классу относится объект на основе его признаков. Для введения в тему авторы приводят пример анализа деревьев, поваленных ураганом. Такой кейс помогает показать, как реальные данные о размере, породе и других характеристиках деревьев можно использовать для построения моделей, способных предсказывать вероятность их падения при неблагоприятных погодных условиях. На этом примере подробно разбирается переход от простых константных моделей к более сложным подходам, а также подчеркивается практическая ценность классификации для экологических исследований и управления рисками.

В главе раскрывается логика построения логистической модели — основного инструмента для задач классификации. Автор объясняет, как работает логарифм отношения шансов, каким образом строится логистическая кривая и почему она удобна для моделирования вероятностей. Важное внимание уделяется функции потерь, которая помогает корректно оценивать ошибки модели, а также переходу от предсказанных вероятностей к финальной классификации.  

Глава 20 «Численная оптимизация» 

Рассматриваются математической основы машинного обучения. В центре внимания оказывается задача минимизации функции потерь — ключевого критерия, который определяет, насколько хорошо модель соответствует данным. Главным инструментом для этого служит градиентный спуск, и глава подробно объясняет его принцип: шаг за шагом изменять параметры модели в направлении минимизации ошибки. На простых примерах показывается, как интуитивно работает этот процесс, а затем вводятся более сложные случаи, включая минимизацию функции потерь Хубера, применимой, когда в данных встречаются выбросы и требуется баланс между устойчивостью и точностью.

Особое внимание уделено различным вариантам градиентного спуска. Рассматриваются стохастический и мини-пакетный подходы, которые широко применяются в практических задачах для работы с большими наборами данных, позволяя ускорить обучение и повысить стабильность сходимости. Кроме того, в главе вводится метод Ньютона, представляющий собой более «умный» алгоритм оптимизации, использующий информацию о второй производной функции потерь для более точного выбора направления поиска минимума. Выбор метода оптимизации напрямую влияет на скорость и качество построенных моделей.

Глава 21 «Тематическое исследование: распознавание фейковых новостей»

Здесь практический разбор задачи, которая находится на стыке анализа текста, машинного обучения и работы с большими потоками информации. Исследование начинается с формулировки вопроса: как автоматизированно отличать достоверные публикации от поддельных? Для этого авторы описывают процесс получения данных и их «выпаса» — сбора новостных статей из открытых источников, их структурирования и подготовки к анализу. Далее проводится разведочный анализ: рассматривается, какие издания чаще встречаются в датасете, как распределены даты публикаций, какие слова и выражения чаще всего встречаются в текстах. 

Автор показывает, что даже базовые модели классификации дают заметный результат, а постепенное усложнение методов позволяет значительно повысить точность распознавания. Эта глава особенно ценна для читателей тем, что сочетает в себе сразу несколько аспектов работы дата-сайентиста — от постановки задачи и сбора данных до построения рабочих прототипов моделей — и демонстрирует, как методы анализа текста могут применяться для решения реальной социальной проблемы.

Заключение

«Изучаем Data Science» — как швейцарский нож,  здесь читатель видит живой процесс: как данные появляются, очищаются, преобразуются, анализируются и превращаются в основу для принятия решений. Такой подход особенно ценен для инженеров, аналитиков и разработчиков, привыкших мыслить системно и ориентироваться на практический результат.

Немного HR-рекламы от нашего блога: мы занимаемся заказной разработкой ПО и будем рады получить резюме специалистов, готовых работать оффлайн в Москве (ЦАО) и Томске, а также удаленно из любой точки России. Текущие вакансии на нашей странице на hh. Резюме можно направить нам напрямую в Telegram или на почту job@ssp-soft.com.
Внимание: при оклике напрямую в наш HR, пож-та приложите сопроводительное письмо с фразой «Нашел вас на Хабре» для ускоренного рассмотрения резюме.

Успехов на ваших проектах Data Science!

Комментарии (0)