Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. 

Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

На что смотреть при выборе датасета

Начнем с базы. Что такое датасет, все знают и без нас, но есть чуть менее очевидные нюансы, освежить которые будет не лишним. Как минимум, новичкам. 

Сейчас, когда количество датасетов перевалило за сотни тысяч, очень важно в процессе поиска отсортировать всякий шлак и выбрать наборы, хорошо подходящие под вашу конкретную задачу. Так на что же стоит обратить внимание?  

Первый критерий — размер датасета. Существует простое правило: количество примеров должно превышать число обучаемых параметров модели минимум в 10–100 раз. При этом сейчас компании вроде Google регулярно доказывают, что большие объемы данных часто компенсируют недостатки простых архитектур. Конкретные же требования зависят от ваших целей — для базовой классификации может хватить тысяч примеров, для обучения языковых моделей нужны миллиарды токенов.

Второй критерий — качество данных, которое определяется их надежностью и релевантностью задаче. Обращайте внимание на частоту ошибок в разметке, уровень шума в данных и правильность фильтрации. Например, если вы обучаете модель для поиска людьми, то запросы от ботов только навредят качеству. Релевантность подразумевает, что данные действительно помогают решить поставленную задачу, а не отвлекают модель на побочные закономерности.

Как не создать себе проблему

Правильная подготовка данных начинается с их разделения. Никогда не используйте одни и те же примеры для обучения и тестирования — это гарантированно даст завышенную оценку качества. Стандартная схема предполагает деление данных на три части: обучающую выборку для тренировки модели, валидационную для настройки гиперпараметров и тестовую для финальной оценки. И никаких дубликатов между выборками, иначе ваши метрики превратятся в самообман.

Отдельная история — несбалансированные датасеты, где один класс встречается в разы чаще другого. В реальном мире это норма: мошеннические транзакции составляют доли процента, редкие болезни встречаются у единиц из тысяч пациентов. Но при использовании датасета лучше искусственно сбалансировать выборку для обучения, компенсировав это увеличенными весами в функции потерь.

Где искать датасеты: платформы и репозитории

Теперь, когда мы разобрались с теорией, пора переходить к практике. Где же искать эти самые датасеты? Вариантов масса — от гигантских агрегаторов до узкоспециализированных академических репозиториев. Выбор платформы зависит от того, нужен ли вам конкретный датасет или вы готовы поискать среди тысяч вариантов.

Навигация

Универсальные поисковики

  • Google Dataset Search — это знакомый всем Google, только для данных. Поисковик индексирует более 25 миллионов наборов данных с сайтов издателей, правительственных порталов и блогов исследователей. Результаты показывают описание, источник и дату последнего обновления. Чем конкретнее будет ваш запрос, тем лучше отработает инструмент.

  • Kaggle давно перерос свое изначальное предназначение платформы для соревнований и превратился в полноценный хаб данных. Здесь вы найдете датасеты практически на любую тему, а пользователи активно обсуждают качество и особенности каждого набора. Много фильтров, удобно искать необходимое.

  • UCI Machine Learning Repository — дедушка всех репозиториев, который работает уже три десятка лет. Калифорнийский университет собрал коллекцию датасетов, специально подготовленных для машинного обучения. Данные четко категоризированы по типу задачи и предметным областям. Часть датасетов загружают сами пользователи — проверяйте такие наборы перед началом работы.

    Источник изображения

Специализированные решения

  • AWS Open Data Registry позволяет юзерам добавлять и модифицировать датасеты. Amazon предоставляет доступ через свою инфраструктуру, что удобно для больших проектов. Плюс опыт работы с AWS высоко ценится работодателями.

  • OpenML фокусируется на воспроизводимости исследований. Здесь можно не только скачать данные, но и поделиться результатами экспериментов, сравнить алгоритмы и проанализировать их производительность. Особенно полезно для академических задач.

  • Common Crawl предоставляет массивы веб-краулинга для NLP-задач. Если нужны большие объемы текста для языковых моделей, это один из основных источников.

Государственные и академические сокровищницы

  • Data.gov — результат американской инициативы по открытости данных. Более 200 тысяч датасетов от федеральных агентств: климат, здравоохранение, транспорт, экономика. Данные структурированы по регионам и уровням власти, что упрощает поиск.

  • Earth Data от NASA открывает доступ к спутниковым наблюдениям Земли с 1994 года. Погода, климат, океаны, растительность — всё что угодно о нашей планете. Для космических энтузиастов есть Planetary Data System с данными межпланетных миссий.

Источник изображения
  • CERN Open Data Portal — два петабайта данных Большого адронного коллайдера. Датасеты сложные, но CERN предоставляет подробные описания и примеры кода. Если справитесь, будет что добавить в резюме.

  • Global Health Observatory Data Repository — статистика здравоохранения от ВОЗ со всего мира. Если планируете заняться медицинской аналитикой, здесь найдете данные о заболеваниях, вакцинации и демографии разных стран.

  • Datahub.io — специализируется на бизнесе и финансах, хотя покрывает и другие области. Данные по фондовым рынкам, ценам на недвижимость, инфляции обновляются ежемесячно или даже ежедневно — всегда есть что-то свежее для анализа.

  • Wikipedia ML Datasets — простая, но полезная страница в Википедии с подборкой датасетов для машинного обучения. Охватывает сигналы, изображения, звук, текст и многое другое. 

Конечно, это далеко не все платформы. Есть и более узкие, и более специфические репозитории. Но чтобы не сильно распыляться и не теряться, такой базы для поиска будет предостаточно. А теперь поговорим о конкретных категориях датасетов.

Классификация изображений

Научить компьютер отличать кошку от собаки — звучит просто, но именно с этой задачи началась революция глубокого обучения. Классификация изображений всё еще остается одной из самых популярных областей применения ML, от медицинской диагностики до модерации контента. Для новичков это отличная отправная точка в сфере компьютерного зрения, для опытных разработчиков — бесконечное поле для экспериментов с архитектурами. 

  • MNIST — классический «Hello World» компьютерного зрения с 70 000 рукописных цифр размером 28×28 пикселей. Современные модели достигают на нем точности выше 99%, что делает датасет скорее учебным пособием, чем серьезным вызовом.

  • Fashion-MNIST — ответ Zalando на простоту MNIST. Те же 70 000 изображений 28×28, но вместо цифр — предметы одежды в градациях серого. Задачка посложнее будет.

  • CIFAR-10 — 60 000 цветных картинок 32×32 в десяти классах от самолетов до лягушек. Стандартный бенчмарк для проверки ваших алгоритмов на прочность.

  • CIFAR-100 — злой близнец CIFAR-10 с сотней классов вместо десяти. По 600 изображений на класс против 6 000 у младшего брата — обучать модели становится заметно труднее.

  • ImageNet — легенда, которая изменила мир машинного обучения. 14+ миллионов размеченных изображений в более чем 20 000 категорий, организованных по WordNet. Именно соревнования на этом датасете запустили революцию глубокого обучения в 2012 году.

Источник изображения
  • Tiny ImageNet — компактная версия ImageNet для домашних экспериментов. 100 000 изображений 64×64 в 200 классах поместятся даже на обычном ноутбуке.

  • STL-10 — интересный датасет с подвохом. Десять классов, изображения 96×96, но в обучающей выборке всего 500 примеров на класс. Отличный тест для алгоритмов, которые должны работать с ограниченными данными.

  • Oxford-IIIT Pet — 37 пород домашних питомцев, по 200 фотографий каждой в размере 256×256. Совместное детище Оксфорда и Индийского технологического института для тех, кто хочет различать породы автоматически.

  • Stanford Cars — 16 185 автомобилей в 196 классах с указанием марки, модели и года. Фотографии 360×240 от команды Фей-Фей Ли для детальной классификации транспорта.

  • FGVC-Aircraft — 10 200 самолетов в 102 вариантах моделей с точными рамками объектов. Создан оксфордской VGG для тех, кто хочет отличать Boeing от Airbus даже в небе.

  • VGG-Flowers — 8 189 цветочков в 102 сортах, собранных из интернета и Flickr. Ботаническая классификация в самом красивом виде.

  • Caltech 256 — 30 607 изображений в 257 категориях (плюс один класс для всякого «мусора»). Минимум 80 фотографий на класс для обучения устойчивых классификаторов.

  • SUN397 — 130 519 изображений различных сцен в 899 категориях для понимания окружения. 397 категорий хорошо представлены, остальные — так себе.

  • Places365 — гигант среди датасетов сцен. 10 миллионов изображений 256×256 в 434 классах мест от команды, которая явно не страдает от недостатка амбиций.

  • Street View House Numbers (SVHN) — более 600 000 номеров домов из Google Street View размером 32×32. Реалистичная альтернатива MNIST с естественными условиями освещения и всеми прелестями уличной съемки.

  • Corn2 — 665 фотографий кукурузы для тех, кто хочет применить компьютерное зрение в сельском хозяйстве. Неплохое начало для агротехнических экспериментов.

  • Yang — 2 211 изображений кошачьих пород. Если вам нужно автоматически различать британцев от персов, вот ваш датасет.

  • MyShroomClassifier — 6 507 грибов для создания классификаторов. Может пригодиться для мобильных приложений определения съедобности, но для критически важных задач лучше всё же посоветоваться с микологом.

  • Stanford Dogs Dataset — рай для кинологов и любителей четвероногих: 20 000 изображений более чем 120 пород собак. Если нужно различать лабрадора от ретривера, вот ваш инструмент.

  • COIL-100 — 100 объектов, снятых с полным 360-градусным обзором. Когда важно понимать, как выглядит объект со всех сторон, а не только с одного ракурса.

  • Oxford5k — 5 062 изображения 11 знаменитых оксфордских зданий с Flickr. Компактный датасет для задач поиска изображений и распознавания архитектуры.

  • LSUN — масштабный проект 2015 года с 10 млн изображений размером 256×256, разделенными на 10 категорий сцен и 20 категорий объектов. От спальни до улицы — все основные типы окружения.

Распознавание текста (OCR)

Оптическое распознавание символов остается одной из самых практически полезных областей CV. Системы OCR оцифровывают документы в банках, автоматизируют ввод данных с чеков в бухгалтериях, помогают незрячим людям читать текст с фотографий. Современные решения далеко ушли от простого распознавания печатного текста — теперь они справляются с рукописными заметками, многоязычными документами и сложными макетами.

  • Free Receipt OCR Dataset — 192 изображения чеков и квитанций с 3 839 размеченными областями текста. Каждый ограничивающий прямоугольник относится к отдельному классу элементов — цены, наименования товаров, дата, итоговая сумма. Отличная стартовая точка для автоматизации обработки документооборота.

  • Arabic Documents OCR Dataset — 10 000 изображений арабских документов в 12 категориях: счета, книги, этикетки и другие типы текстов. Если работаете с арабским языком или разрабатываете многоязычные системы, этот датасет поможет справиться со специфическими особенностями письменности.

Источник изображения
  • ICDAR 2003 Robust Reading Competition Dataset — 500 изображений уличных вывесок, табличек и предупреждающих знаков в помещениях и на улице. Компактный, но разнообразный набор для тех, кто хочет научить модель читать надписи в реальной среде.

  • The Street View Text (SVT) — коллекция текстов с Google Street View, сфокусированная на уличных знаках и табличках. Дополняет предыдущий датасет более масштабными данными от Google с их неисчерпаемыми ресурсами.

  • KAIST Scene Text Database — 660 изображений со всего мира с 5 238 текстовыми аннотациями. Разнообразие условий освещения, углов съемки и языков делает его хорошим тестом для устойчивости ваших моделей.

  • ICDAR 2013 Chinese Handwriting Recognition Competition — внушительный датасет с 909 818 рукописными иероглифами, эквивалентный примерно 10 газетным статьям. Если ваши планы включают китайский рынок, этот ресурс сэкономит месяцы работы.

  • IAM Handwriting — стандарт индустрии с 13 353 образцами рукописного английского от 657 авторов, основанный на корпусе британского английского Lancaster-Oslo/Bergen. Академически выверенный и широко используемый бенчмарк.

  • FUNSD — 199 отсканированных форм с шумами и искажениями для понимания структуры документов. Название говорит само за себя: если справитесь с зашумленными формами, обычные документы покажутся детской забавой.

  • 105 941 Images Natural Scenes OCR — масштабный многоязычный датасет с 12 языками (6 азиатских, 6 европейских) в естественных сценах. Включает разметку на уровне строк и транскрипции текста — серьезный ресурс для создания по-настоящему международных OCR-систем.

Детекция объектов

Научить модель не просто распознавать объекты, но и точно указывать их местоположение на изображении — задача на порядок сложнее обычной классификации. Детекция объектов используется почти повсеместно: в беспилотных автомобилях — для распознавания пешеходов и препятствий, в системах безопасности — для мониторинга периметра, в медицине — для локализации патологий на снимках. Готовьтесь к тому, что обучение таких моделей потребует значительно больше времени и вычислительных ресурсов.

  • MS COCO — золотой стандарт детекции объектов с 330 000 изображений и 1,5 млн размеченных экземпляров в 80 категориях. Подробные аннотации покрывают не только детекцию, но и сегментацию объектов. Если ваша модель хорошо работает на COCO, она справится с большинством реальных задач.

  • Pascal VOC 2012 — ветеран среди датасетов детекции с 11 500 высококачественных изображениий в 20 классах. Появился в 2005 году и до сих пор используется как стандартный бенчмарк для сравнения алгоритмов.

  • Open Images — амбициозный проект Google с 9+ млн изображений, размеченных ограничивающими рамками, сегментациями и визуальными связями. Если нужны по-настоящему большие объемы разнообразных данных — вот они.

  • xView — миллион объектов на аэрофотоснимках в 60 классах. Создан для задач мониторинга инфраструктуры, помощи при стихийных бедствиях и анализа спутниковых данных. Если ваша работа связана с аэрофотосъемкой, этот датасет незаменим.

  • Visual Genome — 101 174 изображения с 1,7 млн графов сцен от Стэнфорда. Каждое изображение содержит детальное описание объектов, их атрибутов и взаимосвязей. Больше чем просто детекция — целое понимание сцены.

  • Racetrack Computer Vision Dataset — 3 680 изображений гоночных трасс для обучения моделей автономного вождения. Поможет научить систему распознавать дорожные условия, препятствия и другие критические факторы для беспилотников.

  • Personal Protective Equipment (PPE) Detection Dataset — 8 760 изображений для распознавания средств индивидуальной защиты. Актуально для контроля безопасности на стройках, в больницах и на производстве — автоматически проверять, носят ли сотрудники каски и маски.

  • Furniture-6k — 5 894 предмета мебели для приложений дизайна интерьеров и e-commerce. Покупатели смогут сфотографировать понравившийся стул и найти похожие модели в каталоге.

  • Vehicle Detection YOLOv5 — 7 524 фотографии транспорта для задач видеонаблюдения. От мониторинга парковочных мест до управления трафиком — всё, что связано с автоматическим подсчетом и классификацией машин.

Источник изображения
  • Fruits-360 Dataset — 7 949 фотографий фруктов для сельскохозяйственных и пищевых приложений. Определение типа плодов, анализ качества урожая, прогнозирование урожайности — агротех во всей красе.

  • Egyptian Hieroglyphics — 3 890 изображений древнеегипетских иероглифов. Уникальный датасет для исследователей исторической лингвистики и энтузиастов египтологии. Автоматический перевод папирусов пока что звучит как фантастика, но почему бы не попробовать?

  • Cable Damage — датасет поврежденных кабелей для инспекций инфраструктуры с дронов. Автоматизирует выявление проблем в энергосетях и делает периодические проверки быстрее и точнее.

  • Car Parts and Car Damages — 1 812 изображений деталей и повреждений автомобилей, размеченных полигонами. Полезно для страховых компаний и автосервисов — автоматическая оценка ущерба после ДТП.

  • Recycling Dataset — 3 000 изображений мусора с тегами материала, типа объекта и бренда. Поможет создать системы автоматической сортировки отходов для переработки.

  • Supermarket Shelves — всего 45 изображений, но с 11 743 размеченными товарами и ценниками. Компактный, но плотно упакованный датасет для ритейла.

  • Daily Objects Around the World — 27 000 изображений бытовых предметов в партнерстве с проектом Dollar Street. Показывает, как выглядят одни и те же объекты в разных культурах и экономических условиях.

  • Medical Mask Detection — 6 000 изображений для обнаружения медицинских масок, созданный в разгар пандемии COVID-19. Для контроля за соблюдением санитарных норм.

  • Dollar Street Dataset — 27 519 изображений в 138 папках, разделенных на абстракции, места и объекты. Этнографический взгляд на мир через призму компьютерного зрения.

  • LabelMe — 187 240 изображений от MIT CSAIL, из которых 62 197 уже аннотированы с 658 992 размеченными объектами. Готовый к использованию ресурс для CV приложений.

Семантическая сегментация

Если классификация изображений отвечает на вопрос «что изображено?», то семантическая сегментация идет дальше — она точно показывает, где именно находится каждый пиксель каждого объекта. Представьте, что вы не просто распознаете автомобиль на фотографии, а точно обводите его контур, отделяя от дороги, неба и пешеходов. Такая детализация нужна в медицине для анализа МРТ-снимков, в беспилотниках для понимания дорожной обстановки, в приложениях дополненной реальности для наложения виртуальных объектов на реальные.

  • Cityscapes — эталонный датасет для понимания городских сцен с 5 000+ изображений улиц, где каждый пиксель аккуратно размечен. Автомобили, пешеходы, дорожные знаки, здания — всё получает свой уникальный цвет на карте сегментации.

  • ADE20K — амбициозный проект MIT с 25 574 обучающими и 2 000 валидационными изображениями в 150 категориях. Покрывает как отдельные объекты, так и «материалы» вроде неба или травы — комплексное представление мира вокруг нас.

  • PASCAL Context — 10 103 изображения в 59 категориях объектов плюс 20 категорий материалов от университета Мэриленда. Данные собраны из веба и Google Street View для максимального разнообразия сцен.

  • SBU Shadow — специализированный датасет от Stony Brook University с 100 000 изображений для работы с тенями и зашумленными метками. Если ваши модели должны работать в сложных условиях освещения, этот датасет незаменим.

  • SA-1B Dataset — масштабное творение Meta с 11 млн изображений и 1.1 млрд пиксельных аннотаций размером 1500×2250. Создан для проекта Segment Anything, но доступен только для исследовательских целей.

  • Teeth Segmentation — 598 стоматологических снимков с 15 318 полигонами, где каждый зуб размечен отдельным классом. 

Источник изображения
  • Plant Segmentation — 144 изображения саженцев, снятых через разные интервалы времени в течение двух месяцев. Компактный датасет для агротехнических приложений и анализа роста растений.

  • Semantic Segmentation of Aerial Imagery — 72 изображения для дронового и спутникового зрения в партнерстве с космическим центром Дубая. Небольшой, но качественный набор для задач мониторинга территорий.

Распознавание действий и поведения

Научить компьютер не просто видеть объекты, а понимать, что они делают — задача принципиально иного уровня сложности. Системы распознавания действий анализируют видео с камер наблюдения для выявления подозрительного поведения, помогают тренерам анализировать технику спортсменов, создают интерактивные игровые интерфейсы без контроллеров. Но есть нюанс — нужны большие объемы видеоданных и хорошие вычислительные мощности. 

  • Kinetics-700 — флагманский датасет с 650 000 видеоклипов из YouTube, покрывающих 700 классов человеческих действий. Минимум 700 примеров на каждое действие — от занятий спортом до повседневной активности.

  • UCF101 — классический датасет с 13 320 видео в 101 категории действий, собранный с YouTube. Каждая категория содержит минимум 30 клипов с хорошим качеством и разрешением.

  • HMDB51 — 6 766 видео из фильмов и YouTube в 51 категории действий. Минимум 101 клип на категорию обеспечивает разнообразие сцен и ракурсов для каждого типа активности.

  • NTU RGB+D 120 — крупнейший датасет для распознавания действий: 114 000 видеороликов и около 8 млн кадров, снятых с участием 106 человек. Охватывает 120 классов — от бытовых действий до физических упражнений. 

  • YouTube-8M — масштабный проект Google с 7 млн видео и 4 716 классами под лицензией CC By 4.0. Включает как визуальные, так и аудиальные метки для комплексного понимания видеоконтента.

Детекция и анализ лица

Распознавание и анализ лиц превратились в одну из самых коммерциализированных областей компьютерного зрения. Смартфоны разблокируются по лицу владельца, камеры автоматически фокусируются на людях в кадре, приложения определяют возраст и пол для таргетированной рекламы. Но за кажущейся простотой скрывается масса технических нюансов — от работы с разным освещением до распознавания частично закрытых лиц. Если планируете заняться этой сферой, будьте готовы не только к техническим вызовам, но и к этическим дилеммам. 

  • CelebA — крупный датасет с 202 599 фотографиями знаменитостей от 10 177 личностей. Каждое изображение снабжено 40 бинарными атрибутами. Усы, очки, улыбка, возраст — всё размечено и готово к использованию. Плюс 5 ключевых точек лица для задач более тонкой локализации.

  • IMDB-WIKI — полмиллиона лиц с метками пола и возраста, собранных с IMDB и Wikipedia. Если нужно научить систему угадывать возраст по фотографии, этот датасет станет основным инструментом.

  • Labeled Faces in the Wild — классический бенчмарк для оценки алгоритмов распознавания лиц в реальных условиях. Название говорит само за себя: лица «в полевых условиях», без студийного освещения и идеальных ракурсов.

Анализ человеческих поз

Системы анализа поз помогают спортсменам корректировать технику, врачам — отслеживать реабилитацию пациентов, а разработчикам игр — создавать более естественную анимацию персонажей. Главная сложность в том, что человеческое тело — не жесткая конструкция, а подвижная система со множеством сочленений, которые могут принимать бесчисленное количество положений.

  • MPII Human Pose — 25 000 изображений людей в различных активностях с 2D координатами 16 ключевых точек тела. Ходьба, бег, спорт — в датасете представлены и размечены все основные человеческие движения.

Источник изображения
  • Human3.6M — внушительный датасет с 3.6 млн изображений и видео от 11 профессиональных актеров. Фишка датасета — 3D-координаты 24 ключевых точек тела, позволяющие точно восстанавливать позу в трехмерном пространстве.

  • DensePose-COCO — 50 000 изображений с плотными аннотациями поз для 200 000 людей. Расширенная версия классического датасета, которая позволяет точно картировать каждую часть человеческого тела.

  • Extreme Keypoints Dataset — 480 изображений людей в экстремальных и искаженных позах из источников, свободных от авторских прав. Компактный датасет для тестирования алгоритмов на действительно сложных случаях — когда обычные позы кажутся слишком простыми.

Анализ настроений (NLP)

Научить машину понимать, злой вы или довольный по вашему тексту — одна из самых практически полезных задач в NLP. Компании анализируют отзывы покупателей для улучшения продуктов, банки мониторят соцсети для оценки репутационных рисков, а политтехнологи отслеживают реакцию избирателей на выступления кандидатов. Главная сложность в том, что люди выражают эмоции по-разному: кто-то пишет «ужасно», а кто-то «не очень», имея в виду одно и то же.

  • Multi-Domain Sentiment Dataset — кладезь положительных и отрицательных отзывов на продукты Amazon с рейтингами от 1 до 5 звезд для более старых товаров. Хорошая стартовая точка для понимания, как покупатели оценивают разные категории.

  • Amazon Product Data — монструозная коллекция из 142.8 млн отзывов Amazon, собранных с 1996 по 2014 год. Если нужны по-настоящему большие объемы данных для обучения, вот они.

  • Twitter US Airline Sentiment — твиты об американских авиакомпаниях за февраль 2015 года, уже предварительно классифицированные на позитивные, негативные и нейтральные. Удобно, что разметка уже сделана.

  • IMDB Sentiment — компактный датасет с 25 000+ отзывов на фильмы для бинарной классификации настроений. Меньше по размеру, но качественно размеченный и проверенный временем.

  • Sentiment140 — коллекция из 160 000+ твитов, очищенных от эмотиконов после проверки. Классический выбор для экспериментов с микроблогами.

  • Stanford Sentiment Treebank — более 10 000 файлов Rotten Tomatoes с детальной разметкой настроений по шкале от 1 до 25. Стэнфордское качество аннотации говорит само за себя.

  • Paper Reviews — англо-испанские отзывы по IT и информатике с оценками от -2 до +2. Академическая тематика и билингвальность делают его интересным для специализированных задач.

  • Lexicoder Sentiment Dictionary — словарь для автоматического анализа настроений в новостях, законодательных речах и других текстах. Готовый инструмент для тех, кто не хочет изобретать велосипед.

  • Sentiment Lexicons for 81 Languages — амбициозная попытка создать лексиконы настроений для 81 языка на базе английских аналогов. Масштабы проекта впечатляют.

  • Opin-Rank Review Dataset — отзывы на автомобили 2007—2009 годов плюс гостиничные обзоры. Два домена в одном датасете для сравнения специфики разных областей.

Обработка естественного языка (NLP)

За громким названием скрываются самые разнообразные задачи — от банальной фильтрации спама до создания чат-ботов, способных поддержать осмысленный диалог. Современные языковые модели переводят тексты, генерируют статьи, отвечают на вопросы и даже пишут код по описанию. Правда, для всех этих чудес технического прогресса нужно одно — качественные текстовые данные, и побольше.

  • Enron Dataset — легендарная коллекция email-переписок топ-менеджмента компании Enron, организованная по папкам. Реальная корпоративная переписка стала золотой жилой для исследователей текстовой аналитики.

  • UCI's Spambase — проверенный временем датасет для обучения спам-фильтров. Если устали от рекламы чудо-таблеток в почте, самое время обучить собственный фильтр.

  • Amazon Reviews — очередная сокровищница с 35 млн отзывов за 18 лет, включая информацию о пользователях. Масштаб впечатляет даже на фоне других датасетов Amazon.

  • Yelp Reviews — 5 млн ресторанных и сервисных отзывов в открытом доступе. Хотите понять, как люди описывают свои гастрономические приключения — вот идеальный материал.

  • Google Books Ngrams — библиотека слов, достаточная для любого NLP-алгоритма, как скромно отмечают создатели. Масштабы Google в текстовой аналитике действительно впечатляют.

  • SMS Spam Collection — коллекция из 5 500+ спамных SMS на английском языке. Мобильный спам отличается от почтового, поэтому требует отдельного изучения.

  • Jeopardy — более 200 000 вопросов из культовой телевикторины. Отличный ресурс для систем вопросно-ответного типа и проверки общих знаний ИИ.

  • Gutenberg eBooks — аннотированный список электронных книг проекта Gutenberg. Когда нужны длинные, качественно написанные тексты для анализа.

  • Stanford Question Answering Dataset (SQuAD) — датасет для машинного понимания прочитанного с парами «вопрос-контекст» на основе статей Wikipedia. SQuAD 1.1 содержит 10 000+ пар с гарантированными ответами в тексте, SQuAD 2.0 добавляет 50 000 вопросов без ответов — учит модели понимать, когда сказать «не знаю».

  • Microsoft MARCO — крупномасштабный датасет на основе реальных запросов пользователей Bing, а не придуманных краудсорсерами вопросов. Ответы написаны людьми как синтез информации из нескольких источников, что требует от моделей более глубокого понимания контекста.

  • Universal Dependencies (UD) — международный проект по созданию единой системы синтаксической разметки для 100+ языков. Это не один датасет, а большая коллекция корпусов (treebanks), где тексты размечены по частям речи и связям между словами.

  • VisualQA Dataset — 265 000 изображений из COCO с множественными вопросами и ответами к каждому. Задача для ИИ — понять изображение настолько глубоко, чтобы отвечать на произвольные вопросы о нем.

Автономные транспортные средства

Беспилотные автомобили должны мгновенно анализировать дорожную обстановку, предсказывать поведение пешеходов, распознавать знаки в любую погоду и принимать решения за миллисекунды. Для обучения таких систем нужны терабайты видеоданных с реальных дорог — тут-то и пригодятся специализированные датасеты.

  • Berkeley DeepDrive BDD100K — крупнейший датасет для беспилотников с 100 000+ видео общей продолжительностью 1 100 часов. Разные времена суток, погодные условия, дорожные ситуации — реальный мир во всем его разнообразии.

Источник изображения
  • Comma.ai driving dataset — компактные 7 часов езды по шоссе, но с детальной телеметрией: GPS-координаты, скорость, ускорение, углы поворота руля. Когда нужны точные данные о поведении автомобиля, а не только картинка.

  • Oxford's Robotic Car — британский подход к систематизации. Один и тот же маршрут, который проехали 100 раз в разных условиях: день, ночь, дождь, снег, разный трафик. Контролируемые эксперименты в чистом виде.

  • PandaSet — 48 000+ изображений камер, 16 000+ сканирований LiDAR, 100+ восьмисекундных сцен и 28 классов аннотаций. Полный комплект данных с реального автомобиля.

  • nuScenes — еще один гигант с 1.4 млн изображений камер и 390 000 LiDAR-сканирований плюс подробная картографическая информация. Когда нужен максимально полный набор сенсорных данных.

  • Waymo Open Dataset — открытые данные от Waymo, одной из передовых компаний в области беспилотников. Высококачественные мультимодальные данные из разных сред — что еще нужно для исследований?

  • Landmarks и Landmarks-v2 — датасеты Google для различения природных объектов и рукотворных достопримечательностей. Первый содержит 2 миллиона изображений 30 000 объектов, второй — уже 5 миллионов изображений 200 000 достопримечательностей по всему миру.

Классификация и анализ биологических данных

Биоинформатика превратилась в одну из самых перспективных областей применения ИИ — от расшифровки генома до поиска новых лекарств. Алгоритмы анализируют структуры белков, предсказывают развитие заболеваний по генетическим маркерам, помогают в диагностике рака по микроскопическим снимкам. Правда, здесь всё серьезнее обычных задач классификации — ошибка может стоить человеческой жизни.

  • Palmer Penguins — современная альтернатива набившему оскомину датасету Iris. Данные о пингвинах с острова Палмера идеально подходят для изучения основ data science без скучной ботаники.

  • Gene Expression Omnibus (GEO) — публичный репозиторий функциональных геномных данных, совместимый с MIAME-стандартами. Принимает данные на основе массивов и последовательностей — серьезный ресурс для геномных исследований.

  • The Cancer Genome Atlas (TCGA) — масштабный проект по характеристике геномных изменений в различных типах рака через Broad GDAC. Когда речь идет о борьбе с онкологией, каждый геномный маркер на счету.

  • Protein Data Bank — архив 3D-структур белков, нуклеиновых кислот и сложных молекулярных сборок. От синтеза белков до понимания болезней — фундаментальная база для биомедицинских исследований.

  • CytoImageNet — 890 737 микроскопических изображений в градациях серого, из которых 103 949 размечены по 894 фенотипическим классам. Когда нужно научить ИИ видеть то, что различает только опытный лаборант.

Финансовое прогнозирование и анализ

Теперь переходим к тому, что волнует большинство людей даже больше здоровья — к деньгам. Финансовые рынки стали полигоном для самых изощренных алгоритмов машинного обучения. Высокочастотная торговля, прогнозирование волатильности, оценка кредитных рисков — везде, где можно извлечь прибыль из данных, вы найдете ML-модели. Только помните: если бы прогнозировать рынки было так просто, все аналитики давно бы стали миллиардерами.

  • Yahoo Finance Dataset — конкретный срез рыночных данных с апреля 2018 по март 2023 года, охватывающий акции, ETF и индексы. 1 257 строк с семью стандартными столбцами. Поставляется в XLSX-формате для удобного импорта в Python, R или Excel — готовый инструмент для анализа трендов и разработки торговых стратегий.

  • Complete FAANG Stock Data — полная история котировок детища Марка Цукерберга, Apple, Amazon, Netflix и Google. Если собираетесь торговать акциями или строить инвестиционные модели, начните с лидеров рынка.

  • Quandl — платформа с богатейшими наборами финансовых, экономических и альтернативных данных для предиктивных моделей. Когда Yahoo Finance кажется слишком простым решением.

  • SEC EDGAR — система электронного сбора и анализа корпоративной отчетности американской комиссии по ценным бумагам. 

Прогнозирование временных рядов

Временные ряды окружают нас повсюду: биржевые котировки, температурные колебания, сердечный ритм, трафик веб-сайта. Основная идея проста — найти закономерности в прошлом и экстраполировать их на будущее. Вот только реальный мир любит подкидывать сюрпризы в виде сезонных аномалий, структурных сдвигов и прочих «черных лебедей», которые сбивают с толку самые изящные модели.

  • UC Riverside Time Series Dataset — публичная коллекция от Калифорнийского университета с 128 датасетами для классификации и кластеризации временных рядов в версии 2018 года. Университетский подход к систематизации — всё разложено по полочкам для академических исследований.

  • Time Series Data Library (TSDL) — детище профессора статистики Роба Хиндмана из австралийского университета Монаш. Включает данные из учебников по временным рядам плюс серии, которые профессор собирал для студенческих проектов или получал от коллег со всего мира.

  • Heart Rate Time Series from MIT — четыре серии измерений сердечного ритма с интервалом в полсекунды. T1 и T2 содержат по 1 800 измерений за 15 минут каждая, T3 и T4 — по 950 измерений за 7 минут 55 секунд. Интересно то, что средние значения и стандартные отклонения практически идентичны, но вариабельность сердечного ритма может кардинально различаться.

  • Turing Change Point Dataset — специализированная коллекция временных рядов для оценки алгоритмов обнаружения точек изменения на реальных данных. Фокус на моментах резких изменений в поведении рядов — тех самых сюрпризах, которые ломают обычные прогнозы.

Анализ данных опросов и исследований

Иногда самые интересные инсайты лежат не в сложных алгоритмах, а в простых опросных данных. Что думают люди, как они себя ведут, какие тренды формируют общественное мнение — всё это можно изучать через анализ массовых опросов и социальных платформ. 

  • Stack Overflow Annual Developer Survey — ежегодный срез глобального сообщества разработчиков с миллионами ответов. Демография, технологические предпочтения, зарплаты по странам и ролям, тренды в программировании — полная картина IT-индустрии глазами самих участников. Анонимизированные данные доступны с 2011 года.

  • Reddit Datasets — это не один датасет, а целая коллекция данных с гигантского форума из тысяч тематических сообществ. Посты с заголовками и голосованиями, вложенные комментарии, обсуждения по всем мыслимым темам — живой срез интернет-дискуссий. Такие тематические реддит-датасеты можно найти на Kaggle или HuggingFace. Помимо этого на самом Reddit есть тематическая ветка, где люди публикуют датасеты на любые тематики.

Распознавание речи

Помните, как еще недавно голосовые помощники понимали только идеально проговоренные команды в относительной тишине? Сейчас они распознают речь в шумном кафе, с разными акцентами, даже когда вы бормочете что-то себе под нос. За этим прогрессом стоят годы работы с речевыми датасетами — от четко начитанных аудиокниг до спонтанных разговоров в реальных условиях. 

  • LibriSpeech — академический эталон с 1000 часов аудиокниг LibriVox, тщательно сегментированных и выровненных на уровне предложений. Разделен на «чистые» и «зашумленные» поднаборы для тестирования моделей в разных акустических условиях.

  • VoxPopuli — гигантский многоязычный корпус из записей Европейского парламента 2009–2020 годов. Более 400 000 часов неразмеченной речи на 23 языках плюс 1 800 часов транскрибированных данных для 16 языков.

  • TED-LIUM — более 450 часов выступлений с конференций TED в третьей версии датасета. Естественная спонтанная речь с разнообразием тем и акцентов — реальные люди рассказывают о реальных вещах без студийной постановки.

  • The People's Speech — один из крупнейших общедоступных корпусов английского языка с 30 000+ часов транскрибированной речи под лицензией Creative Commons. Интервью, подкасты, аудиокниги — большое разнообразие источников и дикторов для коммерческого использования.

  • FLEURS — специализированный бенчмарк для оценки few-shot обучения на 102 языках, включая множество низкоресурсных. По 12 часов аудио на язык — не для массивного обучения, а для проверки адаптивности уже натренированных моделей.

  • GigaSpeech — промышленный датасет с 10 000 часов высококачественной размеченной английской речи плюс десятки тысяч часов менее качественных данных для полуконтролируемого обучения. Охватывает весь спектр от студийного звука до зашумленных YouTube-записей.

  • Speech Commands Dataset — компактный Google-датасет с 105 000 односекундных записей 35 коротких команд от тысяч дикторов. Идеально подходит для легковесных моделей распознавания ключевых слов на мобильных устройствах и микроконтроллерах.

Синтез речи

Задача кажется простой — есть текст, нужно его произнести. Но если бы на деле всё было так просто! Человеческая речь — это не просто последовательность звуков, это интонации, паузы, ударения, эмоциональная окраска. Современные TTS-системы научились имитировать голоса настолько точно, что порой уже становится сложновато отличить синтетическую речь от настоящей записи человека.

  • LJ Speech — стандарт для однодикторского синтеза речи с 13 100 аудиоклипов общей продолжительностью 24 часа. Один профессиональный голос, студийное качество записи, тексты из семи научно-популярных книг — идеальные условия для воспроизводимых исследований.

  • M-AILABS Speech — многоязычный гигант на основе аудиокниг LibriVox с тысячами часов на английском, немецком, французском, русском и других языках. Множество дикторов против одного голоса LJ Speech — выбор для тех, кто создает глобальные приложения с поддержкой разных языков и возможностью клонирования голосов.

  • Blizzard Challenge Speech — «золотой стандарт» от ежегодного международного соревнования по синтезу речи с 2005 года. Профессиональные дикторы, идеальные студийные условия, строжайший отбор качества — правда, доступ часто требует участия в самом соревновании.

Анализ характеристик голоса (Voice Analytics)

Человеческий голос содержит гораздо больше информации, чем просто произнесенные слова. По голосу можно определить пол, возраст, эмоциональное состояние, даже попытаться понять, говорит ли человек правду. Системы анализа голоса используются в биометрической аутентификации, колл-центрах для определения настроения клиентов, в медицине — для диагностики некоторых заболеваний. Основная сложность заключается в том, что голос одного и того же человека может кардинально меняться в зависимости от настроения, здоровья, времени суток и акустических условий.

  • VoxCeleb1 — реалистичный датасет для идентификации говорящего с 150 000+ произнесений от 1 251 человека, извлеченный из интервью знаменитостей на YouTube. Записано в «диких» условиях с фоновым шумом и помехами — никакой студийной стерильности.

  • VoxCeleb2 — масштабное расширение первой версии с миллионом произнесений от 6 000 дикторов. Огромное разнообразие по национальности, акценту и возрасту делает его мощным ресурсом для обучения биометрических систем распознавания голоса.

  • CMU-MOSEI — мультимодальный датасет для анализа эмоций с 23 500+ видеофрагментов от 1 000+ дикторов. Аудио, видео и текстовые транскрипции с аннотациями тональности и шести основных эмоций — комплексный подход к пониманию человеческих чувств.

  • AESDD — датасет актерской эмоциональной речи на греческом языке с пятью актерами, выражающими гнев, счастье, грусть, страх и отвращение. Студийное качество и чистый эмоциональный сигнал без помех — идеально для прототипирования и кросс-лингвистических исследований.

Анализ звуков и музыки 

Задумывались ли вы, почему Shazam так быстро распознает песню в шумном баре, а умная колонка понимает, что вы хлопаете в ладоши? За способностью машин различать звуки стоит сложная наука аудиоаналитики. От классификации городского шума до автоматического описания звуковых событий — эта область охватывает всё, что связано с пониманием звукового мира вокруг нас. Особенность работы со звуком в том, что он временной и многослойный — одновременно может звучать музыка, разговор людей и шум машин, и всё это нужно разделить и понять.

  • AudioSet — «ImageNet для аудио» от Google с 2+ млн 10-секундных фрагментов YouTube, размеченных по 632 классам звуковых событий. Масштабный проект с иерархической онтологией для обучения моделей классификации любых звуков реального мира.

  • UrbanSound8K — популярный датасет городских звуков с 8 732 клипами до 4 секунд в 10 классах: автомобильные гудки, собачий лай, сирены, отбойные молотки. Поставляется с готовыми фолдами для кросс-валидации — удобно для сравнения моделей.

  • ESC-50 — тщательно сбалансированный датасет для классификации звуков окружающей среды. 2 000 пятисекундных записей, равномерно распределенных по 50 классам — по 40 клипов каждого типа от звуков животных до бытовых шумов.

  • VocalSound — специализированный датасет неречевых человеческих вокализаций с 21 000+ клипов в 6 классах: смех, вздох, кашель, чихание, сопение, покашливание. Паралингвистическая информация для систем мониторинга здоровья и более естественных диалоговых агентов.

  • Clotho — датасет для автоматического описания аудио текстом с 5 000 семплов длительностью 15–30 секунд. Каждый фрагмент аннотирован пятью независимыми описаниями — не просто классификация звука, а генерация осмысленного текстового описания.

  • Million Song Dataset — коллекция метаданных и аудио-признаков для миллиона музыкальных треков. Самих аудиофайлов нет из-за авторских прав, зато есть детальные фичи тембра и темпа плюс метаданные для задач музыкального поиска и рекомендаций.

  • Children's Song Dataset — 100 детских песен от одной профессиональной певицы на английском и корейском языках, записанных в двух тональностях. 200 высококачественных записей для анализа и синтеза певческого голоса.

Трансформация и обработка аудио 

Современные системы не только распознают звук, но и умеют его улучшать, очищать и разделять на составляющие. Эти технологии требуют понимания того, как звуковые сигналы смешиваются и взаимодействуют друг с другом. Основная сложность тут в том, что звуки накладываются нелинейно — нельзя просто вычесть один из другого, как числа в арифметике.

  • MUSDB18 — стандартный бенчмарк для разделения музыкальных источников со 150 полными треками. Каждая композиция представлена как сведенным миксом, так и четырьмя изолированными дорожками: ударные, бас, вокал и «остальное». Идеальный полигон для моделей, которые «разбирают» песни на составляющие.

Источник изображения
  • DAPS — датасет выровненных версий одной и той же речи, записанной в профессиональной студии и на обычных устройствах (планшеты, смартфоны) в реальных условиях. Содержит 15 версий аудио: 3 профессиональные и 12 комбинаций потребительских устройств с разными средами. Каждая версия включает 4.5 часа данных от 20 дикторов для обучения моделей преобразования записей с бытовых устройств в профессионально звучащую речь.

Заключение

В заключение хочется сказать пару слов о том, что с этим всем вообще делать. Выбор правильного датасета — половина успеха любого ML-проекта, но здесь есть несколько подводных камней, о которых стоит помнить.

Первое правило: всегда проверяйте лицензии. Тот факт, что датасет доступен для скачивания, не означает, что вы можете использовать его в коммерческих продуктах. Некоторые наборы данных ограничены только исследовательскими целями, другие требуют указания авторства. Особенно внимательными стоит быть с данными, собранными из социальных сетей — условия использования могут поменяться быстрее, чем вы закончите обучение модели.

Этические вопросы тоже никто не отменял. Датасеты с лицами людей, медицинской информацией или данными о доходах требуют особой осторожности. Современное общество всё более критично относится к вопросам приватности и справедливости алгоритмов, поэтому относитесь с умом к тому, чьи данные вы используете и в каких целях.

Ну и наконец, помните: датасет это не просто файл для скачивания, это отправная точка для исследования. Изучайте документацию, читайте научные статьи, в которых эти данные использовались, общайтесь с исследователями в вашей области. Самые интересные открытия часто рождаются не от применения стандартных подходов к популярным датасетам, а от свежего взгляда на недооцененные данные.

Удачи в ваших экспериментах — и будем рады услышать о ваших успехах. А если вам не хватило каких-то категорий, напишите об этом в комментариях!

Комментарии (0)