• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
05:04

Шатдаун правительства США, а также Грокипедия от Илона Маска +4

04:00

Гайд по автотестам, часть 2. Юнит-тесты +3

06:37

AI Review кода за 30 минут: локальная LLM прямо в CI/CD +2

05:36

Секреты мультиклауд-FinOps: Как не спускать миллионы рублей впустую при использовании нескольких облаков +2

05:04

Проведено исследование термоядерного синтеза протон–бор, при котором не выделяются нейтроны +1

13:01

Пайплайн цифрового фотографа на LINUX +57

18:07

Zip-бомбы против агрессивных ИИ-краулеров +34

15:18

Про Лысенко, Вавилова, письмо трёхсот и генетику в СССР +31

13:20

Русские ящеры профессора Амалицкого +31

14:10

Отрезчик термоусадки v2.0 +29

09:01

Что значит «хороший вкус» в разработке ПО? +29

13:57

Большой FAQ про Wi-Fi +25

08:00

Как я сделал робота — что хотел и что получилось. Часть 1 +22

08:00

Motorola Razr V3: икона стиля из нулевых. Разбираем и изучаем +20

16:40

User guide — пустая формальность или незаменимый документ? Руководство, как написать руководство +18

11:05

Элементы игрового дизайна и механики, от которых пора избавиться +18

11:20

О горьком опыте масштабирования производств, о важности ведер и о причинах седины +17

00:05

Атом смысла: как из ничего получить все +17

07:41

От GPT-2 к gpt-oss: анализ достижений архитектуры +15

12:06

LuckFox pico — одноплатник в форм факторе Arduino +13

12:24

Open source-стратегии: как и с кем Arenadata развивает партнёрские отношения, и причем здесь открытые технологии +10

10:16

Паттерны программирования при работе с LLM +9

04:38

Как я переделал свой мини-ПК и зачем мне это было нужно +9

00:43

Запускаем Qwen3-VL-30B на 48GB VRAM +9

11:51

Почему хороших middle-разработчиков не повышают до senior — честный взгляд изнутри +8

14:06

Тайна самой дешевой консоли с Ozon +161

17:46

Линейная алгебра: четыре разных подхода к одной задаче +53

08:30

Реверс-инжиниринг: стартуем прошивку ReadyNAS через QEMU +50

13:01

Pentax MZ-M и другие: как пластиковые камеры чуть не убили пионеров зеркалкостроения +41

09:01

«LLVM для AI». Крис Латтнер и язык программирования Mojo +35

17:59

Предварительный взгляд на 3I/ATLAS с Марса +27

09:16

OpenSource, или как я перестал бояться и полюбил автотесты +23

09:16

OpenSource, или как я перестал бояться и полюбил автотесты +23

05:30

Go, Rust или всё же C++? Куда мы переписываем наш высоконагруженный бэкенд в 2025 +22

06:57

Topical Authority на практике: как стать экспертом в глазах Google (и почему одна статья никогда не ранжируется) +20

11:22

Parquet — король умер? Да здравствует… кто? Обзор BtrBlocks, FastLanes, Lance и Vortex +19

12:15

Минимальный каркас самописного Bootloader'a на STM32F103C8T6. Пошаговый пример +17

13:38

Экспериментальный селф-хостинг — материалы для начинающих, личный опыт, DIY-гайды и домашние лабы +16

08:04

FreeBSD и крепкий сон ноутбука +16

10:27

Реализация сервиса на C++: TDD, DDD и событийно-ориентированная архитектура +12

09:00

500 откликов, как я искал работу +11

08:01

Linux 6.17: свежие драйверы, быстрые сети и надежная память +11

03:46

Время одиночных разработчиков и микрокоманд: как ИИ съел оргструктуру +11

12:00

Лабораторный блок питания с плавной регулировкой, цифровым дисплеем и дополнительными выходами USB +9

10:16

Призрак в машине: ИИ-подделка и аура в эпоху алгоритмической воспроизводимости +9

ОБСУЖДАЕМОЕ

  • Предварительный взгляд на 3I/ATLAS с Марса +27

    • 66   39000

    Go, Rust или всё же C++? Куда мы переписываем наш высоконагруженный бэкенд в 2025 +22

    • 63   17000

    Про Лысенко, Вавилова, письмо трёхсот и генетику в СССР +31

    • 58   8200

    Цифровая зависимость: почему проприетарный софт — тупик для человечества? +3

    • 57   2000

    Тайна самой дешевой консоли с Ozon +162

    • 52   41000

    Пайплайн цифрового фотографа на LINUX +57

    • 45   3900

    Гипотеза Коллатца как фейл мировой математики (окончание) -1

    • 44   8200

    Атом смысла: как из ничего получить все +17

    • 42   5400

    Ледокол для Человечества: Может ли общая идея построить мост над пропастью? +6

    • 39   2200

    Большой FAQ про Wi-Fi +26

    • 37   12000

    Лабораторный блок питания с плавной регулировкой, цифровым дисплеем и дополнительными выходами USB +8

    • 33   8000

    Pentax MZ-M и другие: как пластиковые камеры чуть не убили пионеров зеркалкостроения +41

    • 31   5400

    Элементы игрового дизайна и механики, от которых пора избавиться +22

    • 27   8500

    Zip-бомбы против агрессивных ИИ-краулеров +34

    • 26   6800

    Отрезчик термоусадки v2.0 +29

    • 24   3400
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.