• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
11:30

Я 10 лет искал причину головной боли, оказалось — чипсы +86

09:01

Программирование как разработка теорий: почему senior-разработчики стали ценны как никогда? +71

11:15

Мы — не семья +25

08:12

Плотнее, быстрее, дешевле: керамические накопители Cerabyte бросают вызов LTO +23

08:00

От дефицита к ажиотажу: почему DDR4 снова в центре внимания… по тройной цене +19

06:15

Внедрение зависимостей в PHP: от основ до фреймворков +17

06:48

EngEasy.ru — моё приложение английского. Идея, процесс, технологии +15

13:01

Жизнь и смерть Карла Коха: первый хакер на службе КГБ в поисках всемирного заговора и тайны числа 23. Часть 9 — финал +14

09:16

Тебе не поступить на программиста. Всё кончено +13

13:49

Процессор на коленке ч.4. Конвейер +12

15:00

Почему все ломается, или Зачем менеджеру в ИТ софт-скилы +9

16:43

В ReactOS заключен контракт для улучшения набора тестов +7

13:04

Изобретатель механического светофора: история Гаррета Моргана +7

04:15

Собираем комплекс для качественного офлайн-перевода текстов, работающий на самом обычном игровом компьютере +7

13:56

Стартап за 100 дней. Неделя первая. Аналитика +6

12:08

Деревья умеют выделять «дождеобразующие» вещества +6

20:06

VHS-Decode — новый метод оцифровки видео +5

11:13

Docker + Neovim: поднимаем конфиг на любом сервере и не засоряем систему +5

10:40

Как мы подняли современный портал документации из россыпи .md файлов: пошаговое руководство по MkDocs + Material +5

20:07

Оптимизация языковой модели Mamba для выполнения на CPU +4

09:01

Первые анекдоты о программистах: как выглядел юмор айтишников в 1996-1998 годах? +108

12:55

Лучшие игры легендарной машины: 45 лет назад на свет появилась линейка компьютеров ZX +49

09:56

Датчик утечки воды и не только, просто и почти даром +49

14:05

Пишем 3D-игру для ретро-устройств весом в 600Кб… +38

13:01

GPS в городских джунглях: почему навигатор «прыгает» между небоскрёбами +38

09:44

Как я почти продал ник за $9500 в Telegram +32

08:04

Deepin 25: китайский дистрибутив Linux с ИИ и обновленным DDE +25

10:16

Как сделать любую поверхность сенсорной +20

00:00

Оптимизация индексов базы данных: проблемы, решения, практические рекомендации +19

08:05

О мягких и жёстких ссылках в Linux +16

07:34

Продаешь крипту через P2P? Налоговая может потребовать 6% со всего оборота +15

08:02

Лучшие нейросети для создания игр +14

12:00

История создания процессора ARM: от амбициозного проекта до сердца цифровой революции +11

13:50

PHP и Laravel дайджест новостей за июнь 2025 года +10

09:16

SOLID, DRY, KISS, YAGNI и др. принципы разработки, пугающие новичка в IT +10

08:00

Алгоритм релакса: как пазлы помогают сконцентрироваться на сложных задачах и не выгореть +10

07:00

Покажи свой стартап/пет-проект (июль) +9

10:35

Часть 2: Создание пользовательского интерфейса на дисплее Guition с ESPHome и библиотекой LVGL +7

05:15

Разработка языков программирования в эру больших языковых моделей: ренессанс посредственности? +7

09:56

Скриншот-тестирование фронтенда: руководство по применению в 2025 году +6

ОБСУЖДАЕМОЕ

  • Тебе не поступить на программиста. Всё кончено +13

    • 208   55000

    Первые анекдоты о программистах: как выглядел юмор айтишников в 1996-1998 годах? +108

    • 124   38000

    Я 10 лет искал причину головной боли, оказалось — чипсы +86

    • 106   9800

    Датчик утечки воды и не только, просто и почти даром +49

    • 88   20000

    От PHP к Zig: как я избавился от костылей в биллинг-системе +1

    • 75   4200

    Лучшие игры легендарной машины: 45 лет назад на свет появилась линейка компьютеров ZX +49

    • 62   9900

    Метафизика мнимой единицы -7

    • 56   2600

    Программирование как разработка теорий: почему senior-разработчики стали ценны как никогда? +71

    • 46   10000

    Как я почти продал ник за $9500 в Telegram +32

    • 35   7000

    Продаешь крипту через P2P? Налоговая может потребовать 6% со всего оборота +15

    • 30   5800

    Мы — не семья +24

    • 22   3400

    EngEasy.ru — моё приложение английского. Идея, процесс, технологии +14

    • 22   3200

    Пишем 3D-игру для ретро-устройств весом в 600Кб… +38

    • 20   2900

    Покажи свой стартап/пет-проект (июль) +9

    • 20   2300
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.