• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
00:41

Как сделать локальный генератор изображений через ComfyUI +8

05:48

Понять Big O раз и навсегда +2

06:05

Как писать промпты для разработки: опыт, который экономит часы +1

09:01

Good night, sweet prince: Удафф.ком закрыт, press F to pay respect +52

13:59

Концепция Байесовского мозга, или Почему этот заголовок в моменте — ваша галлюцинация +33

16:31

РКН объявил войну зарубежным разработчикам игр +27

14:42

Запрещённая математика в твоём autograd: бесконечно малые, дуальные числа и нестандартный анализ +27

12:13

4 научных доказательства того, что люди реально высаживались на Луну +22

11:05

«Черепашки-ниндзя» или как весь мир полюбил пиццу +21

21:17

Когда каждый лид на счету, или как Лена Понты_По_Колено пиарилась на ИИшечке +17

08:38

Меня продали как мидла с 4 годами опыта. Мне было 0. Как я выжил и чему научился +17

13:00

Неизбежный провал «Halo 4», или почему спринт — это плохо +14

18:45

Простой способ сделать мессенджер Макс безопаснее без Docker и прокси +12

08:00

Intel Core Series 3 (Wildcat Lake): новые бюджетные чипы для ноутбуков и мини-ПК +11

11:27

Я создал эмулятор Game Boy на F# +8

06:46

Что именно я понимаю под промежуточным представлением (IR) компилятора +8

14:18

Плагин шорткодов для Joomla +6

14:17

«Опенсорс + ИИ = Китай»: как открытые языковые модели помогли стране ворваться в гонку +6

07:57

Рассказ о поездке на конференцию инди-разработчиков «Игровая индустрия 2026» в Минске +6

18:16

Дуров стену не вернул, поэтому я написал свою – агрегатор Telegram-каналов на Telethon +5

07:10

Процессоры становятся дороже: как ИИ влияет на доступность железа +5

12:38

Производительность софт NVMe рейдов на основе mdadm, LVM и ZFS при использовании iSER и NVMe-oF (100G version) — Part 2 +4

12:36

Производительность софт NVMe рейдов на основе mdadm, LVM и ZFS при использовании iSER и NVMe-oF (100G version) — Part 1 +4

05:06

Мне прислали фишинг под MAX. Я разобрал ссылку и нашёл уязвимость в их API +323

09:13

Центры обработки данных в космосе — это ужасная, кошмарная и совершенно бесполезная идея +74

12:09

f4 0.1.1-alpha: первый публичный релиз асинхронного клона Far Manager на Go +62

13:01

Электровакуумные геттеры. Бариевые газопоглотители +48

08:05

Палиха П-750. Последний телефон с АОН двухтысячных +44

09:01

Вайбкод и безопасность: как не задеплоить уязвимости вместе с фичами +31

08:01

Сколько памяти нужно для жизни: стресс-тест старого и нового железа +21

09:16

Я «нанял» AI-команду разработки и управлял ею через Kanban: опыт на реальном продукте +20

23:08

Промпт-инжиниринг для не-промпт-инженеров +16

14:05

Я люблю «Героев меча и магии», но пару моментов бы поменял +15

10:59

Copy.Fail (CVE-2026-31431) — больше чем LPE +14

19:24

Эволюция как река: почему жизнь не блуждает по бесконечному пространству геномов +11

07:16

Вы неправильно используете clone() в Rust +11

17:18

5 скиллов Claude Code из marketplace, которые я попробовал +10

12:15

Простой мониторинг Synology NAS с Grafana и Prometheus +10

09:49

Чтение на выходные: «Технофеодализм: Что убило капитализм» Яниса Варуфакиса +9

13:56

Классификация галлюцинаций LLM | «Врага нужно знать в лицо» +8

12:23

Как не сойти с ума в 2026 году +8

08:15

7 метрик, которых не хватало моему AI-хуманизатору. Спасибо Хабровской модерации +7

21:24

Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи +6

ОБСУЖДАЕМОЕ

  • Центры обработки данных в космосе — это ужасная, кошмарная и совершенно бесполезная идея +74

    • 173   13000

    Мне прислали фишинг под MAX. Я разобрал ссылку и нашёл уязвимость в их API +323

    • 116   25000

    Карпатый объяснил, почему ваши навыки программирования скоро станут ненужными. Или нет -14

    • 100   13000

    Улучшать себя или создавать «других»? Делегирование субъектности опаснее, чем апгрейд собственного мозга -1

    • 94   6800

    4 научных доказательства того, что люди реально высаживались на Луну +22

    • 64   10000

    РКН объявил войну зарубежным разработчикам игр +28

    • 59   23000

    f4 0.1.1-alpha: первый публичный релиз асинхронного клона Far Manager на Go +62

    • 58   12000

    Я люблю «Героев меча и магии», но пару моментов бы поменял +15

    • 49   16000

    Концепция Байесовского мозга, или Почему этот заголовок в моменте — ваша галлюцинация +33

    • 48   12000

    Эволюция как река: почему жизнь не блуждает по бесконечному пространству геномов +11

    • 47   17000

    Кто смотрит ваши видеокамеры? -5

    • 46   8300

    Мы снова строим новое рабовладельческое общество. Только рабы – цифровые? +2

    • 40   12000

    «Очевидный вопрос» — часть 2. А что, если договора нет? +2

    • 31   7300

    Lolka вместо Discord: обзор молодого российского сервиса для общения +2

    • 24   12000

    Инвестиции. Задаешь неудобные вопросы — теряешь друзей -1

    • 20   6400
  • Главная
  • Контакты
© 2026. Все публикации принадлежат авторам.