• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
08:00

Мод всему голова: случаи, когда фанатский игровой контент лег в основу официальных релизов +25

08:53

Как я сделал senior-стол за $1000 +23

07:03

Что такое преобразование Фурье? +22

09:01

Пик карьеры: вершина, тупик или начало крутого спуска? +20

11:20

«Я сделал синтезатор для дочери» +15

07:01

Как мы создаём HD-карты для автономного транспорта: устройство map-editor +14

09:38

Почему мы гуглим, но не умнеем? Эффект узкого поиска +12

10:53

Open source понарошку? Продолжающийся переход на source available, а также набирающий обороты феномен openwashing +11

08:47

1 ИИ, 100 чашек кофе и 365 дней: как превратить онбординг инженеров техподдержки в квест +11

13:16

Астероид для IT-индустрии: как пережить AI-апокалипсис +10

09:51

Docker для самых маленьких: упаковываем Python-бота за 10 минут +10

11:39

Пока вы боитесь потерять работу из-за ИИ, бизнес боится потерять вас +9

09:29

Чтобы сдавать проект всего за 2 месяца, нужно 60 лет и простой советский… +9

09:02

Аутсорсинг и приказ ФСТЭК №117, теория РБПО, инструменты +9

09:01

Интеграция пеcочницы с CommuniGate: наш опыт работы с API +9

08:10

Как производительность Low-code платформы SimpleOne выросла в 16 раз: архитектура, практика и метрики +9

13:01

Хватит писать CSS с нуля: как Chakra UI экономит время и нервы разработчика +8

10:56

Книга: «Алгоритмы машинного обучения» +8

07:05

Экспресс-опрос: как за 10 минут узнать, что на самом деле думает команда о спринте +8

12:43

История интернет-общения за 30 лет: от форумов и аськи до Zoom и Telegram +7

07:30

Вы не сможете это развидеть: краткий гайд по определению LLM-текстов на Хабре +262

09:09

В кэше — фотка, в ней payload: новый метод скрытой доставки зловредов +55

07:00

Открывашка из трубки домофона +54

09:01

Мои любимые CSS-трюки, которые вы могли упустить +52

08:00

Что происходит, когда вы добавляете строку в PostgreSQL +44

13:00

Sipeed NanoKVM: что умеет крохотный кубик RISC-V для удаленного управления компьютером +41

10:01

Облачное зеркало на VPS: бэкапы, снапшоты и образ диска +32

16:05

Щёлк-щёлк — и поехали: как релейная автоматика стала прообразом IIoT. Часть 1 +30

13:01

Как хостинг пережил дотком-кризис, когда многие ИТ-компании обанкротились +30

08:05

Система мониторинга и подсчета перелетных птиц +26

11:33

Koda CLI: AI-помощник прямо в терминале – бесплатно, без VPN, с топовыми моделями +25

15:01

Я устроился джуном в open source проект. Вот что получилось +24

07:43

Samsung Q1: крошечный ПК, который пытался изменить мир +22

13:16

Как мы разработали решение, чтобы ловить сбои в логировании +21

13:09

Как я искал работу в IT и получил 5 офферов +20

07:05

Закрепи меня покрепче: Pin, самоссылки и почему всё падает +20

13:47

Отличи технологию от поп-артефакта: испытай свою IT-эрудицию в тесте Рунити +19

15:08

Ликбез о плавающей точке: сложение, катастрофическое сокращение и бабушка Кэхена +18

09:56

Система объектов из Quake: шелл-скриптинг для игр +17

08:31

Специфика перехода к сервисной архитектуре в финтех-проектах: кейс команды разработки финтеха ВКонтакте +17

ОБСУЖДАЕМОЕ

  • Вы не сможете это развидеть: краткий гайд по определению LLM-текстов на Хабре +262

    • 161   14000

    Как я искал работу в IT и получил 5 офферов +20

    • 87   26000

    Прекратите создавать интерфейсы +15

    • 80   21000

    Ozon, Mail, Yandex — все в кризисе IT -7

    • 72   1400

    Гипотеза о роли скрытого описательного языка в механизмах мышления и о том, как у этого языка появляется смысл +15

    • 38   2300

    Windows XP: 20-летняя система до сих пор работает на миллионах устройств +10

    • 30   8900

    Увы, ваш синтаксис подсвечен безграмотно +6

    • 28   4700

    «Мой друг без знания программирования за несколько месяцев создал готовую LMS». Как вайб-кодинг меняет разработку -17

    • 27   5200

    «Тебе не продают игру, а арендуют право в неё играть». Так ли это? +6

    • 26   2300

    Sipeed NanoKVM: что умеет крохотный кубик RISC-V для удаленного управления компьютером +41

    • 25   5600

    Я построю свою метеостанцию, с E-Ink и Tuya +4

    • 25   3600

    Сколько производительности съедает Kubernetes: сравниваю native PostgreSQL и CloudNativePG в Yandex Cloud +6

    • 23   3100

    Три интересные логические задачи +4

    • 22   2200

    Трафик из нейросетей: как попасть в выдачу ИИ и превратить нейроответы в новый канал продвижения +7

    • 21   2800
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.