• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
09:26

Расследование: отечественные микросхемы в счетчиках электроэнергии – миф или реальность? +29

11:36

От массивов до объектов в JavaScript: пособие для новичков +25

07:05

Плазменная антенна — как альтернатива металлическим конструкциям +22

09:01

Чем различаются гитарные усилители? +21

04:34

Первый Спутник, язык FORTH и немного о JIT-компиляции +20

11:58

Shardman. Краткое пособие архитектора +17

10:35

Как используются динтаблицы YTsaurus: рекламные профили поведенческого таргетинга +16

08:16

Мой опыт создания огромной книги по математике в LaTeX +14

07:50

Через диммеры — к звездам +14

07:00

Самое дорогое удаление зубов мудрости +14

12:35

Demoded: разбор олдскульных демо-эффектов на примере +12

04:42

Начальник контролировал всё: ввел отчеты по часам, просил скрин экрана и считал походы в туалет +12

13:01

Как не попасть на плохой хостинг: топ-15 признаков +11

05:58

Перестаньте переживать об allowPrivilegeEscalation +11

09:27

Почему компании выходят из облака? +10

08:05

Выгорание в IT. Как распознать первые сигналы и не сгореть +10

15:05

Онбординг в графиках: как превратить адаптацию в измеримый и предсказуемый процесс +9

13:00

Proxy-войны: Кто быстрее, надежнее и масштабируемее в 2025? (HAProxy vs NGINX vs Envoy) +9

12:00

Как я встроил процесс тренировок в свою жизнь (и собрал спортзал дома, вложив $400 в течение 2-х лет) +8

10:55

Падение Data Mart и 100 миллиардов записей в ОЗУ. История о том, как починить в одиночку вендорский баг +8

05:16

ICN Holding: самая кринжовая финансовая пирамида в мире +170

07:00

Знакомьтесь — это скутоид! И он часть вашего организма +94

13:01

Как меня едва не уволили из Apple (в первый раз) +70

07:28

Звонки через Jabber в докер-контейнере за 5 минут +70

14:05

Сложно о простом. Все, что бы вы хотели знать о SFP модулях. Часть 1. Эволюция модулей и базовые понятия +46

12:27

Батин стол айтишника-удаленщика +45

08:56

Как адаптировать аналитику для тех, кто не хочет разбираться в графиках +43

12:28

Паттерны проектирования в Python, о которых следует забыть +39

22:10

Прогресс без доступа к его плодам: парадокс деградирующей медицины +38

09:01

Большие стройки новых ЦОДов в РФ на паузе, но спрос и цены продолжают расти +32

16:20

Тест новых аккумуляторов GP ReENERGY +30

08:10

Как фанфик по Гарри Поттеру стал лучшей книгой по рациональному мышлению для программистов +30

08:00

Вы не знаете TDD +26

13:37

LLM и их хрупкая логика: новое исследование ставит под сомнение Chain-of-Thought +18

08:02

Дневник инженера: часть 1. IPS в NGFW. Не только про сети, но и про безопасность +18

11:47

UX-исследование в Китае: как обойти культурные барьеры и собрать полезные инсайты +16

09:21

Опасный пассив на балансе: технический долг в вашей инфраструктуре +16

11:20

Как платформа Linear завела меня в кроличью нору local-first-разработки +15

06:50

Загорелась крыша — и вот что произошло через 15 минут +15

13:44

Почему квантовая электродинамика — самая точная теория в истории науки? +14

09:00

Технический разбор Max: что внутри APK +158

09:03

Революция вайб-кодинга отменяется +98

12:31

История IP-KVM в дата-центрах Selectel, или прелесть open source-проектов +63

13:01

Oric-1 и Atmos против ZX Spectrum: битва за рынок домашних ПК +61

06:44

Ради чего люди ходят на работу? Пять типов мотивации по Герчикову +58

09:01

«Великолепный» CSS. Коллекция странностей CSS, на которые я потратил кучу времени +54

08:06

Математика, биты, магия и немного ненормального программирования на C +50

08:20

Этот увлекательный мир радиоприёмников +37

06:58

Victor 9000: попытка сделать IBM PC «лучше IBM» +32

16:54

Девиртуализация в C++, компиляторах и вашей программе +30

11:30

Эволюция внимания в LLM: от квадратичной сложности к эффективным оптимизациям +29

08:35

Улучшаем JavaScript-код с помощью стрелочных функций +28

07:01

От REST-монолита к гибкой архитектуре GraphQL-федерации: реальный кейс Авто.ру +27

11:05

Что квантовая механика говорит о природе реальности? Физики сильно расходятся во мнениях +25

18:46

Деградация батареи в Linux +20

14:31

Правила восстановления после выгорания или три айтишника в одной палате +20

13:42

Наш опыт с Cassandra и ScyllaDB: какие есть ограничения у этих key-value-БД и почему стоит присмотреться к альтернативам +20

16:46

Тот, кто знал слишком много: история Хьё Минь Нго +17

10:19

[В закладки] Гайд по составлению ТЗ для внутреннего пентеста +17

05:20

Как я оцифровал семейный архив +17

ОБСУЖДАЕМОЕ

  • Революция вайб-кодинга отменяется +98

    • 236   57000

    Технический разбор Max: что внутри APK +158

    • 191   145000

    Батин стол айтишника-удаленщика +45

    • 158   37000

    Ради чего люди ходят на работу? Пять типов мотивации по Герчикову +58

    • 76   37000

    Прогресс без доступа к его плодам: парадокс деградирующей медицины +38

    • 63   5700

    Как я решила проблему ухода за котом во время отпуска: автономный лоток + смарт-кормушка с камерой +10

    • 59   13000

    Вы не знаете TDD +26

    • 50   4500

    Звонки через Jabber в докер-контейнере за 5 минут +70

    • 50   12000

    ICN Holding: самая кринжовая финансовая пирамида в мире +170

    • 45   21000

    Подключение к нескольким Linux-серверам по SSH без ввода пароля: пошаговое руководство -7

    • 42   6200

    Что квантовая механика говорит о природе реальности? Физики сильно расходятся во мнениях +25

    • 42   13000

    История IP-KVM в дата-центрах Selectel, или прелесть open source-проектов +63

    • 40   5000

    Этот увлекательный мир радиоприёмников +37

    • 39   16000

    Passkeys как альтернатива CAPTCHA: миф или будущее? -1

    • 38   716

    О панпсихизме и его главной проблеме +8

    • 35   1700
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.