• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • GoTo Data Science Challenge 2: гранты на летнюю школу

GoTo Data Science Challenge 2: гранты на летнюю школу +5

24.04.2017 10:17
bibilov 0 1800 Источник
Промышленное программирование*, Программирование*, Машинное обучение*, Python*, Блог компании Школа GoTo

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.


image


Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.



Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.


В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.


Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь.


Дальнейшее развитие решения ограничено только вашей фантазией:


  • можно по-разному предобрабатывать текст (выбрасывать частотные слова, использовать стемминг);
  • использовать не частоты, а tfidf, брать представления слов из предобученного word2vec;
  • обучать на этом всем деревья, нейросети, строить ансамбли моделей.

Больше примеров можно найти ниже:


  • Форум данного соревнования на Kaggle,
  • Описание возможностей библиотеки NLTK,
  • Вводные материалы по машинному обучению от нашей школы, возможно, тоже помогут тем, кто только начинает разбираться в этих темах.

Чтобы подать заявку на грант нужно выполнить следующие шаги:


  • Подать заявку на участие до 20 мая на сайте школы с пометкой "Хочу грант" и получить детали проведения конкурса.
  • Принять участие в kaggle-соревновании, в нике для рейтинговой таблицы добавить суффикс [GoTo].
  • Постараться оказаться как можно выше в итоговой таблице.
  • До 4 июня отправить свой ник в таблице и исходный код в формате jupyter тетрадки с комментариями о том, что и почему вы сделали, какие идеи улучшили качество модели, а какие нет, и как вы это проверяете. Если претендуете на денежный приз от Quora, код можете выслать по окончанию конкурса.

По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.


О школах:


image


13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.


Все вопросы или предложения можно присылать на school@goto.msk.ru.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Промышленное программирование

Программирование

Машинное обучение

Python

Блог компании Школа GoTo

анализ данных

машинное обучение

летняя школа

проектный подход

хакатон

Kaggle

обучение

грант

конкурс

школьники

студенты

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • GoTo Data Science Challenge 2: гранты на летнюю школу +5

    • 24.04.2017 10:17

    Гантель как орудие ума +4

    • 28.03.2017 09:23

    Весеннее обострение: проектная школа в Иннополисе, методический интенсив и митап по инфобезу +6

    • 22.03.2017 10:00

    «Программист — Аналитическое мышление = 1С программист» и другие результаты GoToHack +4

    • 27.12.2016 12:10

    Проекты школы GoTo: рекомендательная система для новостного портала +10

    • 19.10.2016 11:45

    Городской АД: школьники и студенты +6

    • 14.07.2016 10:10

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
07:00

Нейро сети для самых маленьких. Часть первая (которая после нулевой). Удобство в прокрустовом ложе оптимизации +23

08:11

Не только красные и синие — новые серверные процессоры от Qualcomm и Hygon +20

07:52

«Гражданин, обновитесь»: анализ вредоносной кампании Falcon +20

07:00

Сегментация опухолей головного мозга на МРТ-снимках с акцентом на точность границы +17

08:00

Кастомизация Битрикс24 на платформе Вайбкод: создаём паспорт клиента +14

06:31

Лучший способ изучить разработку с Qt +14

07:06

Клод Шеннон. Информатика на максималках +13

06:52

Работодатели давно играют в волков. Просто теперь соискатели научились отвечать +12

09:40

Как вайбкодинг довел меня до депрессии, а потом привел к вайб‑инжинирингу +11

08:57

TPC-DS в 07.2026. Lakehouse: Spark, Trino, StarRocks, Impala и Doris. Greenplum & Cloudberry vs StarRocks как MPP +10

07:35

Контекстная инженерия для слабой локальной модели: как мы делаем среднюю модель надёжной +9

07:01

Автомобильные сигнализации РФ и их безопасность. Часть 1 +8

08:49

Не Bluetooth, а Wi-Fi: третья версия моей мощной портативной Hi-Fi акустики +7

07:00

Go vs GoF: положите паттерны ООП на пол и отойдите +7

08:30

Хватит прятать ключи под ковром: переносим их в облачный сервис управления ключами (KMS) +6

08:20

Навигация в Jetpack Compose без магии: что на самом деле делают библиотеки навигации +6

08:11

65 бесплатных уроков июля: от LLM и RAG до Kubernetes, Go и QA +6

08:10

Совет требует ИИ, а данные не готовы. Как ESM даёт фундамент, который не провалит пилот +6

06:57

История первого робота-пылесоса и его грандиозный провал +6

08:10

Машинное зрение: патенты в мире и в России +4

08:32

Что такое парадокс изогнутой трубы — и почему интуиция нас подводит +162

10:05

Почему я ухожу из Timeweb Cloud: 46 часов простоя в Амстердаме за два месяца — по данным самого хостера +83

12:00

Пузырь ИИ лопнул? Бизнес отказывается от ChatGPT, а Microsoft пытается спасти положение софтом: ML-дайджест +55

12:30

Passkey без Apple, Google и облаков: делаем собственный аппаратный ключ за 4 евро +52

18:44

PostgreSQL для бэкендера: 10 фич, которыми мало пользуются, а зря +49

09:02

Почему cron — самый опасный инструмент в Linux +44

07:03

Почтовый ящик пандоры. Какие сервисы работают с внешними почтовыми клиентами в России в 2026 году +35

14:42

Почему сгорел Нотр-Дам: человеческий фактор, SHERPA и HTA в UX-проектировании интерфейса +29

13:01

Flappy Bird: делаем игру сложнее и добавляем автопилот на чистой математике +29

07:05

kafkactl — другой взгляд на работу с Kafka +29

07:04

Умеют ли трансформеры водить машину +28

07:01

Шахматная память: как гроссмейстеры запоминают тысячи партий и почему это не мнемотехника +27

09:17

Почему опасно покупать Intel Core i7 и i9 с рук: разбираемся с деградацией процессоров 13900K и 14900K +23

09:09

Проектируем с нуля калькулятор на FPGA. Часть 6: CPU +23

17:57

Антенный ротатор на PTZ 3050DZ +22

08:01

Распределённый монолит: как одну проблему превратить в целый кластер проблем +20

14:27

Я больше не объясняю нейросети контекст. Вот что я сделал вместо этого… +18

08:00

Как мы реализовали оптимальное обучение CV-моделей в Luna Line. Часть 2. Сегментация +17

10:26

Я декомпилировал свою зависимость: как программист раскидал курение на 100+ субличностей и перестал курить +16

07:01

Реконструкция мониторинга в ЦОД без боли и переучивания персонала +16

15:10

Народная карта бензина собрала почти 2 млн посетителей за три дня. Её навайбкодил один человек +108

05:26

Как Яндекс меня кинул на фестивале для будущих яндексоидов, или Хроники одного YoungCon +62

07:01

Манипуляция ответами нейронок — как сеошники убивают интернет +58

05:05

Как одна операция из линейной алгебры захватила мир ИИ +54

07:59

Как мы работаем со студентами: дипломы, которые становятся частью YDB +46

07:59

Как мы работаем со студентами: дипломы, которые становятся частью YDB +46

11:12

Event Sourcing в платформе данных: миграция с JSON на Avro +42

07:05

Размагничивание кораблей: мины, физика и Курчатов. Часть 2 +42

11:13

Айсберг Доменов Верхнего Уровня (ICANN и не только) +41

09:01

TeamPCP: как команда хакеров-любителей «Дюны» закинула в наши Node.js-пакеты червей Shai-Hulud +41

21:02

Рунет без Google Login: что теперь делать с авторизацией +37

13:01

Триллионы километров данных: ваш автомобиль следит за вами, и это только начало +36

06:00

Человек-легенда, давший нам Спектрум и предсказавший ИИ +34

07:06

Семь раз подумай, один раз пошардируй: как мы начали горизонтально масштабировать метаданные чатов Телемоста +33

11:19

Как я переехал с Altium Designer на KiCAD +31

08:09

Обзор необычного и очень мощного мини-ПК Khadas Mind 2 +31

15:05

И снова самый быстрый парсер JSON. Очередной +27

18:13

Как «ужать» мегаполис до размеров iPhone 4 +25

17:14

Что на самом деле означают теоремы Гёделя о неполноте? +25

06:28

Забор из волшебных палочек +24

ОБСУЖДАЕМОЕ

  • Народная карта бензина собрала почти 2 млн посетителей за три дня. Её навайбкодил один человек +109

    • 199   45000

    Рунет без Google Login: что теперь делать с авторизацией +37

    • 131   25000

    Почему я ухожу из Timeweb Cloud: 46 часов простоя в Амстердаме за два месяца — по данным самого хостера +83

    • 127   20000

    Кажется я выяснил кто открыл Америку -10

    • 92   11000

    Что такое парадокс изогнутой трубы — и почему интуиция нас подводит +162

    • 80   24000

    Что лучше — C++ или C#? +6

    • 63   9500

    Как Let's Encrypt, только роднее: автоматическое получение бесплатного RSA DV-сертификата НУЦ +18

    • 59   11000

    Что на самом деле означают теоремы Гёделя о неполноте? +25

    • 57   14000

    Дело на вечер: собираем домашний ИИ-сервер +17

    • 54   16000

    Почему Минобрнауки боится ИИ и правда ли, что дипломные работы утратили смысл? +6

    • 39   11000

    Почтовый ящик пандоры. Какие сервисы работают с внешними почтовыми клиентами в России в 2026 году +35

    • 39   9500

    И все‑таки самая реальная защита дома или квартиры — электронно‑механический шлюз -10

    • 39   8500

    Почему «удалёнка» съедает ROI компании: расчёты потерь -1

    • 32   11000

    Отрежьте мне миллиард символов: как C++20, string_view и шаблонный ад могут скрывать баг годами +19

    • 31   11000

    VK выпилили из AppStore, а также рекордная жара в Европе +21

    • 30   14000
  • Главная
  • Контакты
© 2026. Все публикации принадлежат авторам.