Крупное обновление в моем курсе Разработка LLM с нуля.

Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.

Теперь, помимо GPT-1, нам предстоит реализовать кучу новых LLM:

  • GPT-2

  • Llama

  • Mistral

  • Mixtral

  • Gemma

В процессе их разработки мы изучим новые архитектурные фишки:

  • Pre-norm, RMSNorm — новые способы нормализации

  • GELU, SiLU, SwiGLU, GeGLU — новые функции активации

  • KV-cache, SWA — механизмы, позволяющие оптимизировать инференс

  • RoPE — новый способ кодирования позиционных эмбедингов

  • GQA, MQA — новые экономичные механизмы внимания

  • MoE — новая экономичная архитектура для FNN

Курс платный. Следующие две недели по промокоду TRIO предоставляется скидка 30%.

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Комментарии (4)


  1. ahdenchik
    29.09.2025 20:37

    Для разработки будем использовать только Python и низкоуровневый PyTorch

    Насколько низкоуровневый?

    (Тоже подумываю сделать нейросеть. Но не на питоне)


    1. slivka_83 Автор
      29.09.2025 20:37

      Такие модули как nn.Linear и аналогичные ему


      1. Dimoyok
        29.09.2025 20:37

        nn.Linear как раз является высокоуровневой обёрткой над torch.nn.functional.linear. Боюсь спросить, а что выше, чем nn.Linear?) TransormerEncoderLayer?


        1. slivka_83 Автор
          29.09.2025 20:37

          да, готовые блоки типа nn.Transformer не используем.