Разработка LLM с нуля. Новые модели / forpes.ru

Главная
Разработка LLM с нуля. Новые модели

Разработка LLM с нуля. Новые модели

29.09.2025 12:07

slivka_83 4 1900 Источник

Крупное обновление в моем курсе Разработка LLM с нуля.

Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.

Теперь, помимо GPT-1, нам предстоит реализовать кучу новых LLM:

GPT-2
Llama
Mistral
Mixtral
Gemma

В процессе их разработки мы изучим новые архитектурные фишки:

Pre-norm, RMSNorm — новые способы нормализации
GELU, SiLU, SwiGLU, GeGLU — новые функции активации
KV-cache, SWA — механизмы, позволяющие оптимизировать инференс
RoPE — новый способ кодирования позиционных эмбедингов
GQA, MQA — новые экономичные механизмы внимания
MoE — новая экономичная архитектура для FNN

Курс платный. Следующие две недели по промокоду TRIO предоставляется скидка 30%.

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Комментарии (4)

ahdenchik
29.09.2025 20:37
#28898060
Для разработки будем использовать только Python и низкоуровневый PyTorch

Насколько низкоуровневый?

(Тоже подумываю сделать нейросеть. Но не на питоне)
1. slivka_83 Автор
  29.09.2025 20:37
  #28898092
  Такие модули как nn.Linear и аналогичные ему
  1. Dimoyok
    29.09.2025 20:37
    #28899036
    nn.Linear как раз является высокоуровневой обёрткой над torch.nn.functional.linear. Боюсь спросить, а что выше, чем nn.Linear?) TransormerEncoderLayer?
    
    slivka_83 Автор
    29.09.2025 20:37
    #28899080
    да, готовые блоки типа nn.Transformer не используем.

Разработка LLM с нуля. Новые модели

Комментарии (4)

ahdenchik

slivka_83 Автор

Dimoyok

slivka_83 Автор