Публикации с тегом RL / forpes.ru

Публикации с тегом RL

Machine Unlearning. Как измерить и достичь «забывания»? +11

Как мы обеспечили +33% к точности на сложных SQL-запросах +15

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше +4

Разработка LLM моделей для обновления кода приложений на более высокие версии фреймворков или языков программирования +5

Обыгрываем казино, с блэкджеком и стратегиями +7

Действительно ли у ИИ-агента есть внутренняя картина мира и представление о себе? +2

RL RecSys в проде: хайп или игра вдолгую +8

Динамическая адаптация награды с помощью Pydantic +4

RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI

RLHF. История становления идеи — 3. Supervised finetune, Протокольный сбор обратной связи, Batch RL

RLHF. История становления идеи — 2

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

Создание масштабируемых RL систем с Ape-X

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT +91

Глаза боятся, а ИИ делает: как эмоции помогают ИИ лучше управлять автомобилем

«
1
2
»

Страница 1 из 2