Что такое LLMs.txt и LLMs-full.txt и как заставить AI знать документацию наизусть / forpes.ru

Главная
Что такое LLMs.txt и LLMs-full.txt и как заставить AI знать документацию наизусть

Что такое LLMs.txt и LLMs-full.txt и как заставить AI знать документацию наизусть +4

09.12.2025 11:25

Runnin 8 6000 Источник

Мы привыкли к классическому набору любого сайта: robots.txt экономит ресурсы сервера, запрещая поисковикам сканировать мусорные страницы, а sitemap.xml, наоборот, скармливает поисковикам каждую доступную страницу для полной индексации.

Однако ситуация изменилась, когда сайты начали читать не только поисковые роботы, но и языковые модели. Для них существующие стандарты не подходят: sitemap избыточен и ресурсоёмок, а HTML-код создаёт слишком много шума.

Понадобился новый способ доставки актуального, очищенного контекста в сжатом виде специально для AI-агентов и языковых моделей.

В сентябре 2024 года Джереми Ховард (создатель fast.ai) предложил решение в виде стандарта /llms.txt. Давайте разберемся, как он работает, чем отличается от llms-full.txt, какую пользу могут извлечь разработчики и как быстро добавить его поддержку в свой проект.

Проблема: HTML нужен только людям

Когда вы просите ChatGPT, Gemini, Perplexity или Cursor прочитать документацию библиотеки, чтобы написать код, модель сталкивается с несколькими проблемами:

Технические барьеры и глубина: LLM - не поисковые роботы. В чат-интерфейсах модели часто "ленятся" или технически не могут переходить по десяткам ссылок. Если вы дадите ссылку на корень документации, модель часто прочитает только эту страницу. Кроме того, многие сайты построены как SPA-приложения и требуют выполнения JavaScript, с чем встроенные браузеры LLM нередко не справляются, видя лишь пустой <div id="root"></div>
Грязные данные: Современные сайты - это смесь HTML, CSS, JavaScript, рекламных блоков и навигации, которые бесполезно расходуют токены. Даже у моделей с контекстом в миллион токенов есть предел "внимания". Скармливать им весь сайт целиком - это дорого и снижает качество ответов.
Отсутствие приоритетов: sitemap.xml содержит ссылки на всё подряд. LLM не знает, какие страницы важны, а какие второстепенны, устарели или носят юридический характер.

Решение: стандарт /llms.txt

llms.txt — это стандарт чистых данных для нейросетей. Он превращает ваш сайт или документацию в AI-friendly ресурс, гарантируя точные ответы без галлюцинаций по актуальным данным. Стандарт состоит из трех компонентов:

1. Markdown-зеркала страниц

Первая часть предложения - создавать "чистые" версии страниц. Если у вас есть страница документации docs/api.html, по тому же адресу (или с суффиксом .md) должен быть доступен файл с чистым содержимым в Markdown-формате, например:

docs/api.html.md
docs/api.md

2. Файл llms.txt

Это индексный Markdown-файл в корне сайта, выполняющий роль карты. В отличие от sitemap.xml, он содержит ссылки не на все страницы подряд, а только на самые важные и актуальные материалы, специально отобранные для работы с ИИ. Файл включает краткое описание проекта, список ссылок на подготовленные .md-документы и сжатые аннотации к ним. Благодаря этому модель сразу видит приоритеты, понимает структуру проекта и знает, где искать детали.

3. Файл llms-full.txt

llms-full.txt — это файл полного контекста. Он склеивает все страницы из llms.txt в один текст, чтобы передать AI всю базу знаний одним файлом. Этот файл формируется автоматически специальным скриптом.

(В спецификации FastHTML он также называется llms-ctx-full.txt, но такую вариацию почти никто не использует).

Структура файла llms.txt

Хотя Markdown понятен нейросетям и без строгой схемы, спецификация требует соблюдения определенного порядка секций. Это нужно, чтобы классические инструменты (парсеры, CLI-утилиты) могли автоматически собирать контекст.

Порядок элементов следующий:

Заголовок H1: название проекта или сайта (обязательный элемент).
Цитата (Blockquote): Краткое саммари проекта. Самая важная информация.
Описание (Markdown): Произвольный текст с деталями, инструкциями или подсказками для модели.
Секции ссылок (Заголовки H2, H3 и т.д.): тематические разделы с перечислением ссылок.
- Внутри списки вида: [Название](ссылка): Краткое описание
- ссылки должны вести на Markdown-файлы, а не HTML
Секция "Optional" (H2): ссылки на второстепенные материалы. Они игнорируются при сборке сжатого контекста, но попадают в полную версию.

Укороченный пример файла:

# FastHTML

> FastHTML is a Python library that brings together Starlette, Uvicorn, and HTMX for creating server-rendered hypermedia applications.

Things to remember:
- Although its API is inspired by FastAPI, it is not compatible with its syntax.
- It is compatible with vanilla JS, but not with React, Vue, or Svelte.

## Docs

- [FastHTML concise guide](https://www.fastht.ml/docs/ref/concise_guide.html.md): A brief overview of idiomatic FastHTML apps
  
## API

- [API List](https://www.fastht.ml/docs/apilist.txt): A succint list of all functions and methods in fasthtml.

## Optional

- [FAQ](https://www.fastht.ml/docs/explains/faq.html.md): Answers to common questions about FastHTML.

(Оригинал файла можно посмотреть здесь)

Как внедрить (плагины и инструменты)

Поддерживать два набора документации (HTML и Markdown) вручную не вариант. Несмотря на молодость стандарта, для большинства популярных CMS и генераторов уже есть готовые решения.

GitBook: Полностью встроенная поддержка.
nbdev: Инструмент от fast.ai генерирует по умолчанию.

Python экосистема:

MkDocs: плагин mkdocs-llmstxt
Sphinx: sphinx-llms-txt

JavaScript / Node.js

Docusaurus: Плагин docusaurus-plugin-llms
VitePress: Плагин vitepress-plugin-llms
Gatsby: Плагин gatsby-plugin-llms-txt
Eleventy (11ty): Плагин eleventy-plugin-llms
Astro: Плагин astro-llms-txt

CMS

WordPress: Плагины odyssey-llms и llms-full-txt-generator
Drupal: модуль llms_txt

Похожие инструменты можно найти по запросам в поисковиках и на github:
[ваш_фреймворк] llms.txt или llms.txt generator.

Кто уже использует

Хотя llms.txt это инициатива сообщества, а не утвержденный W3C или IETF стандарт, индустрия де-факто приняла его. Несмотря на отсутствие формальной спецификации, он уже применяется в продакшене крупнейших компаний.

Среди внедривших:

Amazon AWS: llms.txt | llms-full.txt
X (Twitter): llms.txt | llms-full.txt
Stripe: llms.txt
Docker: llms.txt
Cloudflare: llms.txt | llms-full.txt
Redis: llms.txt | llms-full.txt
Vue.js: llms.txt | llms-full.txt
Svelte: llms.txt | llms-full.txt
Angular: llms.txt
VitePress: llms.txt | llms-full.txt
Claude: llms.txt | llms-full.txt
Anthropic (MCP): llms.txt | llms-full.txt
Perplexity: llms.txt | llms-full.txt
Cursor: llms.txt | llms-full.txt
ElevenLabs: llms.txt | llms-full.txt

Интерес со стороны разработчиков подтверждает и статистика GitHub. Количество файлов llms.txt в репозиториях исчисляется тысячами.

Динамика популярности плагинов для генерации тоже показательна. Вот, например, как рос интерес к некоторым плагинам в этом году:

Лайфхак для разработчиков

Пользу от стандарта можете извлечь и вы. Попробуйте при изучении документации новой библиотеки допишите к корню сайта /llms-full.txt. Если разработчики внедрили этот стандарт, вы мгновенно получите весь необходимый контекст в одном файле, очищенном от визуального шума.

Загрузив этот файл в LLM с большим контекстным окном, например Gemini 3 вы решаете проблему устаревших знаний и галлюцинаций: модель перестает выдумывать несуществующие методы из версий двухлетней давности и начинает отвечать строго по свежей документации.

Так вы получаете точные ответы на вопросы и возможность комфортного вайбкодинга с актуальным стеком без необходимости вручную копировать десятки страниц или настраивать сложные парсеры.

Заключение

Разработчики всё чаще ищут ответы не в Google, а в диалогах с Cursor, Claude, ChatGPT или Perplexity. Это меняет саму природу SEO: битва за трафик смещается из поисковой выдачи в окно чат-бота.

Внедрение llms.txt это инвестиция сразу в два направления. Во-первых, вы повышаете "AI-видимость" вашего проекта: чистые Markdown-зеркала позволяют моделям давать точные ответы по вашей документации, избегая галлюцинаций. Во-вторых, это стратегическая ставка: логично предположить, что при обучении будущих версий моделей крупные игроки будут отдавать приоритет именно таким структурированным, очищенным от шума источникам, предпочитая их сырому HTML.

Вывод прост: если ваша документация плохо читается нейросетями, она фактически перестаёт существовать для огромной части аудитории. Добавление двух текстовых файлов в корень сайта - это простое но важное улучшение, которое готовит ваш проект к будущему, где веб читают не только люди, но и агенты.

Полезные ссылки:

llmstxt.org - Официальная страница стандарта
llmstxt.site - Каталог сайтов, которые уже внедрили стандарт.
directory.llmstxt.cloud - Еще один каталог сайтов внедривших стандарт

Комментарии (8)

nin-jin
09.12.2025 11:45
#29228158
А можно полную спецификацию этого чудного формата MD? Какой синтаксис у исходных кодов, какой у таблиц?
1. Runnin Автор
  09.12.2025 11:45
  #29228820
  Впервые этот язык разметки выпустили в 2004 силами двух людей, но в той версии было много проблем.
  
  В 2014 контрибьюторы Markdown выпустили однозначную спецификацию и набор тестов CommonMark.
  
  А сейчас есть множество разных "диалектов", например самый популярный сейчас GitHub Flavored Markdown (GFM), который добавляет дополнительные возможности. Ну и другие, реже используемые - Pandoc Markdown, MultiMarkdown, R Markdown
  1. nin-jin
    09.12.2025 11:45
    #29229442
    Спасибо, HabrGPT, что бы мы без тебя делали?
    
    Runnin Автор
    09.12.2025 11:45
    #29229612
    Всегда пожалуйста, хотя могли бы и сами загуглить. Или какой ответ здесь ожидался?
    
    nin-jin
    09.12.2025 11:45
    #29231214
    Ожидалось, что человек разумный выкупит иронию и призадумается.

PashaWNN
09.12.2025 11:45
#29228282
Думается мне, что если такой формат получил бы широкое распространение, то быстро бы появились расширения для браузеров, которые позволяли бы сёрфить по "чистому" интернету без рекламы и перегруженного дизайна. :)
1. Runnin Автор
  09.12.2025 11:45
  #29228750
  Нашелся даже плагин для хрома чтобы детектить наличие llms.txt на сайтах, но почему-то только при ручном нажатии кнопки, а не авто. Еще в браузерах есть "режим чтения", который тоже все лишнее убирает.
  
  А так да, ждем новых решений от энтузиастов :)

exelens
09.12.2025 11:45
#29230802
Без ответов на страницах и богатой семантики этот файл бесполезен. А ещё нужен сайт без технических проблем.

Что такое LLMs.txt и LLMs-full.txt и как заставить AI знать документацию наизусть +4

Проблема: HTML нужен только людям

Решение: стандарт /llms.txt

1. Markdown-зеркала страниц

2. Файл llms.txt

3. Файл llms-full.txt

Структура файла llms.txt

Как внедрить (плагины и инструменты)

Python экосистема:

JavaScript / Node.js

CMS

Кто уже использует

Лайфхак для разработчиков

Заключение

Комментарии (8)

nin-jin

Runnin Автор

nin-jin

Runnin Автор

nin-jin

PashaWNN

Runnin Автор

exelens