На вопрос «Чем локальная модель лучше коммерческой top‑quality модели от Anthropic, OpenAI или Google?», — обычно отвечают: приватность. На самом деле это не совсем так. Приватность важна, но не только она. У локальных моделей есть более важные качества, которые я опишу в этой статье.
Первое преимущество локальных моделей
У больших моделей от Anthropic, OpenAI или Google есть одно качество, которое ужасно раздражает — это качество ответов. Например у меня есть задача, которую мне нужно срочно решить. Понятно, что я активно работаю с кодом и моделью. В начале дня — все летает, модель дает корректные ответы, я хорошо выспался и работа движется быстро. Ближе ко второй половине дня — становится сложнее, я уже не такой свежий да и модель оказывается тоже начинает подтупливать. Но работа срочная — нужно сделать, к вечеру — осталось уже совсем чуть‑чуть, час, может полтора. Но не тут‑то было — модель начинает конкретно тупить и время тратится уже больше на общение с моделью и на попытку объяснить ей какую‑нибудь элементарную задачу.
Когда я столкнулся с этим впервые, я уже порядком устал и не сумел вовремя понять, что это не я туплю, это просто просело качество ответов. В результате провозился далеко за полночь, хотя к пяти вечера был уверен, что еще часок и свободен. Сейчас понятно как с этим работать, но все равно приятного мало.
УGoogle, Anthropic и OpenAI подход немного отличается. Например, Google просто молча снижает качество. Ты оплатил подписку, заплатил $, выбрал модель, которая как кажется обеспечивает нужное качество, а качество ответов потихоньку сползло в ноль. У Anthropic — лимиты: это более прозрачно, кажется, что окей, я заплатил денежку, выбрал нужную модель, работаю внутри лимита, значит, получаю качественные ответы.
А Вы в этом уверены? Что, если в данный момент AI получил слишком большое количество запросов? Что должна сделать компания? Отключить сессии у бесплатных и низкомаржинальных пользователей, сказать, что сервер недоступен, заставить всех пользователей ждать по полчаса? Все это негативный пользовательский опыт, который аукнется потерей клиентов. А может, просто поставить балансировщик, который будет отправлять простые запросы более простым моделям? Да, качество немного просядет, но большинство пользователей этого скорее всего не заметит. Ну потупит ваша модель немного, ну потратите вы 3 часа вместо двадцати минут, ну так в некоторых случаях это даже хорошо! Токенов‑то вы используете больше! Значит и заплатите тому‑же Anthropic больше!
Вообще это действительно интересно. Модель подписки подразумевает, что клиент оплачивает услуги определенного качества, а поставщик эти услуги предоставляет, как например с электричеством, или с телефонной связью. Но что, если покупатель не имеет средств определить качество предоставляемой услуги? С телефоном все понятно: слышно или нет, быстро грузятся сайты или нет, а как вы оцениваете качество ответов нейросети?
Собственно отсюда следует простой вывод - если нет объективных критериев оценки качества работы модели, а требование бизнеса - продать максимально дорогую модель максимально большому количеству пользователей - то качество моделей скорее всего будет деградировать, а цена расти. Собственно это и можно видеть на рынке: модель которая вышла полгода назад и которая изначально поражала эффективностью, постепенно начинает все больше и больше тупить и через полгода выходит новая модель.
Сейчас очевидно идет бурный рост AI сектора, поэтому цены не сильно растут, а качество моделей улучшается — крупные игроки пытаются захватить место под солнцем, но развитие технологии делает модели не только умнее но и эффективнее (сравните модели сейчас и 3 года назад). Мы с вами не знаем, что в приоритете у крупных компаний — улучшение мыслительных способностей моделей или их экономическая эффективность.
Можно предположить, что если у компании есть выбор:
сильно улучшить когнитивные способности модели при увеличении стоимости;
сохранить/немного увеличить уровень при существенном снижении стоимости.
Коммерческая компания выберет второе. Точнее она выберет поддержание способностей модели на конкурентном уровне при максимально возможном снижении цены. Почему? Потому, что большинство пользователей не может заметить снижение качества.
«А что же тесты?» — скажет возмущенный читатель. Тесты это хорошо, но во многих моделях можно, например, ограничить количество токенов на рассуждение, можно поменять другие параметры, да в конце концов можно поменять саму модель, например выпустить суперумную Opus 4.6.0 а потом когда большинство тестов будет сделано заменить ее на Opus 4.6.1, а со‑временем и на Opus 4.6.8, а там и на Opus 4.7 перейти. Это все еще тот Opus 4.7, за который вы платите? Компания не дает гарантий, что не будет файнтюнить модель (по крайней мере на подписке 20$). Поэтому и параметры модели могут немного меняться, никто ничего не нарушает.
Конечно, все вышеперечисленное — это просто мое рассуждение, которое смело можно назвать спекуляцией, и если где‑то существуют ответы на поставленные вопросы, я буду рад, если мне подскажут, как их найти. Но пока их нет — я сделаю первый вывод:
Основным недостатком коммерческих моделей является отсутствие гарантий стабильного качества ответов. В каждый отдельный момент времени вы не можете проверить, что модель возвращает вам ответы надлежащего качества.
С другой стороны, если вы запускаете локальную модель — вы имеете гарантию, что качество ответов постоянно и определяется настройками модели, которые вы установили. Мне это напоминает системы реального времени, система реального времени может не обеспечивать мгновенное выполнение задачи, она может быть даже довольно медленной, но она обеспечивает гарантированное выполнение задачи в заданный промежуток времени. Также и локальная модель — она может не обеспечивать такой же уровень интеллекта, как топовая модель, но она обеспечивает гарантированное качество ответа, которое не зависит от времени и не зависит от количества вопросов, которые вы уже задали. Это преимущество локальных моделей.
Второе преимущество
Вторым преимуществом вытекающим из первого является стоимость использования. Это довольно спорное преимущество, однако я приведу несколько аргументов в защиту этого тезиса.
Очевидно, что если коммерческие компании, которые предоставляют доступ к LLM: OpenAI, Google, Anthropic и прочие — заинтересованы в максимизации прибыли. Очевидно, что сейчас эти компании работают в убыток, сжигая капитал, и пытаясь опередить друг друга, и занять лучшие рыночные позиции, но это не может продолжаться долго. Это значит, что компании будут вынуждены начать повышать цены на доступ к моделям. Скорее всего, мы увидим серьезную сегментацию рынка:
топовые и специализированные модели с гарантированным качеством будут стоить десятки тысяч долларов в месяц — например специализированные модели, которые смогут обеспечивать круглосуточное управление производством, выполнять аналитические и финансовые задачи, обеспечивать инвестиционное управление и так далее;
супер дорогие модели для выполнения государственных и военных задач;
специализированные модели попроще — для бизнеса, скорее всего в диапазоне от нескольких сотен до нескольких тысяч долларов, в зависимости от квалификации и возможности подключения локальных источников данных;
модели общего назначения (чат-боты) с негарантированным качеством, достаточным для решения большинства задач обывателя, с недорогой подпиской в районе 20$.
Понятно, что прогнозирование будущего — дело неблагодарное, и невозможно сказать, что будет на самом деле, но конечность ресурсов, даже очень крупного бизнеса, и то, что любой бизнес направлен на получение прибыли заставляет думать, что движение будет в сторону роста цен.
Можно сказать, что хотя локальные решения и требуют инвестиций на начальном этапе, но цена их использования не будет увеличиваться с каждым годом, а с учетом амортизации оборудования, скорее всего, будет уменьшаться.
Тут можно возразить — апгрейд оборудования тоже стоит денег, и это правда. Но давайте честно, в данный момент прогресс AI решений в значительной степени зависит от прогресса LLM моделей. Например, я использую GPU RTX4090, и если сравнить производительность моделей которые я запускаю сейчас и которые я запускал 2–3 года назад — разница колоссальная, хотя железо осталось то же самое. Если разработан пайплайн, который соответствует задачам и эффективно использует имеющиеся данные, этот пайплайн может быть легко переключён на более новую и качественную модель. Более того, если этот пайплайн обеспечивает необходимое качество, так ли нужно его менять? Это чем‑то похоже на сотрудника компании: если у вас есть сотрудник, который хорошо выполняет свою работу, и вы им довольны, будете ли вы его менять на студента, просто потому, что студент на 20 лет моложе? Тут можно предположить, что построив эффективное локальное решение, люди и бизнес будут потихоньку менять модели, иногда менять оборудование, но затраты не будут сильно превышать обычные затраты на имеющуюся IT‑инфраструктуру.
Понятно, что локальная модель с настроенными пайплайнами — это еще не все. Что бизнес, скорее всего, захочет доработку пайплайнов и техническую поддержку, но собственно, чем это отличается от обычного IT?
Таким образом, с одной стороны мы имеем практически гарантированный рост цен на услуги LLM провайдеров, а с другой стабильность и прогнозируемую стоимость владения локальных моделей. С моей точки зрения — здесь преимущество локальных моделей.
Третье преимущество
Третьим преимуществом локальных моделей является приватность. Да, это уже всем надоело, но приватность при общении с LLM намного важнее, чем приватность вашего поиска в Google! Не согласны? Давайте рассмотрим несколько примеров:
Допустим, у вас нет никаких особых пайплайнов, и вы просто используете чат. Как вы его используете? Вы задаете вопросы и получаете ответы, и очевидно, что вы спрашиваете то, чего вы не знаете. Вы узнаете что-то новое и модель тоже узнает вместе с вами, вы валидируете данные модели (да и вы платите за это деньги). Допустим, вы придумали классную штуку (новый бизнес, новый товар, новую услугу, новое лекарство, супер‑пупер варп двигатель) — никто на всем белом свете об этом не знает, а модель уже знает. И если работа модели построена правильно — она уже знает о вашем изобретении намного больше чем вы. Просто потому, что она быстрее, она уже проанализировала последствия внедрения, возможные трудности, стратегии и множество других вопросов, о которых вы даже не подумали. Скажите, а то, что вы только‑что придумали и обсуждали с моделью — это еще ваше изобретение? Что насчет приватности? Кому модель сообщит о новом открытии, новой бизнес идее, новом товаре или услуге? Кто готов заплатить за такую информацию?
Следующий пример — реклама. Все знают об этом примере. Но по большому счету, модель может нас убедить использовать практически все, за что заплатит рекламодатель. Если, например, вы не уверены, куда поехать в отпуск: модель легко приведет вам кучу аргументов почему одно место лучше, чем другое, а так как вы не уверены и не знаете — то и проверить не можете. А LLM модели весьма убедительны. К тому же, модель будет гарантированно знать, что вы думаете по обсуждаемому вопросу, вы сами ей об этом расскажете. Это эффективнее, чем отправить к вам индивидуального продавца, потому что продавец — это человек, вы ему всего не расскажите, а модель создает ощущение приватности: вы один в комнате за компьютером, — и механизмы защиты не работают.
А ещё, используя коммерческие модели Anthropic, OpenAI или Google — мы создаем «новый Facebook»! Почему? Все просто: ценность Facebook, как и многих других ресурсов, создают пользователи. Они создают контент, за которым приходят другие пользователи. Именно контент пользователей продвигает такие ресурсы в поиске Google. Благодаря контенту миллионов пользователей в Facebook никому не интересен маленький частный сайт. И это происходит сейчас в мире моделей — пользователи создают контент. На первом этапе для обучения моделей использовались знания интернета (по сути, знания, доступные всем), но сейчас миллионы пользователей ежедневно взаимодействуют с моделями, создают новые знания, учат модели, как думать, как писать код, строить архитектуру, проводить анализ, решать инженерные задачи. Именно сейчас модели высасывают человеческие знания, опыт, логику. Мы спрашиваем, они отвечают, мы поправляем, говорим, что правильно, а что нет, мы рассуждаем, проверяем гипотезы, и они учатся на наших рассуждениях. На самом деле люди учат модели думать. Сотни, тысячи лет тренировки — каждый день. Как вы думаете, они научатся?
-
Ну и еще один пример — предметные знания. Бизнес‑процессы и знания, накопленные в крупных компаниях и корпорациях, то, что они пытаются защитить. Можно разделить их на несколько категорий:
экспертные знания (например знания и опыт инженера‑электрика, врача, эксперта в какой‑либо области);
информация о бизнес‑процессах и структуре;
финансовая и коммерческая информация.
Очевидно, что для бизнеса это не просто приватность, а жизненно важная информация, которая должна быть защищена.
Таким образом, мы видим, что на самом деле приватность — действительно важна, но это не единственное и возможно даже не основное преимущество локальных моделей.
Четвертое преимущество
Четвертым преимуществом локальных моделей является доступность. Вы не зависите от того, что кто‑то отключил интернет, что кто‑то обесточил дата центр, или OpneAI обанкротился (пока еще нет). Если вы используете локальную модель вы имеете значительно большую устойчивость процессов. Если локальная модель использует локальные источники данных — вы можете продолжать работу, даже если произошли большие неприятности (конечно, если у вас есть генератор).
Но нельзя же сравнивать!…
Хорошо, это всё понятно, но давайте честно — это все бла‑бла‑бла! Ведь очевидно, что Claude более сильная модель чем Qwen3.6–27B ну невозможно даже сравнивать! Конечно да! Но!
Claude или любая другая ведущая коммерческая модель умеет значительно больше, чем локальная Qwen, но даже она не всё делает сама. Обычно модели используют различные инструменты и пайплайны. Например, вам нужно найти и сравнить документы из локальной базы данных, найти ответ на вопрос на основе документов в электронной библиотеке, провести исследование в интернете. Можно просто спросить Qwen — она загрузит информацию с каких‑то сайтов и предоставит результат. Хороший это будет результат? Сложно сказать, зависит от вопроса и от информации, которую нашла модель. Будет ли поиск через Claude лучше? Наверно да. Но как вы думаете, как Claude выполняет поиск в интернете? Я, например, не знаю. Я знаю, что Qwen (если я использую веб-поиск через Open WebUI) генерирует запросы → отправляет их в интернет → получает ответ → ищет в ответе нужную информацию → на основе этой информации генерит ответ. В этом сценарии — если Qwen не нашла необходимой информации, она не будет отправлять повторный запрос, а просто сгенерит какой‑то ответ. Что сделает Claude? Скорее всего, проанализирует полученную информацию, если ее недостаточно — сформулирует новые запросы и так далее. Конечно я не могу знать наверняка, но скорее всего, будет работать какой‑либо пайплайн, который и обеспечит необходимое качество поиска. Может ли Qwen работать по такой схеме? Конечно, только ей необходим пайплайн.
Но будет ли такой пайплайн обеспечивать необходимый результат? Скорее всего да. На самом деле, подумайте, как вы ищете какую‑либо информацию. Действия, которые мы для этого делаем, довольно просты: сформулировать запросы, просмотреть ресурсы, проверить, есть ли на нужных ресурсах (в нужных книгах, статьях, записях, приказах, и тому подобное) необходимая информация, если нужно проверить ссылки, возможно уточнить что‑то, далее сделать саммари. При этом мы тратим большую часть времени на поиск (чтение и выбор нужного параграфа). Если локальная LLM сможет выполнить нашу задачу в 100 раз быстрее — собрать выписки со ссылками на источники и подготовить саммари то это как‑раз то, что нам нужно. Да, придется написать пайплайн, но сейчас это несложно, зато вы буде получать то, что вы хотите, и качество будет то, которое вы захотите. Потребуется — и LLM будет выполнять сложный многоступенчатый research с проверкой противоречий, поиском дополнительной информации. Захотите — будет выполнять поиск сначала в локальной базе знаний, а затем в сети. Потребуется — заставите искать только на определенных сайтах.
Контекстное окно локальной модели несравнимо меньше, чем топовой модели! Ну да, но это вам, скорее всего, не помешает. Если у вас контекстное окно 32 тысячи токенов, что по современным меркам очень немного — это примерно 50 страниц текста. Маловато, если вы хотите вместить туда весь чат с рассуждениями или большой поиск. Но если вы используете пайплайн, то на каждом шаге он может делать независимый вызов к модели. Это значит, что на каждом шаге вашего пайплайна у вас будет 32 тысячи токенов.
Например, на первом шаге вы хотите проанализировать вопрос и создать план исследования. Ваш пайплайн вызывает думающую модель и у нее есть 32 тысячи токенов для того, чтобы обдумать задачу и сформулировать план исследования (дополнительные вопросы, возможные источники, базы данных и все, что вы захотите, включить в план исследования). Далее вы идете по плану, вызываете модель, чтобы сгенерить поисковые запросы, автоматически скачиваете источники, используете RAG, или загружаете полученные данные для анализа и поиска нужной информации, и т.д. Нет никакой необходимости пытаться загрузить в модель всю скачанную информацию за один раз: делаете последовательные вызовы, и в каждом вызове вы имеете 32000 токенов. Таким образом, если у вас большой пайплайн и модель проводит глубокое исследование, суммарный объем используемого окна может превысить 1 миллион токенов. Так у модели будет достаточно пространства для качественного рассуждения и анализа большого объема собранной информации.
Скорость локальной модели существенно меньше! Да, меньше, но тут важны три фактора:
какое железо вы используете;
какую модель вы запускаете;
как вы используете вашу модель.
Не всегда нужно заставлять модель думать. Многие задачи недумающая модель решает почти также хорошо, как модель в думающем режиме, но значительно быстрее. Преимущество пайплайна в том, что вы можете выбирать, в каком режиме вызывать модель, в думающем или нет.
Более того, использование локальной модели в пайплайне позволяет выставлять дополнительные параметры, например температуру. На одних шагах модель может генерировать воспроизводимые результаты (например, список вопросов для исследования), а на других шагах можно обеспечить более «творческий» подход. Например, если необходимо, чтобы модель проявляла большее разнообразие в поиске возможных вариантов.
Таким образом гибкость и возможность адаптивной настройки локальной модели в пайплайнах существенно нивелирует преимущества коммерческих онлайн-моделей. Сравнивать качество не только можно но и нужно!
Тут можно возразить, что можно построить пайплайн использующую API коммерческой модели и этот пайплайн будет работать лучше, потому, что модель лучше. - Это довольно спорное утверждение, т.к. если разбить сложную задачу на простые подзадачи - то основное преимущество коммерческих моделей нивелируется. Например представьте себе, что у вас есть два студента, один умница и чемпион мира по шахматам, а другой - обычный студент. Вы им даете одинаковую задачу: нужно прочитать 40 статей в журналах, выписать из них все параграфы, касающиеся жизни колибри в районах крайнего севера. А далее написать саммари на 100 слов. Допустим у студентов одинаковая мотивация сделать работу хорошо и допустим они не устают. Кто сделает лучше? Очевидно, что если меньшая модель вообще может анализировать текст и выбирать релевантные тезисы (а Qwen3.6-27B может) - то результат будет сопоставимый.
Таким образом можно говорить о том, что, разбивая сложную специфическую задачу на элементарные шаги ограниченной сложности, можно нивелировать преимущества коммерческих моделей, и обеспечить сопоставимое качество принятия решений.
К чему это я
По большому счету, у каждого бизнеса и у каждого человека есть довольно ограниченное число задач, в которых можно использовать LLM.
Использование локальной модели позволяет:
Работать с моделью обеспечивающей стабильное качество ответов.
Прогнозировать стоимость использования локальных моделей.
Обеспечивать приватность информации.
Обеспечивать независимость от инфраструктуры провайдера и связанности сети.
Использовать пайплайны, которые позволяют за счет ограничения сложности принимаемых решений нивелировать преимущества крупных коммерческих моделей и обеспечить требуемые качество и скорость принятия решений.
Собственно, мы подошли к концу нашего довольно длинного рассуждения. Конечно, каждый решает сам и нельзя говорить, что что-то однозначно лучше по всем параметрам. Безусловно, есть ситуации, когда коммерческая модель перевешивает. Я хотел обратить внимание на то, что у локальных моделей есть определенные и довольно значительные преимущества.
Хотя, если честно… Меня просто поражает, что эта большая железная коробка у меня под столом научилась думать! :) Ну, почти научилась.
Комментарии (22)

InvaderN
20.05.2026 13:39Второе преимущество - оно не спорное, его просто нет в данный момент. Видеокарта 4090 - стоит более 200 тыс., 5090 - более 250 тыс. (а то и 300 тыс.). Запихнуть Qwen3.6–27B например в 5080 - не получится, там 16 Гб. Вывод, только самые топовые карты. Допустим я не хочу писать какой-то мега проект и следить за производством 24 часа, мне нужно сделать небольшой проект и подписки в 20 дол. вполне хватит для решения данной проблемы. И даже если я захочу вернуться к своему небольшому проекту через несколько месяцев - я отдам 20 баксов (при условии если тарифы не улетят в космос). Но тратить овер 200 тыс. на 5090 или 4090, учитывая что есть локальные модели типа Кими которые занимают более 100Гб (и дело явно идет к тому чтобы выкатить новый класс устройств для локальных ИИ) явно не стоит. Можно предположить или решат что-то с объемами памяти (благо заводов понастроили много) или с типом памяти или с новым типом железа для локальных ИИ и будет это в течение ближайшего года. Имхо, стоит подождать, чем бежать за 4090 или 5090, а пока использовать того же Cloude по подписке.

rtrgdfb Автор
20.05.2026 13:39Согласен, цены не гуманные. Но с другой стороны, пару лет назад модели, которые были на что-то способны, были значительно больше и одной 4090 было мало. А сейчас на ней уже можно запустить что-то более-менее нормальное.
Посмотрим, может еще через два года модели станут совсем маленькими :)

aldekotan
20.05.2026 13:39А материнку с двумя слотами PCIExpress и две видеокарты подешевле - не проще?

gerbert_MX
20.05.2026 13:39процесс идет. еше пару лет назад для "игр с нейросетью" нужен был кластер как под биткоины, а сейчас можно мелкие модельки даже на телефоне запускать локально
я думаю что просто сделают ПК заточенные только под нейронки, что бы можно было процессор и планки памяти менять по необходимости. гибридные процессоры уже сейчас реальность (потому так маки зашли для запуска локальных моделей) просто эту тему вдавят в пол.
уже сейчас продаются у китайцев сборки чисто под нейронки, когда "видеокарты" заточены именно под нейронку и под них специальные материки которые вмешают только такие "видеокарты" плюс сетевой порт что бы общаться с миром

Dreams_and_magic
20.05.2026 13:39Не пугайте людей контекстным окном в 32К :) На практике, если у вас быстро работает с окном в 32К, то и в 64К всё будет отлично, а с окном в 100К всё будет конечно же заметно медленнее, но с таким окном хоть можно дышать:)

rtrgdfb Автор
20.05.2026 13:39О да! 32K это просто пример. На самом деле зависит от того как настроить. Зависит от vRAM. Если например поставить:
--cache-type-k q8_0--cache-type-v q8_0
ну и добавить например:
–-parallel 1
–-flash-attn on
То в 24GB можно и 120K впихнуть. Но если говорить про пайплайны, то вы на каждый шаг можете выставить то окно, которое вам нравится и ограничение размера становится менее чувствительным.

gerbert_MX
20.05.2026 13:39ну для работы окно в 32К ни о чем
но еще пару лет назад такое окно было у флагманов и эти флагманы были потупее современных локальных на 32К
потому я думаю что к моменту как широко распространены станут локальные модели под 1К окно, сами модели уже будут вылизаны настолько что текущим флагманам с 1М и не снилось

Antra
20.05.2026 13:39представьте себе, что у вас есть два студента, один умница и чемпион мира по шахматам, а другой - обычный студент. Вы им даете одинаковую задачу: нужно прочитать 40 статей в журналах, выписать из них все параграфы, касающиеся жизни колибри в районах крайнего севера. А далее написать саммари на 100 слов. Допустим у студентов одинаковая мотивация сделать работу хорошо и допустим они не устают. Кто сделает лучше? Очевидно, что если меньшая модель вообще может анализировать текст и выбирать релевантные тезисы (а Qwen3.6-27B может) - то результат будет сопоставимый.
С высокой вероятностью у обычного студента менее структурированное мышление, он не тренирован долго фокусироваться и т.д. и т.п. Для меня совершенно не очевидно, что оба студента сделат одинаково и за одинаковое время.
И хочу поделиться результатом сравнения моделей на RT3090 24GB VRAM. Давал задачу модели с Q4_K_XL и точно такой же но Q5_K_XL. Потом скармливал результат Gemini и просил оценить правильность.
Оба ответа были объявлены правильными, хотя на мой обывательский взгляд выглядели по-разному. Gemini прокомментировала это так:
Это классическая ситуация «биологического хаоса». Давай сначала разберем, как обе модели оказались правы, а потом перейдем к твоему впечатляющему результату с Unix-временем.
Как ответы в биологии могут быть разными, но «правильными»?
В биологических задачах всё зависит от того, как модель интерпретирует рамку считывания и направление.
Версия Q4 (Ser — Pro — Trp — Tyr): Она прочитала твою цепь ДНК «в лоб» как матричную. Она просто перевела буквы по правилам комплементарности и получила бесконечную цепочку. Это «школьный» уровень решения.
-
Версия Q5 (His – Gly – Ser – Stop): Она оказалась умнее. В процессе своего «размышления» (те самые 7800 токенов) она, скорее всего, прогнала цепочку через разные варианты и увидела, что если читать её определенным образом, в конце появляется стоп-кодон (UGA).
В биологии это считается более «правильным» ответом, так как синтез белка в природе не идет вечно — он должен где-то остановиться.
Поскольку рамка считывания сместилась, мутация из «сайлент» (которая ничего не меняет) превратилась в «миссенс» (которая меняет аминокислоту).
Итог: Q5 глубже «вникла» в биологический смысл и нашла скрытый в задаче стоп-кодон, который Q4 просто проигнорировала. Это и есть разница в «интеллекте» квантования.
P.S. Модели действительно часто валятся на вопросе типа "Unixtimestamp: 1774803105. Сколько это на человеческом языке?"
Интересно, заметите ли вы разницу, скормви разным моделям образцы с unixtimestamp.com
P.S. Если будет интересно, вот задача:
Задание по биологии для проверки логики синтеза:
Дана матричная цепь ДНК: 3'-ТЦА-ГГА-АЦЦ-АТГ-5'.
Построй на её основе иРНК (информационную РНК). Обязательно укажи направления 5' и 3'.
Используя справочные данные ниже, напиши последовательность аминокислот.
Представь, что в ДНК произошла мутация: во втором кодоне (ГГА) последний нуклеотид А заменился на Т. Как изменится последовательность аминокислот? Как называется такая мутация (миссенс, нонсенс или сайлент)?
Справочные данные (кодоны иРНК):
АЦЦ — Тре (Треонин)
АУГ — Мет (Метионин)
ГГА — Гли (Глицин)
ГГУ — Гли (Глицин)
УЦА — Сер (Серин)
АГТ — (ошибка, в иРНК нет Т)

rtrgdfb Автор
20.05.2026 13:39я, к сожалению совершенно не разбираюсь в биологии, аминокислотах и ДНК, поэтому для меня довольно сложно разбить вашу задачу на шаги, которые дают корректные результаты.
Одно из основных преимуществ пайплайна (с моей точки зрения) состоит в том, что вы разбиваете сложную задачу на набор простых шагов. Т.е. если вы скормите сложный вопрос целиком - то даже самая умная модель может накосячить (и практически наверняка накосячит), однако если вы разобьете сложную задачу на последовательность простых действий, да еще и дадите модели инструменты (например регулярные выражения для проверки правильности записи цепочек, например справочник, не знаю, справочник аминокислот например, или описание каких-либо закономерностей, позволяющий сделать выбор определенного варианта), а на следующем шаге например попросите модель проверить правильности выбора, и если неправильно - повторить, и т.д. - то даже простая модель сделает значительно меньше ошибок и может дать очень хороший результат. Единственное - тут нужно различать пайплайны и скиллс.
Может быть мой пример не очень удачный, могу привести другой. Представьте, что вы пишете подробную инструкцию, как проводить эксперимент, вы прописываете методологию шаг за шагом. Теперь представьте, что вы попросили 2х абсолютно одинаковых людей провести этот эксперимент, и одному вы дали инструкцию, а другому - нет. Скорее всего тот, кому вы дали инструкцию выдаст лучший результат. Почему? - потому, что вы уже потратили умственные усилия, вы продумали основные шаги, продумали, как верифицировать результаты, дали инструменты и вы все это дали одному участнику эксперимента и не дали второму. Т.е. второму придется все это придумывать самому. Если экспертиза этого второго человека (в вашей области знаний) будет ниже вашей, то и результат будет заведомо хуже (не будем рассматривать вариант, что для решения вашей задачи он пошел, поучился в университете, поработал несколько лет в НИИ, а потом пришел и начал ее решать).
В тоже время для первого участника, которому вы дали инструкцию будет достаточно следовать вашей инструкции и не делать элементарных ошибок, и все будет хорошо. Мне кажется для этого люди и пишут инструкции (не всегда конечно).
Т.е. LLM и пайплайны это про автоматизацию, если вы например проводите сотни экспериментов, или анализируете сотни цепочек и вам надоела эта рутина - вы продумываете методику, пишите пайплайн для модели и она выполняет работу за вас, ну или сажаете аспиранта, и платите ему денежку.

Antra
20.05.2026 13:39Для меня тоже что силенсная, что миссенсная мутация - не из моей сферы. Я лишь хочу продемонстрировать что даже банальное изменение квантования с Q4 на Q5 радикально меняет качество размышлений и ответа. Что уж говорить о больших моделях, доступных только через API.
Если такое качество не требуется, делать простые шажки типа "поставь kubectl, kubeadm" действительно сможет даже небольшая модель. А вот "Разверни кластер Kubernetes с Calico CNI в non-island mode и установи BGP сессию с маршрутизатором" (и еще ряд требований и ограничений) - такое маленькая модель вряд ли потянет даже с кучей траблешутинга. И выделение "установи BGP" в отдельную задачу здесь не поможет.
Повторюсь - можно дать задачу джуну и сеньору. Если это "напиши тетрис" - любой сделает. Если же что-то сложное, где нужно сначала принять архитектурные решения - может у джуна и заработает после кучи правок, но код без слез не взглянешь. И поддерживаемым он вряд ли будет даже если будете строго идти по Spec Driven Development. Либо всю архитектурную работу выполнять самому, а на маленькую модель сбрасывать только рутину.
Возможно у вас сильно другая специфика. Я, к примеру, не понимаю, как разбить на мелкие простые шаги задачу "У меня не устанавливается BGP сессия с удаленным хостом, хотя netcat показывает что порт открыт, и с другим хостом сессия устанавливается без проблем. Удаленный хост чужой, к его логам доступа нет". Если бы я знал отгадку (лишний хоп, превысил установку ebgp-multihop), я бы дал задачу "проверь количество хопов". Но тогда бы мне не пришлось модель вовсе привлекать.

rtrgdfb Автор
20.05.2026 13:39Да, вы правы! Для серьезной работы в режиме агента маленькие модели слабоваты.
Хотя должен признать Qwen3.6-27B меня очень приятно удивила. Как минимум ей можно сказать - Сделай landing-page для сайта фотографа и запусти его, чтобы я мог посмотреть - и она создает директорию, пишет код и запускает сервер, так, что вы можете его видеть в браузере и даже ходить по ссылкам, т.е. по-факту получаете маленький полностью рабочий сайт на HTML+CSS, причем с первого раза. Я также попробовал попросить модель сделать простое TODO на Flask и также с первого раза получил готовое работающее приложение, причем говоришь: добавь следующие поля - и она добавляет, добавь кнопку редактирования - добавляет, причем все работает с первого раза - меня впечатлило!
Ну и понятно, добавь в Git, сделай коммит, покажи diff, откати - все это тоже работает, я уж не говорю про поиск в интернете и Базе знаний.
Меня просто достали нестабильность работы, цена и лимиты Claude. Причем, ок, они хотят деньги, понятно! Но почему за эти деньги оно иногда работает очень хорошо, а иногда безбожно тупит и просто сжигает токены! Вот я и посмотрел в сторону локальных моделей, и оказалось, что они уже вполне рабочие, если понимать их возможности и ставить выполнимые задачи, ну или разбивать эти задачи на простые подзадачи.
Опять же, privacy, никто не контролирует результаты поиска, ну и uncensored модель можно запустить, что особенно важно если вы работаете в информационной безопасности, науке, или просто хотите получить не полит-корректную, а более-менее релевантную информацию
Antra
20.05.2026 13:39Да, в таком режиме это прекрасно. Задать вопрос в Home Assistant и получить ответ о состоянии датчиков и т.п. - локальные модели - милое дело. Даже фотку с камеры проанализировать и прислать в телеграм описание "подъехал автомобиль с номером ххх", "подошел мужчина в темной куртке..." - тут очень хорошо работает.
Для "стандартных" задач, особенно с не четко детерминированным результатом, локальные модели уже весьма хороши.
Claude Code использую активно, но с Z.AI моделями. За $36 купил подписку на целый год в прошлом сентябре, когда еще glm-4.5 только была. До сих пор не на радуюсь. Но сейчас существенно подорожало, в сентябре буду стоять перед выбором...

OlegGavrilov
20.05.2026 13:39Мир не меняется, то майнеры у геймеров видеокарты отбирали, то начинающие ллм пользователи себе их пытаются отжать.
Делюсь действительно правильным и бюджетным подходом: находите любой системник с PCI-E 3.0 и примерно 16 Gb RAM (любой, хоть DDR3), туда ставите Tesla V100 4090mod (это когда v100 на pcie адаптере приколхоживают активное охлаждение от 4090), цена сейчас за такое около 70 т.р. на вб или авито. Поздравляю, у вас своя тихая и энергоэффективная машина для qwen 27B и 100к контекста! Не забываем про MTP, и легко получаем 50-60 ts и 600+ pp на актуальной llama.cpp.
Пожалуйста, перестаньте разгонять цены на бытовые видеокарты, спасибо.
rtrgdfb Автор
20.05.2026 13:39Не знал! Классная идея! Но насколько я понимаю, такой франкенштейн SolidWorks не потянет, в отличии от NVIDIA

jojozuka
20.05.2026 13:39современные модели, влезающие в 24Гб это невероятно круто. Но когда есть с чем сравнивать - с большим Квеном, Дипсиком или Заем ... это уже не то...

rtrgdfb Автор
20.05.2026 13:39наверное да, ... но у меня большие Квен и Дипсик локально не запускаются - сравнивать не с чем - радуюсь прогрессу! :)
schekinfs
Согласен с рассуждениями. Прямо да. Единственное 4090 не у всех есть, только это. Облака дешевле пока, хотя все относительно.
jojozuka
3090 для этой цели почти не хуже