Как я нашел новую панграмму (разнобуквицу) / forpes.ru

Главная
Как я нашел новую панграмму (разнобуквицу)

Как я нашел новую панграмму (разнобуквицу) +98

18.06.2026 13:40

Mixail_Soluyanov 45 18000 Источник

TL;DR:

Съев мяч, щипцы, эльф‑конюх ждёт груз шайб. (33 буквы)

Прошлым летом подарили сыну магнитную азбуку. Ну, знаете, такие буквы на магнитах, можно составлять слова на холодильнике:

Ну само собой получилось, что мне захотелось составить что‑то из всех букв. Оказалось, что классика вроде «Съешь ещё этих мягких французских булок» не подходит — в моём наборе каждая буква была только один раз. А те панграммы, где буквы не повторяются (можно найти, например, у Лебедева в «Ководстве») — «Эй, жлоб! Где туз? Прячь юных съёмщиц в шкаф.» или «— Любя, съешь щипцы, — вздохнёт мэр, — кайф жгуч» — они, скажем так, на любителя. Слишком много восклицаний, междометий и прямой речи. Хотелось чего-то более пристойное и связное.

И я тут вспомнил видео Мэтта Паркера про оптимизацию его кода. Действительно, можно попробовать найти панграмму с помощью bitwise логики — тогда перебор комбинаций будет быстрым. Допустим, у нас есть слово «кайф». Буква «к» — это 11-й бит, «а» — 0-й, «й» — 10-й, «ф» — 21-й. В числе биты этих разрядов будут выставлены в единицу. Слово «жгуч» — своё число, и так для каждого слова из словаря. При этом анаграммы будут друг другу соответствовать: «адрес» и «среда» будут с одним числом, что приемлемо, для поставленной цели эти слова взаимозаменяемы.

Дальше — нам нужно найти такой набор слов, где каждая буква встречается ровно один раз. Это значит, что нам нужны две вещи:

Никаких пересечений. Если у двух слов есть общая буква, их битовые маски имеют общий бит. Побитовое И двух масок даст ноль, если общих битов нет. Если результат не ноль — значит, есть повторение, такое слово не подходит.

Все буквы покрыты. В русском алфавите 33 буквы. Значит, нам нужна маска из 33 единиц подряд: 111111111111111111111111111111111. Если мы набрали несколько слов, их маски можно сложить. И если результат равен этой константе из 33 единиц — значит, мы собрали все буквы, и это панграмма.

Остается сделать алгоритм на С, чтобы каждое сравнение масок выполнялось за один такт процессора, тогда брутфорс комбинаций будет выполняться относительно быстро.

Какой же поиск слов без словаря. За основу я взял репозиторий danakt/russian‑words. Там около 1.5 миллиона слов. Но нам не нужны все. Во‑первых, нам нужны только слова без повторяющихся букв, потому что если в слове есть две одинаковые буквы, оно автоматически бесполезно для нашей задачи — в панграмме каждая буква участвует ровно один раз. Во‑вторых, надо убедиться, что слово состоит только из русских букв (никаких цифр, английских букв, знаков и прочего). В итоге после фильтрации осталось 233 539 слов.

Кстати. Если вам интересно, какое слово в русском языке самое длинное и все буквы в нем разные, их три (17 букв):

подчёркивающемуся

четырёхполюсникам

четырёхугольникам

Дальше я попытался отфильтровать мусор, потому что в словаре полно всякой ерунды вроде «аб», «оф», «жну». С этими словами у меня получалось найти кучу панграмм, однако как составить из полученных слов что‑то осмысленное?

поиск с начальной комбинацией "Съев мяч зэк ждет" — поиск с начальной комбинацией «Съев мяч зэк ждет»

Поэтому я попробовал отсортировать слова. Пробовал разное:

Частотность через библиотеку wordfreq. У неё есть шкала Zipf — от 0 до 7, где 7 — это предлоги типа «в», а 0 — редкая ерунда. Я выставил пороги в зависимости от длины: для двухбуквенных — не ниже 3.5, для трёхбуквенных — 3.0, для четырёх и больше — хотя бы 2.0.
Морфология через pymorphy2 — если слово не определяется как известное, но частота высокая — оставляем. Это позволяло не выкинуть редкие, но осмысленные слова.
Отбрасывал слова без гласных, с кучей согласных подряд, начинающиеся на «ъ» или «ь». Даже если такие слова действительно есть, я не хотел их видеть в панграмме.
Однобуквенные — оставил только предлоги и союзы: в, с, к, о, у, я, и, а.

В итоге после всех фильтров словарь сжался до ~96 тысяч слов. Неплохо, но поиск стал находить сильно мало комбинаций, а некоторые слова, которые находились в панграммах и показались мне вполне адекватными, оказались обрезаны. Лучше оставить все 234 тысячи, но отсортировать их так, чтобы в первую очередь перебирались более «полезные» слова. Полезность я определил как комбинацию длины и частоты употребления. Плюс я добавил бонус за редкие буквы (как в игре «Словодел») — чтобы слова с «ъ», «ё», «ф» оказывались выше.

Если вам интересно какая буква самая редкая, какая самая частая, в моем словаре буква «ъ» встречается всего 1279 раз, а самая частая буква «а» — 134 154 раза в словаре из 233 539 слов:

Обнаружив уже известных нам «съёмщиц» на 3 месте словаря, я посчитал что ранжирование вышло хорошо:

Однако на практике, мне показалось что лучше больше добавить веса длине слов. Когда выполняется поиск, хочется чтобы слова были не только осмысленные, но и длинные. Потому что найти комбинацию из коротких 3–2 буквенных слов легко, а вот составить из них осмысленное предложение — нет. Лучше найти длинные слова и добить фразу короткими. В результате словарь вышел таким:

«В» хоть и самое частое слово, в списке оно ниже, поскольку короткое.

Затем при поиске я могу обрезать список слов до нужной длины. Хочешь быстрее, но меньше результатов или дольше, но больше результатов сомнительного качества?

Кроме возможности выбора размера словаря, я сделал еще опции:

Динамическая фильтрация — на первых 2–3 уровнях рекурсии строим временный список слов, которые не пересекаются с уже выбранными, и перебираем только его. Это отсекает заведомо неподходящие варианты и ускоряет немного поиск (процентов на 30%). На больших глубинах, когда у нас уже набрано, скажем, 2 слова, мы перестаём строить временные списки, потому что к этому моменту число подходящих слов и так резко сократилось, и оверхед на построение фильтра становится неоправданным.
Произвольное стартовое слово — можно задать любое слово или несколько (даже если его нет в словаре), и поиск начнётся с него. Очевидно, что некоторые слова с редкими буквами типа «ъ» или «ё» гораздо более удобны для поиска. Также гораздо более ценны глаголы, так как поиск обычно выдает комбинации с кучей существительных.

В итоге процесс поиска вышел таким: на маленьком словаре ищем подходящую комбинацию слов — особенно выискиваем сочетания слов с глаголами в правильных формах — готовые фразы. С этими фразами ищем по большому словарю. Так удалось найти комбинацию:

Съев мяч, щипцы, эльф‑конюх ждёт груз шайб. (33 буквы)

Найдя эту комбинацию, мне захотелось ее опубликовать. Но где? Это оказалось гораздо сложнее, чем написать программу для поиска панграмм и найти искомую. Я попробовал писать разным блогерам от мира слов, написал Лебедеву на мыло, но ответа так ни от кого и не получил. А недавно перенося проекты с гитфлика на гитлаб, наткнулся на этот проект и подумал, что можно хотя бы опубликовать на Хабре. Может быть тут посоветуют куда написать?

Проект я выложил в открытый доступ, вдруг кто тоже захочет поискать: https://gitflic.ru/project/crantisz/pangram - там код на С и словарь, который я использовал.

Комментарии (45)

PumPumGum
18.06.2026 13:45
#30127184
Такие азбуки покупаются срзу комплектами по 2-3 штуки, как раз, что бы ребёнок мог хотя бы МАМА ПАПА написать.
В следующий раз не ждите год, а сразу пишите на Хабр. Может чего дельного посоветуют :-)

vadimr
18.06.2026 13:45
#30127190
В примере с тузом ещё четыре разных знака препинания, а у вас две запятые. Но сам подход интересный.
1. Mixail_Soluyanov Автор
  18.06.2026 13:45
  #30127204
  Ну я не скажу что идеальная панграма, все-таки лучше мягкие булки есть, чем шайбы. Но всяко лучше, чем были.
  1. SokilOff
    18.06.2026 13:45
    #30130598
    Тут, наверно, надо как-то решить, что есть идеальная панграмма. Критерии, как по мне, следующие:
    
    1) Отсутствие повторяющихся букв, или хотя бы минимальное количество повторов. Тут всё ясно, причём даже стандартные "булки" можно чуть оптимизировать во что-то вроде:
    
    француз, съешь ещё этих же мягких булок да выпей чаю
    
    2) Фраза должна быть осмысленной и, по возможности, звучать естественно. Есть короткие панграммы, к примеру:
    
    друг мой эльф, Яшке б свёз птиц южных чащ
    
    Но звучит тоже не очень естественно.
1. ChilliWil
  18.06.2026 13:45
  #30129452
  Если парсить еще и знаки препинания, то размерность задачи не изменится, но вывод усложнится. Алгоритм искал именно буквы, остальное просто косметика
  1. vadimr
    18.06.2026 13:45
    #30129494
    С точки зрения поставленной задачи использования типографского набора, знаки препинания – такие же значимые символы, как и буквы. Хотя, действительно, чаще в панграммах учитываются только буквы.
    
    Mixail_Soluyanov Автор
    18.06.2026 13:45
    #30129538
    Когда я публиковал свою панграмму, был комментарий, что излишняя перегруженность знаками и ненормальный смысл фразы отвлекает собственно от цели панграммы — оценки шрифта, поэтому «Булки» лучше
    
    vadimr
    18.06.2026 13:45
    #30129566
    Шрифт состоит же из знаков препинания тоже.
    
    Mixail_Soluyanov Автор
    18.06.2026 13:45
    #30129588
    Да, конечно. Но смысл в том, что шрифт выглядит по-другому, если перегружен знаками препинания.

rilio
18.06.2026 13:45
#30127252
Экс-граф? Плюш изъят! Бьём чуждый цен хвощ.

(33)
1. Mixail_Soluyanov Автор
  18.06.2026 13:45
  #30127258
  Эту уж не стал писать, я тут даже не могу понять о чем речь.
  1. Griggon
    18.06.2026 13:45
    #30128766
    Доклад бывшему (зачем в таком случае?) графу о том что некто изьял плющ. Возможно его слуги. Бьем (дюре уничтожаем - возможно пропалываем) "Чуждый цен" (без цены, никчемный с точки зрения стоимости) хвощ (сорняк).
    
    Но да, такое себе.
    
    Этакая история о том как бывший граф решил реквизировать все имущество с чьего-то огорода до последней травинки. Даже плющ изьяли негодяи.
    
    vybo
    18.06.2026 13:45
    #30129438
    плюш же, а не плющ
    
    Vytian
    18.06.2026 13:45
    #30129724
    А как назвать состояние, когда плющит?
    
    Опять плющ есть, слова -- нет.
1. ChilliWil
  18.06.2026 13:45
  #30129468
  Прям как таски от некоторых менеджеров. Вроде буквы русские, а что сделать надо - вообще хрен поймешь..

Solmik
18.06.2026 13:45
#30127682
Прекрасная работа! Есть мысли:
1. Если хотите юридически закрепить свой приоритет, опубликуйте панграмму (или даже всю свою статью) на сайте stihi.ru
  
  После публикации можно будет скачать "Свидетельство о публикации".
2. В России много национальных языков, но мало национальных панграмм. Например, я искал для марийского языка - готовых не нашел. ИИ по запросу сделал вариант, который меня не устроил.
  
  Так что тут можно развернуться. Думаю, Институты национальных языков могут заинтересоваться, быть может даже за денежку.
3. Панграммы можно использовать, чтобы быстро проверить степень владения клавиатурой. Я как раз этим занимаюсь, можно посмотреть статью по ссылке
  
  ( использовал две стандартные панграммы )
  
  https://habr.com/ru/articles/1024642/
1. Mixail_Soluyanov Автор
  18.06.2026 13:45
  #30127738
  Ну найти просто набор слов, который подходит по критериям - мало. Нужно собрать из них что-то осмысленное. А для этого нужно хотя бы на каком-то уровне этим языком владеть. Поэтому вряд ли я смогу тут чем-то помочь. А вот взять мой код и поменять буквы и словарь - это можно.
1. ChilliWil
  18.06.2026 13:45
  #30129490
  Патентовать панграмму?... Кому она вообще нужна в коммерческом плане
  1. Jorell
    18.06.2026 13:45
    #30132708
    ЧСВ почесать в старости)

Lev3250
18.06.2026 13:45
#30127814
Как это развидеть
1. Vsevo10d
  18.06.2026 13:45
  #30130638
  Все правильно сделал
1. VT100
  18.06.2026 13:45
  #30131704
  Не надо было Ктулху вызывать без крайней необходимости.

VT100
18.06.2026 13:45
#30128016
Не проверял, но телеграфисты использовали: “В недрах юга жил бы цитрус? Да, но фальшивый экземпляр.”
1. Mixail_Soluyanov Автор
  18.06.2026 13:45
  #30128022
  Повторяются буквы
  1. qwe101
    18.06.2026 13:45
    #30128366
    При проверке связи это передавалось сотни раз. Проверялось вручную - (глазами).Такой текст плавнее читать.
    
    Кажется, было "в чащах юга..."
1. MaFrance351
  18.06.2026 13:45
  #30128364
  Даже специальные приборы были:

vanxant
18.06.2026 13:45
#30128430
В чащах юга жил-был цитрус. Но фальшивый экземпляр!
1. Mixail_Soluyanov Автор
  18.06.2026 13:45
  #30128434
  Повторяются буквы
  1. vanxant
    18.06.2026 13:45
    #30128438
    ну так фальшивый экземпляр же!
1. vybo
  18.06.2026 13:45
  #30129456
  по классике французских булок потеряли одну букву из не влияющего на смысл фразы двухбуквенного слова (там "съешь же", тут "да, но")

niktor_mpt
18.06.2026 13:45
#30128918
Может быть, имеет смысл сделать шаблоны предложения: подлежащее, сказуемое, дополнение и т.п.?

В каждой позиции своя часть речи в определённой форме. Словари для каждой позиции сокращаются

Благодаря запятым можно повторять части речи или всё предложение. Осмысленные пары, тройки типа "мяч, велосипед, шайба" фактически образуют словарь длинных слов.

Но чтобы их собрать нужен словарь посложнее, чем список слов. :)
1. Mixail_Soluyanov Автор
  18.06.2026 13:45
  #30129496
  Ну почему-же. Часть речи можно через pymorphy2 определить
  1. niktor_mpt
    18.06.2026 13:45
    #30135076
    Составные части речи идут как отдельные слова в словаре.
    
    И желательно, чтобы они были однородные по смыслу, чтобы не было как в классике: "Выглянул на улицу. Шёл дождь и рота красноармейцев.".
    
    А это или глазами просматривать, или в БЯМку кидать, или искать атрибутированные словари.
    
    Mixail_Soluyanov Автор
    18.06.2026 13:45
    #30135088
    Ну тут просто сделать первоначальный отсев, Я полагаю, что наборов слов найдется миллионы, если удастся отсеять до тысяч, и уже их обрабатывать через gpt или просматривать глазами - должно помочь
1. vybo
  18.06.2026 13:45
  #30130262
  велосипед и шайба ничего не образуют даже поодиночке
  1. niktor_mpt
    18.06.2026 13:45
    #30135068
    Писал в ночное время суток, прошляпил.
    
    Надо исправить на вилосыпет и шайбу!

Wizard_of_light
18.06.2026 13:45
#30129030
Эльф, конюх, мяч, щипцы, аптека, бессмысленный и тусклый свет...

ChilliWil
18.06.2026 13:45
#30129440
Если распараллелить это дело на гпу, можно было бы словарь вообще не фильтровать. Современные видяхи такие битовые операции щелкают миллиардами в секунду)
1. Mixail_Soluyanov Автор
  18.06.2026 13:45
  #30129478
  хех, а потом что с этими милионами бессмысленных комбинаций делать?
  1. dsrk_dev
    18.06.2026 13:45
    #30130358
    Скормить LLM чтоб она нашла смыслы)
    
    Mixail_Soluyanov Автор
    18.06.2026 13:45
    #30130850
    Хм, ради интереса закинул несколько строк из вывода в deepseek, Вместо моего предложения выбрал соседнее, с другими словами:
    
    «Эльф, конюх, съев щипцы, ждут мяч, шайб, грёз.»

Jek_Sen
18.06.2026 13:45
#30130188
Жалко без рифмы, запомнить сложно. Хотя исходя из условия, что не допускаются повторы букв, срифмовать наверное не получится.
1. Mixail_Soluyanov Автор
  18.06.2026 13:45
  #30130710
  съев мяч, щипцы, аккордеон, эльф-конюх груз ждёт: шайб вагон

BelarusSPb
18.06.2026 13:45
#30130718
"Эй, жлоб! Где туз? Прячь юных съёмщиц в шкаф."
1. Mixail_Soluyanov Автор
  18.06.2026 13:45
  #30130720
  есть же в тексте

Как я нашел новую панграмму (разнобуквицу) +98

Комментарии (45)

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор

Mixail_Soluyanov Автор