А точно ли в наши дни обязательно уметь писать? Какую пользу это несет? Сократ считал, что запись ухудшает память, знаем мы это, впрочем, лишь потому что его ученик Платон это записал. Оставим этот вопрос ученым, мы практики - если что-то можно автоматизировать, значит нужно! Сделаем на iOS и Mac
Несколько лет назад вышел Whisper — open-source модель для распознавания речи с нормальной всеязычной транскрипцией и знаками препинания. И для меня это реально изменило всё.
Сначала написал свой сервер для транскрибации. Он OpenAI v1 transcriptions совместим, умеет streaming, авто выбор модели, очередь, web-морда и lazy+ttl загрузка моделей. Таких куча: 1, 2. Но у меня еще lib-а клиента с авто fallback на локальную транскрипцию. Потом туда добавился CUDA-брокер. На компе много проектов на gpu, например распознавание речи и распознавание картинок, теперь они могут договариваться между собой — кому сейчас грузиться, кому подождать, у кого выше приоритет.
Зачем?
На iPhone, Mac и Android уже есть встроенная диктовка, какой смысл?
Да, она есть. Да, она даже офлайн. Прекрасно.
Но она хуже.
Хуже распознаёт.
Хуже работает с длинной речью.
Ей нужно диктовать, а не говорить, по словам, внятно
Переключать языки
Уметь в знаки препинания. (как вы заметили это не про меня)
А здесь просто говоришь — и получаешь нормальный всеязычный текст, готовый к отправке. Именно поэтому я поставил это везде.
Это было только начало.
Транскрипции в Telegram? Telegram-бот. Кидаешь голосовое/звук/видео — получаешь текст. (сейчас еще встроил в свой кастомный клиент тг, чтобы не платить premium)
Следующий шаг — суммаризация/перевод видео. Правда выяснилось, почти всегда можно вообще не тратить свои вычисления: субтитры на видео-платформах уже есть, скачиваются как и ролики через yt-dlp .


На Mac сделал маленькую программу: нажимаешь клавишу Fn, как в Codex, говоришь — текст транскрибируется и вставляется туда, где стоит курсор. (Ура не надо тянуться к F5!). Работает чуть быстрее Codex, зато:
— не требует бубна если ваш корпоративный фаервол не пускает к OpenAI;
— конфиденциально;
— поддерживает любой OpenAI v1 transcriptions endpoint;
— оригинальный OpenAI api;
— свой сервер
— и почему-то вставка текста работает стабильнее, чем у Codex. Почему — не вникал. Кодекс у меня всегда не вставляет текст, а попадает в историю буфера обмена предпоследним.

На iPhone это делается ещё проще через Быструю команду. Искренне не понимаю, почему Apple до сих пор не даёт нормально скидывать такие штуки как обычный файл.
На Android сложнее. Самое простое решение, насколько я понял, — Tasker. Но Tasker — это стороннее приложение, а встроенного нативного способа я пока не нашёл.
P.S на iOS/Mac наконец-то нормально работает «Управление голосом» на русском. Это очень круто. Жаль нельзя base_url поменять. Ужасно, что нельзя настраивать синонимы команд, ведь "пролистать вниз страницу 2 раз" вместо нормального "свайп вниз", и "коснуться" вместо "нажать" это надмозг божественного уровня. А почему обязательно "<количество> раз" - отдельный разговор. (Может я не разобрался, буду рад помощи)
Tasker
Trigger: Quick Settings Tile / Volume Long Press / Floating Button Actions: Record Audio → /sdcard/Tasker/dictate.3gp HTTP Request: POST BASE_URL/v1/audio/transcriptions multipart/form-data: file = /sdcard/Tasker/dictate.3gp model = whisper-1 / твоя модель headers: Authorization: Bearer <key> JSON Read: $.text → %DICTATED_TEXT Set Clipboard: %DICTATED_TEXT Notify: %DICTATED_TEXT
А если вам нужна просто маленькая готовая штука без всей этой инфраструктуры — можно использовать Codex App. Он тоже хорошо работает.
Комментарии (17)

atues
02.07.2026 23:54Почему следущее поколение не будет уметь писать руками?
А это, по-вашему, грамотно? Выглядит как необработанный перевод. Почему не написать просто "Почему следущее поколение разучится писать руками?": и проще, и яснее, и по-русски.

bkar
02.07.2026 23:54“Разучится” - это штамп, языковое клише. А “не будет уметь” - точная передача мысли - оно же не сможет разучиться, потому что никогда и не будет уметь.

dzhidzhoev
02.07.2026 23:54Нет, это копирование с английского, калька с “will not be able”. Явно не стиль русского языка. По-русски бы написали «Новое поколение не сможет писать руками»

Oncenweek
02.07.2026 23:54“не сможет” как раз хуже передает то, что произойдет - они именно не будут уметь, а не будут рождаться без пальцев или ручки перестанут выпускать. Не зря у нас есть 2 слова “мочь” и “уметь” заместо одного can

NutsUnderline
02.07.2026 23:54Сижу и представляю как буду голосом говорить: прошей контроллер... разблокируй кирпич... Прошивка, ессно навайбкожена.
Но вот блин проблема - что в опенспейсе, что дома все че то говорят.. говорят... 8 часов подряд. Ничего не говорили только в соседнем кафе, как раз рядом сидели представители конкурентов - так были очень культурные, молчали , не мешали, даже наоборот: внимательно слушали что я говорю. кажется, даже записывали.

al-chemist
02.07.2026 23:54Как показывает среднее по больнице, человек мыслит значительно медленнее, чем пишет, и уж подавно — чем говорит. Так что да, производительность вырастет до 10К знаков в минуту, вот только на выходе будет получаться еще бо́льшая херня, чем в рукописном тексте.

Wesha
02.07.2026 23:54человек мыслит значительно медленнее, чем пишет
Эт если он образами мыслить не умеет,
примерно так

tormozedison
02.07.2026 23:54Будет, обучение каллиграфии, леттерингу и подобному широко распространено.
И есть мнение, что переписывание текста от руки, наоборот, улучшает его запоминание.
Wesha
Сразу видно персонажа, у которого никогда не пропадал телефон.
Или электричество.
Arhammon
Так и представляется программист пишущий ПО в тетради, а потом расшифровывающий тестировщку что это у него накарябано... Кстати даже ручки сейчас без электричества не появятся, только голубя ловить и ощипывать)
Wesha
События последних лет на территориях не столь отдалённых Вам крайне неведомы, я так понимаю?
Ох уж мне эта молодьож. Ничо без компьютера не умеет,
даже программировать
Arhammon
Я тоже могу поискать школьные тетрадки, вот только за бейсик в тетрадке сейчас никто не заплатит... наверно даже изготовление каменных рубил на сувениры в плане прокормления поинтереснее будет. Правда без электричества, маркетплейсов и рекламы это скорее катание по ярмаркам, фестивалям чем само изготовление...
cruiseranonymous
Алгоритм на бумаге можно даже отлаживать.
И это прекрасно работает там, где компа под рукой нет, а мысль "а вот так можно переделать" уже крутится.
Arhammon
Я все таки не про единичное действие, я хоть и не любитель записывать но так же делаю заметки, эскизы итп.
Лучше зайдем с другой стороны - представьте себе что вся информация к вам приходит не в виде читабельного печатного текста, а в виде чужого рукописного... я одно время сталкивался со всякими заявлениями и периодически целым отделом пытались понять что от нас хотят...