А точно ли в наши дни обязательно уметь писать? Какую пользу это несет? Сократ считал, что запись ухудшает память, знаем мы это, впрочем, лишь потому что его ученик Платон это записал. Оставим этот вопрос ученым, мы практики - если что-то можно автоматизировать, значит нужно! Сделаем на iOS и Mac

Несколько лет назад вышел Whisper — open-source модель для распознавания речи с нормальной всеязычной транскрипцией и знаками препинания. И для меня это реально изменило всё.

Сначала написал свой сервер для транскрибации. Он OpenAI v1 transcriptions совместим, умеет streaming, авто выбор модели, очередь, web-морда и lazy+ttl загрузка моделей. Таких куча: 1, 2. Но у меня еще lib-а клиента с авто fallback на локальную транскрипцию. Потом туда добавился CUDA-брокер. На компе много проектов на gpu, например распознавание речи и распознавание картинок, теперь они могут договариваться между собой — кому сейчас грузиться, кому подождать, у кого выше приоритет.

Зачем?

На iPhone, Mac и Android уже есть встроенная диктовка, какой смысл?

Да, она есть. Да, она даже офлайн. Прекрасно.

Но она хуже.

  • Хуже распознаёт.

  • Хуже работает с длинной речью.

  • Ей нужно диктовать, а не говорить, по словам, внятно

  • Переключать языки

  • Уметь в знаки препинания. (как вы заметили это не про меня)

А здесь просто говоришь — и получаешь нормальный всеязычный текст, готовый к отправке. Именно поэтому я поставил это везде.

Это было только начало.

Транскрипции в Telegram? Telegram-бот. Кидаешь голосовое/звук/видео — получаешь текст. (сейчас еще встроил в свой кастомный клиент тг, чтобы не платить premium)

Следующий шаг — суммаризация/перевод видео. Правда выяснилось, почти всегда можно вообще не тратить свои вычисления: субтитры на видео-платформах уже есть, скачиваются как и ролики через yt-dlp .

//Мне лень вычищать конфиги, если кому надо вебсервер/тгбот чтобы качать видео с любого ресурса(тикток/ютуб/вк/рутуб и тому подобное), напишите в тг, сделаю open‑source
//Мне лень вычищать конфиги, если кому надо вебсервер/тгбот чтобы качать видео с любого ресурса(тикток/ютуб/вк/рутуб и тому подобное), напишите в тг, сделаю open‑source

На Mac сделал маленькую программу: нажимаешь клавишу Fn, как в Codex, говоришь — текст транскрибируется и вставляется туда, где стоит курсор. (Ура не надо тянуться к F5!). Работает чуть быстрее Codex, зато:
— не требует бубна если ваш корпоративный фаервол не пускает к OpenAI;
— конфиденциально;
— поддерживает любой OpenAI v1 transcriptions endpoint;
— оригинальный OpenAI api;
— свой сервер
— и почему-то вставка текста работает стабильнее, чем у Codex. Почему — не вникал. Кодекс у меня всегда не вставляет текст, а попадает в историю буфера обмена предпоследним.

Быстрая команда
Быстрая команда

На iPhone это делается ещё проще через Быструю команду. Искренне не понимаю, почему Apple до сих пор не даёт нормально скидывать такие штуки как обычный файл.

На Android сложнее. Самое простое решение, насколько я понял, — Tasker. Но Tasker — это стороннее приложение, а встроенного нативного способа я пока не нашёл.

P.S на iOS/Mac наконец-то нормально работает «Управление голосом» на русском. Это очень круто. Жаль нельзя base_url поменять. Ужасно, что нельзя настраивать синонимы команд, ведь "пролистать вниз страницу 2 раз" вместо нормального "свайп вниз", и "коснуться" вместо "нажать" это надмозг божественного уровня. А почему обязательно "<количество> раз" - отдельный разговор. (Может я не разобрался, буду рад помощи)

Tasker
Trigger:
  Quick Settings Tile / Volume Long Press / Floating Button

Actions:
  Record Audio → /sdcard/Tasker/dictate.3gp
  HTTP Request:
    POST BASE_URL/v1/audio/transcriptions
    multipart/form-data:
      file = /sdcard/Tasker/dictate.3gp
      model = whisper-1 / твоя модель
    headers:
      Authorization: Bearer <key>
  JSON Read:
    $.text → %DICTATED_TEXT
  Set Clipboard:
    %DICTATED_TEXT
  Notify:
    %DICTATED_TEXT

А если вам нужна просто маленькая готовая штука без всей этой инфраструктуры — можно использовать Codex App. Он тоже хорошо работает.

Комментарии (17)


  1. Wesha
    02.07.2026 23:54

    На iPhone, Mac и Android уже есть встроенная диктовка, какой смысл?

    Сразу видно персонажа, у которого никогда не пропадал телефон.

    Или электричество.


    1. Arhammon
      02.07.2026 23:54

      Или электричество.

      Так и представляется программист пишущий ПО в тетради, а потом расшифровывающий тестировщку что это у него накарябано... Кстати даже ручки сейчас без электричества не появятся, только голубя ловить и ощипывать)


      1. Wesha
        02.07.2026 23:54

        События последних лет на территориях не столь отдалённых Вам крайне неведомы, я так понимаю?

        Так и представляется программист пишущий ПО в тетради

        Ох уж мне эта молодьож. Ничо без компьютера не умеет,

        даже программировать


        1. Arhammon
          02.07.2026 23:54

          Я тоже могу поискать школьные тетрадки, вот только за бейсик в тетрадке сейчас никто не заплатит... наверно даже изготовление каменных рубил на сувениры в плане прокормления поинтереснее будет. Правда без электричества, маркетплейсов и рекламы это скорее катание по ярмаркам, фестивалям чем само изготовление...


      1. cruiseranonymous
        02.07.2026 23:54

        Алгоритм на бумаге можно даже отлаживать.
        И это прекрасно работает там, где компа под рукой нет, а мысль "а вот так можно переделать" уже крутится.


        1. Arhammon
          02.07.2026 23:54

          Я все таки не про единичное действие, я хоть и не любитель записывать но так же делаю заметки, эскизы итп.

          Лучше зайдем с другой стороны - представьте себе что вся информация к вам приходит не в виде читабельного печатного текста, а в виде чужого рукописного... я одно время сталкивался со всякими заявлениями и периодически целым отделом пытались понять что от нас хотят...


  1. atues
    02.07.2026 23:54

    Почему следущее поколение не будет уметь писать руками?

    А это, по-вашему, грамотно? Выглядит как необработанный перевод. Почему не написать просто "Почему следущее поколение разучится писать руками?": и проще, и яснее, и по-русски.


    1. bkar
      02.07.2026 23:54

      “Разучится” - это штамп, языковое клише. А “не будет уметь” - точная передача мысли - оно же не сможет разучиться, потому что никогда и не будет уметь.


      1. dzhidzhoev
        02.07.2026 23:54

        Нет, это копирование с английского, калька с “will not be able”. Явно не стиль русского языка. По-русски бы написали «Новое поколение не сможет писать руками»


        1. bkar
          02.07.2026 23:54

          Согласен. Получается, вы с atues и я на разные аспекты обратили внимание.


        1. Oncenweek
          02.07.2026 23:54

          “не сможет” как раз хуже передает то, что произойдет - они именно не будут уметь, а не будут рождаться без пальцев или ручки перестанут выпускать. Не зря у нас есть 2 слова “мочь” и “уметь” заместо одного can


    1. Cordekk
      02.07.2026 23:54

      Правильно - не научится...


  1. NutsUnderline
    02.07.2026 23:54

    Сижу и представляю как буду голосом говорить: прошей контроллер... разблокируй кирпич... Прошивка, ессно навайбкожена.

    Но вот блин проблема - что в опенспейсе, что дома все че то говорят.. говорят... 8 часов подряд. Ничего не говорили только в соседнем кафе, как раз рядом сидели представители конкурентов - так были очень культурные, молчали , не мешали, даже наоборот: внимательно слушали что я говорю. кажется, даже записывали.


  1. al-chemist
    02.07.2026 23:54

    Как показывает среднее по больнице, человек мыслит значительно медленнее, чем пишет, и уж подавно — чем говорит. Так что да, производительность вырастет до 10К знаков в минуту, вот только на выходе будет получаться еще бо́льшая херня, чем в рукописном тексте.


    1. Wesha
      02.07.2026 23:54

      человек мыслит значительно медленнее, чем пишет

      Эт если он образами мыслить не умеет,

      примерно так


  1. tormozedison
    02.07.2026 23:54

    Будет, обучение каллиграфии, леттерингу и подобному широко распространено.

    И есть мнение, что переписывание текста от руки, наоборот, улучшает его запоминание.


  1. MrLimon
    02.07.2026 23:54

    Это самая тупая штука что я сегодня увидел