Идея отказаться от использования Яндекс Алисы в системе умного дома возникла у меня после новости о принятии Госдумой законопроекта, касающегося штрафов за поиск и доступ к экстремистским материалам в интернете. Казалось бы, при чём тут голосовой помощник? Однако Яндекс входит в реестр организаторов распространения информации, что означает определённые юридические и технические обязательства по хранению и передаче данных.

Хотя я не ищу ничего, выходящего за рамки интересов автоматизации, желание иметь полностью автономный, локально работающий умный дом - без зависимости от интернета и облачных сервисов - стало для меня ещё актуальнее.

Тем более что сейчас единственным слабым звеном в моём умном доме остается Яндекс Алиса - которая требует постоянного интернет-соединения даже для выполнения простейших команд управления локальными устройствами.

В этой статье я расскажу, как и на что планирую заменить Алису, чтобы сохранить привычный голосовой контроль, но без сторонних подключений и рисков для приватности.

Конфигурация моего умного дома: чем будем управлять

Мой Home Assistant в "человеко читаемом" виде
Мой Home Assistant в "человеко читаемом" виде

Мой умный дом строился с прицелом на автономность, надежность и открытые стандарты - так, чтобы управление работало даже при полном отсутствии интернета. На данный момент архитектура системы выглядит следующим образом.

Мозг системы: центральный контроллер - это Raspberry Pi 4 Model B с 2 ГБ оперативной памяти, установлен в 2022 году. На него установлена Home Assistant OS - полноценная операционная система, заточенная под локальное управление умным домом - подробнее описывал в другой статье. Вся логика автоматизаций, интерфейс управления и интеграции работают исключительно локально, без необходимости в сторонних облаках.

Извиняюсь за скриншот, но с прокруткой только PicPick под Windows умеет делать - и вот результат :(
Извиняюсь за скриншот, но с прокруткой только PicPick под Windows умеет делать - и вот результат :(

Протоколы связи: большая часть устройств использует Wi-Fi через прошивку ESPHome - это 17 модулей: от простых температурных датчиков до управляющих реле в светильниках.

Ключевую нагрузку по управлению берет на себя Zigbee-сеть: 42 устройства, объединённые с помощью USB-донгла Sonoff Zigbee 3.0 Plus и интеграции Zigbee2MQTT. Это датчики, реле освещения и другие элементы.

Что управляется:

Все эти устройства уже управляются локально, без облачных зависимостей - кроме стиралки Bosch, купленной ещё в 2022 году.

Теоретический минимум: из чего состоит локальный голосовой помощник

Однако чтобы убрать колонку Яндекса и заменить Алису на полностью автономного голосового помощника, нужно понять, из каких компонентов он состоит. Это не “одна программа”, а целая цепочка взаимодействующих модулей, каждый из которых выполняет свою задачу:

ESP32-S3-BOX-3. Фото из интернета
ESP32-S3-BOX-3. Фото из интернета

Микрофон и динамик («Уши и рот» системы) - это устройства, которые слышат пользователя. Не должно быть колхоза из датчиков. Устройство должно выглядеть современно и не портить интерьер.

В моем случае я присматриваюсь к двум: компактный M5Stack ATOM Echo для комнат и более продвинутый ESP32-S3-BOX для гостиной.

Официальный комплект для разработки умных динамиков ATOM Echo M5Stack
Официальный комплект для разработки умных динамиков ATOM Echo M5Stack

Они захватывают звук и отправляют его на сервер для дальнейшей обработки.

 100% новый ESP32-S3-BOX-3 ESP32-S3-BOX-3B модуль комплекта разработки приложений AIOT 2,4 ГГц Wi-Fi + Bluetooth 5
100% новый ESP32-S3-BOX-3 ESP32-S3-BOX-3B модуль комплекта разработки приложений AIOT 2,4 ГГц Wi-Fi + Bluetooth 5

Wake Word движок: нужен, чтобы система слушала нас постоянно, но реагировала только по ключевой фразе (например, «Привет, пирожок!»). Используем OpenWakeWord - полностью локальный и настраиваемый.

Speech-to-Text (STT): этот модуль превращает речь в текст. Здесь смотрю на Whisper от OpenAI - пишут что это один из самых точных и устойчивых к шуму движков, работающий прямо на локальном сервере. Про его выбор чуть ниже.

Распознавание намерений (Intent Recognition): после получения текста нужно понять смысл команды. Эта задача ложится на встроенный в Home Assistant механизм Assist, который сопоставляет текст с действиями и сущностями в системе.

Text-to-Speech (TTS): чтобы система могла отвечать голосом, нужен синтез речи. Я планирую использовать Piper - современный, быстрый, качественный, легко интегрируется как Add-on в HA. Как вариант RHVoice - тоже отличный вариант, но Piper сейчас является де-факто стандартом в сообществе HA за простоту и качество.

Wyoming Protocol: связующее звено. Простой, но мощный протокол, через который все эти модули общаются между собой и с Home Assistant.

Речь в текст: почему именно такой стек?

Давайте будем честны: моя Raspberry Pi 4 с 2 ГБ памяти - отличный мозг для автоматизации, но для тяжелых вычислений, таких как распознавание речи в реальном времени, её мощности не хватит.

Поэтому, помимо «ушей» в виде ESP32-S3-BOX и M5Stack ATOM Echo, в систему придется докупить отдельный мини-ПК. Это может быть недорогой китайский NUC-подобный компьютер, который возьмет на себя самую ресурсоемкую задачу - преобразование речи в текст (Speech-to-Text (STT)).

Или может быть Raspberry Pi 5 c 16 ГБ оперативной памяти - цены сопоставимы.

Самый главный вопрос - что на нем будет крутиться? Выбор STT-движка определяет, насколько умным и гибким будет наш ассистент.

Speech-to-Phrase (от Open Home Foundation): это самый легковесный вариант. Он не распознает речь, а просто ищет точное совпадение с заранее заданными фразами.
К тому же это не конкретный движок, а концепция pipeline в HA. По умолчанию он использует тот же Whisper, но его самую легкую модель, чтобы хоть как-то работать на слабых устройствах вроде RPi. Плюс: минимальные требования к железу. Минус: абсолютная негибкость. Система поймет «включи свет на кухне», но проигнорирует «сделай на кухне посветлее». Это не интеллект, а поиск по словарю.

Rhasspy: ветеран мира локальных ассистентов. Мощный, но сложный в настройке комбайн. Главный аргумент против него сегодня: проект развивается медленнее, чем экосистема Home Assistant. Пока Rhasspy остается монолитной системой, связка Assist + Wyoming-протокол ушла далеко вперед в плане гибкости и интеграции.

Whisper от OpenAI - современный стандарт транскрипции. Понимает естественную речь в свободной форме, работает с русским языком. Различные модели (tiny, base, small, medium) позволяют балансировать между скоростью и качеством. Активно развивается, поддерживается сообществом HA, появляются оптимизированные версии вроде distil-whisper. Это выбор на перспективу.

Как избавиться от голосового помощника Алисы

Поскольку я нахожусь в активном поиске оптимального решения и уже закупаюсь компонентами, то буду признателен за ваши комментарии, критику и предложения.

Вариант 1: простой и дешевый

Лично для себя я не рассматриваю этот вариант, однако этот путь подойдёт тем, кто хочет попробовать локальное голосовое управление с минимальными затратами времени и денег. Как раз, чтобы "пощупать" концепцию и понять, насколько она жизнеспособна.

M5Stack ATOM Echo. Микроразмер. Фото из интернета
M5Stack ATOM Echo. Микроразмер. Фото из интернета

Или если вы только планируете сделать умный дом - можно изначально заложить более мощное железо - чтобы всё было на одном севере.

Все компоненты - Home Assistant, распознавание речи (STT) и синтез голоса (TTS) - работают прямо на Raspberry Pi. Один микрофон, одна точка входа, минимум зависимости.

То есть:

[M5Stack ATOM Echo] ← Wi-Fi → [Raspberry Pi 4 (HA + STT + TTS)]

Если брать мой случай:

  • Уже есть: Raspberry Pi 4 (2 ГБ) с установленной Home Assistant OS.

  • Нужно купить: M5Stack ATOM Echo (примерно 1 400 рублей). Это крошечное устройство с микрофоном, динамиком и Wi-Fi - почти готовый китайский мини-клон Алисы.

Настройка:

  1. Прошивка ATOM Echo: через ESPHome. Готовый YAML-конфиг для голосового ассистента легко найти в официальных примерах.

  2. Pipeline в HA:

    • STT: Используем Assist pipeline от Open Home Foundation с движком faster-whisper и моделью tiny. Запустится скорее всего даже на Pi 4.

    • TTS: Устанавливаем Add-on Piper - быстрый и качественный синтезатор, особенно с голосами на русском.

Плюсы этого решения:

  • Минимальные вложения - только 1 400 рублей и немного времени.

  • Простота - всё работает на одном устройстве.

  • Быстрый старт - можно реализовать за один вечер.

Минусы:

  • Скорее всего заметная задержка из-за слабого железа.

  • Нагрузка на Home Assistant - может тормозить работу системы во время STT.

  • Плохо масштабируется: один микрофон - ещё приёмлимо, но два и больше будут проблемой.

Вариант 2: «правильная» архитектура с заделом на будущее

Это мой приоритетный путь - вынести ресурсоёмкие задачи обработки речи на отдельный сервер, а Raspberry Pi остаётся заниматься только управлением умным домом. Подход масштабируемый, стабильный и в моём случае надеюсь что будет в разы быстрее.

ESP32-S3-BOX. Фото из интернета
ESP32-S3-BOX. Фото из интернета

Схема сложнее:

[Пользователь]
      ↓ говорит
[ESP32-S3-BOX / M5Stack ATOM Echo]  ← микрофон + wake word ("Привет, пирожок!")
      ↓ захватывает аудио
    (по Wi-Fi)
      ↓
[Мини-ПК: Whisper STT-сервер]
      ↓ распознаёт речь в текст (Whisper STT)
      ↓
[Home Assistant на Raspberry Pi 4]
      ↓ определяет намерение (Assist)
      ↓ выполняет команду
      ↓ (опционально)
[Мини-ПК: Piper TTS]
      ↓ синтезирует голосовой ответ
    (по Wi-Fi)
      ↓
[ESP32-S3-BOX / M5Stack ATOM Echo] ← динамик
      ↓ озвучивает ответ
[Пользователь]

Железо:

  • Уже есть Raspberry Pi 4 (2 ГБ) - Home Assistant, Zigbee, автоматизации.

  • Примерно 14 т.р.: Mini PC (Intel N100 или N95) - сервер обработки голоса.

  • Примерно 6 т.р. ESP32-S3-BOX - «умный» ассистент для гостиной.

  • Примерно 1,4 т.р. M5Stack ATOM Echo - недорогие ассистенты для других комнат.

Сервер обработки голоса (Mini PC):
Устанавливаем легкий Linux (Debian/Ubuntu Server), затем - Docker и Docker Compose. В docker-compose.yml разворачиваем сразу три контейнера:

  • Whisper - для распознавания речи (STT).

  • Piper - синтез речи (TTS).

  • OpenWakeWord - «ключевая фраза» для активации.

С мощностями N100 можно использовать модель Whisper уровня small или даже medium, получая более точное и быстрое распознавание речи, чем на Pi.

Настройка Home Assistant: на Raspberry Pi в этом случае не используется голосовых add-on'ов - только интеграция через Wyoming:

  • Заходим в Настройки → Устройства и службы → Добавить интеграцию.

  • Добавляем Wyoming Protocol трижды — для каждого из сервисов (Whisper, Piper, WakeWord), указав IP и порты Mini PC.

  • Создаём Voice Pipeline, выбираем нужные сервисы из выпадающих списков.

Спутники (ESP32-S3-BOX и ATOM Echo): прошиваются через ESPHome. У ESP32-S3-BOX можно задействовать экран: отображать статус («Слушаю», «Думаю», «Выполняю»), добавляя интерактивности.

Плюсы:

  • Ожидаемая быстрая реакция.

  • Ожидание распознавания сложных фраз.

  • Не грузит Home Assistant.

  • Масштабируемость: добавляем спутники - и всё.

Минусы:

  • Дороже (нужен Mini PC).

  • Потребуются базовые навыки Linux и Docker.

Вариант 3: дорого и сложно

Можно полностью избавиться от Raspberry Pi 4 с 2 ГБ памяти и абсолютно всё перевести на новый мощный сервер. RAM видимо выбрать 16-32 ГБ чтобы с запасом на все. Может быть даже купить NVIDIA VRAM 6 ГБ, но это тогда сильно увеличит стоимость и можно будет забыть о безвентиляторности.

Сборка в mini-ITX. Фото из интернета
Сборка в mini-ITX. Фото из интернета

Можно тоже будет использовать Home Assistant OS или Linux (Ubuntu/Debian) + Docker.

Правда это большая работа - много устройств. Пока склоняюсь к второму варианту.

Заключение: свобода выбора

Переход на локального голосового ассистента - это не просто технический эксперимент, а осознанный шаг к созданию по-настоящему приватного и независимого умного дома.

Первый вариант - это отличная, почти бесплатная возможность «пощупать» технологию и понять ее ограничения. Второй - полноценное решение, которое по скорости и качеству скорее всего не уступит Алисе, при этом полностью оставаясь под контролем. Третий вариант - если есть бюджет.

Все пути ведут к одной цели - избавлению от «облачного рабства». До сентября ещё есть время. А расставание с Алисой может быть не только экологичным, но и очень увлекательным!

А каким голосовым помощником пользуетесь вы?

Автор: Михаил Шардин
? Моя онлайн-визитка
? Telegram «Умный Дом Инвестора»

29 июля 2025 года

Комментарии (53)


  1. DashBerlin
    29.07.2025 01:35

    Было бы интересно увидекть реальные результаты работы, потому что про M5Stack ATOM Echo противоречивые отзывы, нет уверенности, что справится, а про ESP32-S3-BOX очень мало обратнлй связи, но цена в несколько раз выше, является ли это показателем качества? Возможно есть еще варианты


    1. empenoso Автор
      29.07.2025 01:35

      К сожалению нашёл только эти два варианта, ESP32-S3-BOX (он с дисплеем) - по фоткам из интернета с прошитой ESPHome выглядит симпатично.


  1. Abyss777
    29.07.2025 01:35

    Зачем N95 за 14 если можно взять Ryzen 5 6600H+Radeon 660M + 16Гб + 512Гб за 17000
    https://www.ozon.ru/product/firebat-mini-pk-amd-ryzen-5-6600h-ram-16-gb-ssd-512-gb-amd-radeon-660m-windows-11-home-am02-chernyy-1846291873/


    1. empenoso Автор
      29.07.2025 01:35

      В целом да, сейчас не обязательно самые дешёвые цены на китайской площадке


      1. Abyss777
        29.07.2025 01:35

        Я скорее про то, что 3 вариант не сильно отличается по цене от второго.

        Я не силён в этом, но вроде как llm научились на APU запускать https://github.com/rjmalagon/ollama-linux-amd-apu


        1. SabMakc
          29.07.2025 01:35

          LLM и на CPU работают, вопрос скорости генерации токенов (и обработки запроса). А скорость зависит от пропускной способности памяти, где видеокарты как раз в почете.

          С этой точки зрения APU не имеют особого смысла - просто потому, что скорость памяти не меняется.

          P.S. Самый большой эффект оптимизаций видел в обработке запросов, но не в генерации (ik_llama.cpp в разы быстрее llama.cpp на CPU).


    1. SserjIrk
      29.07.2025 01:35

      Вообще N95 вполне может обходиться без вентилятора. А с Ryzen-ами такое уже не прокатывает. Что-то типа такого Алиэкспресс


      1. empenoso Автор
        29.07.2025 01:35

        Спасибо


    1. MrLizard
      29.07.2025 01:35

      Вот совпадение, как раз сегодня такой должен прийти, как раз под эти же самые задачи


    1. Tirarex
      29.07.2025 01:35

      За 7-8к можно боксы на N150 Урвать, тоже веселая железка.


  1. rPman
    29.07.2025 01:35

    я не понял, зачем оставлять raspberry pi если мощную x86 машину придется завести? разделять слишком умный функционал от базового? Какую именно работу хотите поручить малинке если сервер выключится?

    p.s. настоятельно рекомендую посмотреть на скорость получения результата голос -> whisper -> llm -> tts -> ответ и при использовании локальных моделей она вам НЕ понравится!

    Если же собираетесь использовать зарубежных провайдеров (типа openai/anthropic/google/xai/alibaba/deepseek..) то настоятельно рекомендую посмотреть у них realtime api (как минимум у гугла и openai они есть) с мультимодальными голосовыми моделями (или гугл), работающими как с текстом так и с голосом в одном контекстном окне, скорость их реакции максимально приближена к естественному человеческому.

    p.p.s. точно знаю у meta и майкрософта (phi 4) были мультимодальные модели для работы с голосом в реальном времени, но не попадался красивый готовый пример для локального запуска, ну и гугл недавно пиарился со своей мультимодальной моделью для смартфонов в открытом доступе, может там тоже голос есть.


    1. empenoso Автор
      29.07.2025 01:35

      Спасибо


    1. SabMakc
      29.07.2025 01:35

      У phi 4 с русским языком "очень не очень".
      Гугл пиарился с gemma-3n, но она только текст и картинки принимает, если не ошибаюсь.
      Llama - их множество, дотренированных различным образом, но не пробовал. В целом об их моделях молва идет как о не очень качественных (не знаю, на сколько это соотносится с реальностью).

      Я бы посмотрел на Voxtral от mistralai.
      В целом, те модели от mistralai, что пробовал, русский понимают, пускай и не лучшим образом (но именно Voxtral не пробовал).


    1. MrLizard
      29.07.2025 01:35

      К сожалению мультимодальность gemma (google) ограничена только LLM и VLM, в качестве tts довольно шустро (и не нагруженно) работают silero, piper(на Rpi запускается без проблем, звучит кстати тоже неплохо) coqui tts(но постоянно пытается произнести точки aka "поинт\поинти\пынта") terra tts (если добавить RUAccent вообще звучит замечательно) А вот что касаемо STT пока подробно вопрос не изучал к сожалению


  1. maniak26
    29.07.2025 01:35

    Добрый день!

    Пытался внедрить голосовое управление по схеме m5 atom - whisper - ha (вм на synology хранилке)

    Настроил на активацию голосом (okay Jarvis Или okay naboo). Впечатление - с заметным лагом в 70% случаев срабатывает. Но пришлось рефачить конфиг - обзывать все устройства в соответствии с best practices. С пары метров ловит более менее прилично, если находится в прямой видимости.

    Далее подключал llm (небольшие gemma и Llama), запущенную на пк. Стало чуть веселее, уже не строгое "включить свет кухня", а "сделай светло на кухне". Но иногда ошибается и включает свет не там).

    Пока остановил эксперименты - для полностью локального и постоянного решения нужен какой-то не сильно шумный и дорогой девайс под llm и ускорение whisper.


    1. empenoso Автор
      29.07.2025 01:35

      Спасибо


    1. rPman
      29.07.2025 01:35

      с каким системным промптом у вас gemma ошибалась?


  1. XTBZ
    29.07.2025 01:35

    Что лучше для такой системы HomeAssistant на докер контейнерах ручных или HomeAssistant OS?

    Еще, не совсем понятно, почему бы не использовать сразу один сервер большой, ведь ресурсы большого сервера в любом случае требуются?


    1. empenoso Автор
      29.07.2025 01:35

      Пока не решил для себя как окончательно сделать. Или 2 или 3 вариант рассматриваю


      1. XTBZ
        29.07.2025 01:35

        В плане дороговизны, может быть, можно использовать китайские старые зеоны. У них и ядер много, и в случае необходимости видеокарту добавить можно. Получится дешевый сервер, куда можно поместить что угодно


        1. empenoso Автор
          29.07.2025 01:35

          Место только. У меня есть специальная ниша в стене - поместиться ли такая сборка - надо смотреть


      1. almirus
        29.07.2025 01:35

        на большой машине поставить Proxmox, а там в контейнерах все что нужно.


    1. Tirarex
      29.07.2025 01:35

      В докере с плагинами HA сложновато. А с baremetal системой есть шанс сломать конфиг и чинить его с красными глазами.

      В идеале поставить Proxmox а в нем завести виртуалку с HomeAssistantOS. В таком случае всегда есть бекапы, легко расширить ресурсы и переехать с одного хоста на другой, итд.

      (Скрипты TTEK делают заведение такой виртуалки делом пары минут)


  1. Alexroll11
    29.07.2025 01:35

    Добрый день по распознованию речи я для себя открыл https://huggingface.co/t-tech/T-one вот такую штуку, работает шустро, с русским языком идеально, в реальном времени, на вашей малинке конечно не запуститься нужно 8 гигов малинка но если будете использовать сервер то идеально, у себя накрутил на сервере, и с esp передаёт звук работает быстро. Тк сам сейчас задумываюсь делать альтернативу яндексу то что бы не городить лишнего планирую делать связку, колонки с Алисой остаются, задать активную фразу которая будет через хом ассистент передавать на мой сервер для перевода в речь, на том же сервере стоит ещё одна ллм для обработки запроса и от неё ответ отдавать тоже через хом ассистент на колонки яндекса.


    1. empenoso Автор
      29.07.2025 01:35

      Спасибо


  1. xaxexa
    29.07.2025 01:35

    Вот не поверишь у меня точно такие же взгляды на построение умного дома :-) и щас воюю с твоей проблемой, я переехал с тв приставка s912 amlogic (мощнее твоего распберри), на интел nuc 6 там склерон 4 ядра, 8 ram, ssd, hassio просто летать начал, для stt использую vosk, вобще ниодного вопроса ни по разбору речи ни по быстродействию, а вот assist дно он даже на падежах спотыкается... ну и у меня мысли прошить Алису или марусю или ещё кого-то из их семейства на армбиан и накатить туда войс сателлит есть приложение от home assistant


    1. empenoso Автор
      29.07.2025 01:35

      Спасибо


  1. lolo333
    29.07.2025 01:35

    для малины есть плата расширения для работы с ии. Может быть ее для обработки голоса хватит. https://www.raspberrypi.com/products/ai-kit/


  1. j_aleks
    29.07.2025 01:35

    А у вас HASS отчужден от инета, не обновляется... Хотя эти обновления немало крови попили... иной раз всю ифраструктуру перепахивать приходилось...


    1. empenoso Автор
      29.07.2025 01:35

      Не отчужден. Обновляется. Да, потом что-нибудь слетает.


  1. Steelycrack
    29.07.2025 01:35

    чет какой-то зоопарк получается вместо одного сервера с гипервизором.


  1. yavasilek
    29.07.2025 01:35

    Попробуй вместо whisper использовать vosk. Он побыстрее работает


  1. ncix
    29.07.2025 01:35

    Это все конечно занимательные развлечения, но сколько вы рассчитываете жить без интернета? За день-два любые аварии провайдера устраняются. День-два вы же проживете без Алисы?

    Тот же и ещё куча других вопросов решается резервным каналом (он же у вас есть?).

    А если больше пары дней без инета, тут наверное лучше тушёнки и свечей закупить, чем ещё горсть железа.


    1. empenoso Автор
      29.07.2025 01:35

      Тут как бы основной посыл статьи немного другой - в самом начале обозначено то что меня напугало.


      1. earth_power
        29.07.2025 01:35

        А почему не перейти на зарубежное решение, гугл, эпл или амазон колонку? И разве нет готовых оффлайн решений? Как то очень муторно и дорого отказываться от колонки за 2500р


        1. empenoso Автор
          29.07.2025 01:35

          Сейчас таких цен на Алисы нет


    1. DaemonGloom
      29.07.2025 01:35

      Добро пожаловать в современный мир. Пара дней без инета - это теперь нормально.


      1. empenoso Автор
        29.07.2025 01:35

        В Перми на самом деле перебоев вроде не было


    1. Ruwster
      29.07.2025 01:35

      Управление домашними устройствами , по-моему, должно работать офлайн.

      У меня на даче интернет, в текущей ситуации, отсутствует, алиса в ауте, все устройства тоже. Резервный канал невозможен. Да и в принципе, на кой команды гонять через какие-то облака, чтобы включить свет в ванной или выключить кондиционер.


      1. ncix
        29.07.2025 01:35

        На случай отсутствия голосового помощника наверное есть пульты, приложения, панели с кнопками.
        Мне сложно судить насколько это неудобно привыкшим к голосовому управлению людям, мне наоборот, куда проще молча найти пульт/приложение и ткунть пару кнопок, чем открывать рот и говорить.


      1. empenoso Автор
        29.07.2025 01:35

        HA полностью локален


    1. Tirarex
      29.07.2025 01:35

      Тут даже не вопрос интернета а вопрос алисы дома. Бесполезная + дорогая коробка + требует подписку, с очень кривым домом (удя) который интегрируется со скрипом, с обновлениями становится тупее.

      За цену одной яндекс станции про ( в районе 20к) можно взять мини пк на N150 или свежем райзене, пару малин с шилдами для микрофона и динамика, и пару аудио систем 2,0 для лучшего звука, и сделать заметно более гибкий умный дом который не требует подписок и не дружит с товарищем майором.


  1. chercheur
    29.07.2025 01:35

    Пробовал M5 Stack Atom Echo - слабоват микрофон и дохлый динамик

    Купил на пробу "официальный" Home Assistant Voice Preview Edition - совсем другое дело, микрофоны получше и ответы слышно :)


  1. janvarev
    29.07.2025 01:35

    Если нужно - есть русский опенсорс голосовой помощник Ирина с полным оффлайном: https://habr.com/ru/articles/595855/, https://github.com/janvarev/Irene-Voice-Assistant

    На Гитхабе 900+ звезд, расширяется плагином, есть плагин интеграции с HA. Распознавание голоса делается на лету легким VOSK, довольно качественно. Запускали даже на Raspberry, правда, там надо немного долбаться с докером; я предпочитаю запускать на старом компьютере.

    Обработка команд - либо по соотвествию слов (быстро, дешево), либо можно прокинуть до LLM локальной или облачной (тогда вызывается один из tools).


    1. empenoso Автор
      29.07.2025 01:35

      Спасибо


    1. janvarev
      29.07.2025 01:35

      Накатал статью на Хабр про последний апдейт Ирины: https://habr.com/ru/articles/932072/


  1. positroid
    29.07.2025 01:35

    Задарили недавно Home Assistant Voice Preview Edition, детально погонять не успел, но:

    1. Для облака нужен VPN, локально на raspberry pi 4 без танцев с бубнами распознавание не завелось

    2. Русский язык заявлен только в облаке

    3. Можно кастомизировать вплоть до перепрошивки устройства

    4. Assist в сравнении с алисой это такое ... своеобразие. Выше уже писали best practices по именованию объектов, но даже банальное "Включи весь свет" или указание комнаты у меня не завелось. Управление работает только если точно назвать объект в hass (и если whisper его правильно распознает, например "основной свет кабинет" иногда распознается как "основной свет в кабинете" и выдает ошибку).

    5. Банально поболтать тоже не выходит, ни спросить погоду, ни все остальное - "сообщение не распознано". Работает только то, что завязано на Home Assistant.

    Глубоко вникнуть во все детали у меня, к сожалению, не вышло, полностью отказываться от Алисы не собираюсь, но поразбираться с новым девайсом, локальными модельками и своей логикой - собираюсь. Благо в качестве основного устройства могу использовать стационарный ПК, т.к. он всегда в сети.


    1. Tirarex
      29.07.2025 01:35

      Я тестил с телефона в паре с чатгпт в настройках AI, дом настроен по комнатам с русскими названиями, сами устройства названы как попало.

      Русский понимает без проблем, включи весь свет понимает без проблем, включи свет в комнате тоже, но точечные команды понимает с трудом если светильники не названы нормально. То же "включи ночник в зале" оно поймет только если ночник называется ночником а не shellyplus1pm-441793a962b0 (у меня ночником розетка шелли рулит), но это вполне логично.

      В целом если посидеть с конфигами один раз, то можно привести это все в рабочее состояние.

      С локальным AI все сложнее, у чатгпт сколько денег отдал столько токенов будет, а дома в llama можно любую сеть поднять но нужно много видеопамяти.


  1. SabMakc
    29.07.2025 01:35

    Если есть желание гонять LLM - то лучше сразу на полноценный комп закладываться, с видеокартой и прочими ништяками.

    Я бы на мини-системник на базе AMD Ryzen AI MAX+ 395 посмотрел - распаяно 128GB быстрой памяти (что хорошо для LLM), но цена - около 200к, что не так уж и бюджетно (хотя если собирать новый комп с похожими характеристиками, то не сильно дешевле выйдет).

    Может для умного дома и избыточно, но мощная локальная LLM пригодится и в повседневной жизни.


    1. empenoso Автор
      29.07.2025 01:35

  1. 13werwolf13
    29.07.2025 01:35

    у меня hass вместе с whisper и piper крутятся на безвентиляторном неттопе от китайцев с n100 в качестве процессора. увы этого камушка явно маловато для распознавания речи, в процессе распознавания команды, даже пары слов процессор грузится на 100% на 5-10 секунд хотя в остальное время он простаивает.


  1. artmel
    29.07.2025 01:35

    посмотрите на orin jetson nano dev kit 8/16 гб

    Он заточен на запуск локальных моделей.


  1. Akr0n
    29.07.2025 01:35

    Сомневаюсь, что N100 хватит под Whisper и Piper с приемлемыми задержками, надо что-то помощнее.