Экологичное расставание с Алисой: строим полностью локальный и приватный голосовой ассистент / forpes.ru

Главная
Экологичное расставание с Алисой: строим полностью локальный и приватный голосовой ассистент

Экологичное расставание с Алисой: строим полностью локальный и приватный голосовой ассистент +120

29.07.2025 00:26

empenoso 89 45000 Источник

Идея отказаться от использования Яндекс Алисы в системе умного дома возникла у меня после новости о принятии Госдумой законопроекта, касающегося штрафов за поиск и доступ к экстремистским материалам в интернете. Казалось бы, при чём тут голосовой помощник? Однако Яндекс входит в реестр организаторов распространения информации, что означает определённые юридические и технические обязательства по хранению и передаче данных.

Хотя я не ищу ничего, выходящего за рамки интересов автоматизации, желание иметь полностью автономный, локально работающий умный дом — без зависимости от интернета и облачных сервисов — стало для меня ещё актуальнее.

Тем более что сейчас единственным слабым звеном в моём умном доме остается Яндекс Алиса — которая требует постоянного интернет‑соединения даже для выполнения простейших команд управления локальными устройствами.

В этой статье я расскажу, как и на что планирую заменить Алису, чтобы сохранить привычный голосовой контроль, но без сторонних подключений и рисков для приватности.

Конфигурация моего умного дома: чем будем управлять

Мой Home Assistant в "человеко читаемом" виде — Мой Home Assistant в «человеко читаемом» виде

Мой умный дом строился с прицелом на автономность, надежность и открытые стандарты — так, чтобы управление работало даже при полном отсутствии интернета. На данный момент архитектура системы выглядит следующим образом.

Мозг системы: центральный контроллер — это Raspberry Pi 4 Model B с 2 ГБ оперативной памяти, установлен в 2022 году. На него установлена Home Assistant OS — полноценная операционная система, заточенная под локальное управление умным домом — подробнее описывал в другой статье. Вся логика автоматизаций, интерфейс управления и интеграции работают исключительно локально, без необходимости в сторонних облаках.

Извиняюсь за скриншот, но с прокруткой только PicPick под Windows умеет делать - и вот результат :(

Протоколы связи: большая часть устройств использует Wi‑Fi через прошивку ESPHome — это 17 модулей: от простых температурных датчиков до управляющих реле в светильниках.

Ключевую нагрузку по управлению берет на себя Zigbee‑сеть: 42 устройства, объединённые с помощью USB‑донгла Sonoff Zigbee 3.0 Plus и интеграции Zigbee2MQTT. Это датчики, реле освещения и другие элементы.

Что управляется:

Освещение: в каждой комнате — два контура: тусклый (вечерний) и яркий, плюс светодиодная лента в спальне, освещение общего коридора с двумя режимами.
Климат: кондиционеры, обогрев ванной комнаты через реле теплого пола.
Электропитание и бытовая техника: управляемая розетка для ТВ, стиралка, холодильник, посудомойка, чайник.
Датчики: движения, открытия, температуры и влажности.
Шторы: моторизованные рулонные и классические.
Мультимедиа: управление Kodi на медиаплеере и доступ к медиатеке NAS Synology, панель управления умным домом.
Безопасность: камера видеонаблюдения из подъездного домофона, IP‑камера у лифтов, управление домофоном в многоквартирном доме — автовахтер по моим правилам.

Все эти устройства уже управляются локально, без облачных зависимостей — кроме стиралки Bosch, купленной ещё в 2022 году.

Теоретический минимум: из чего состоит локальный голосовой помощник

Однако чтобы убрать колонку Яндекса и заменить Алису на полностью автономного голосового помощника, нужно понять, из каких компонентов он состоит. Это не “одна программа”, а целая цепочка взаимодействующих модулей, каждый из которых выполняет свою задачу:

Микрофон и динамик («Уши и рот» системы) — это устройства, которые слышат пользователя. Не должно быть колхоза из датчиков. Устройство должно выглядеть современно и не портить интерьер.

В моем случае я присматриваюсь к двум: компактный M5Stack ATOM Echo для комнат и более продвинутый ESP32-S3-BOX для гостиной.

Официальный комплект для разработки умных динамиков ATOM Echo M5Stack

Они захватывают звук и отправляют его на сервер для дальнейшей обработки.

100% новый ESP32-S3-BOX-3 ESP32-S3-BOX-3B модуль комплекта разработки приложений AIOT 2,4 ГГц Wi-Fi + Bluetooth 5

Wake Word движок: нужен, чтобы система слушала нас постоянно, но реагировала только по ключевой фразе (например, «Привет, пирожок!»). Используем OpenWakeWord — полностью локальный и настраиваемый.

Speech-to-Text (STT): этот модуль превращает речь в текст. Здесь смотрю на Whisper от OpenAI — пишут что это один из самых точных и устойчивых к шуму движков, работающий прямо на локальном сервере. Про его выбор чуть ниже.

Распознавание намерений (Intent Recognition): после получения текста нужно понять смысл команды. Эта задача ложится на встроенный в Home Assistant механизм Assist, который сопоставляет текст с действиями и сущностями в системе.

Text‑to‑Speech (TTS): чтобы система могла отвечать голосом, нужен синтез речи. Я планирую использовать Piper — современный, быстрый, качественный, легко интегрируется как Add‑on в HA. Как вариант RHVoice — тоже отличный вариант, но Piper сейчас является де‑факто стандартом в сообществе HA за простоту и качество.

Wyoming Protocol: связующее звено. Простой, но мощный протокол, через который все эти модули общаются между собой и с Home Assistant.

Речь в текст: почему именно такой стек?

Давайте будем честны: моя Raspberry Pi 4 с 2 ГБ памяти — отличный мозг для автоматизации, но для тяжелых вычислений, таких как распознавание речи в реальном времени, её мощности не хватит.

Поэтому, помимо «ушей» в виде ESP32-S3-BOX и M5Stack ATOM Echo, в систему придется докупить отдельный мини‑ПК. Это может быть недорогой китайский NUC‑подобный компьютер, который возьмет на себя самую ресурсоемкую задачу — преобразование речи в текст (Speech‑to‑Text (STT)).

Илиможет быть Raspberry Pi 5 c 16 ГБ оперативной памяти — цены сопоставимы.

Самый главный вопрос — что на нем будет крутиться? Выбор STT‑движка определяет, насколько умным и гибким будет наш ассистент.

Speech‑to‑Phrase (от Open Home Foundation): это самый легковесный вариант. Он не распознает речь, а просто ищет точное совпадение с заранее заданными фразами.
К тому же это не конкретный движок, а концепция pipeline в HA. По умолчанию он использует тот же Whisper, но его самую легкую модель, чтобы хоть как‑то работать на слабых устройствах вроде RPi. Плюс: минимальные требования к железу. Минус: абсолютная негибкость. Система поймет «включи свет на кухне», но проигнорирует «сделай на кухне посветлее». Это не интеллект, а поиск по словарю.

Rhasspy: ветеран мира локальных ассистентов. Мощный, но сложный в настройке комбайн. Главный аргумент против него сегодня: проект развивается медленнее, чем экосистема Home Assistant. Пока Rhasspy остается монолитной системой, связка Assist + Wyoming‑протокол ушла далеко вперед в плане гибкости и интеграции.

Whisper от OpenAI — современный стандарт транскрипции. Понимает естественную речь в свободной форме, работает с русским языком. Различные модели (tiny, base, small, medium) позволяют балансировать между скоростью и качеством. Активно развивается, поддерживается сообществом HA, появляются оптимизированные версии вроде distil‑whisper. Это выбор на перспективу.

Как избавиться от голосового помощника Алисы

Поскольку я нахожусь в активном поиске оптимального решения и уже закупаюсь компонентами, то буду признателен за ваши комментарии, критику и предложения.

Вариант 1: простой и дешевый

Лично для себя я не рассматриваю этот вариант, однако этот путь подойдёт тем, кто хочет попробовать локальное голосовое управление с минимальными затратами времени и денег. Как раз, чтобы «пощупать» концепцию и понять, насколько она жизнеспособна.

M5Stack ATOM Echo. Микроразмер. Фото из интернета

Илиесли вы только планируете сделать умный дом — можно изначально заложить более мощное железо — чтобы всё было на одном севере.

Все компоненты — Home Assistant, распознавание речи (STT) и синтез голоса (TTS) — работают прямо на Raspberry Pi. Один микрофон, одна точка входа, минимум зависимости.

То есть:

[M5Stack ATOM Echo] ← Wi-Fi → [Raspberry Pi 4 (HA + STT + TTS)]

Если брать мой случай:

Уже есть: Raspberry Pi 4 (2 ГБ) с установленной Home Assistant OS.
Нужно купить: M5Stack ATOM Echo (примерно 1 400 рублей). Это крошечное устройство с микрофоном, динамиком и Wi‑Fi — почти готовый китайский мини-клон Алисы.

Настройка:

Прошивка ATOM Echo: через ESPHome. Готовый YAML-конфиг для голосового ассистента легко найти в официальных примерах.
Pipeline в HA:
- STT: Используем Assist pipeline от Open Home Foundation с движком faster‑whisper и моделью tiny. Запустится скорее всего даже на Pi 4.
- TTS: Устанавливаем Add‑on Piper — быстрый и качественный синтезатор, особенно с голосами на русском.

Плюсы этого решения:

Минимальные вложения — только 1 400 рублей и немного времени.
Простота — всё работает на одном устройстве.
Быстрый старт — можно реализовать за один вечер.

Минусы:

Скорее всего заметная задержка из‑за слабого железа.
Нагрузка на Home Assistant — может тормозить работу системы во время STT.
Плохо масштабируется: один микрофон — ещё приёмлимо, но два и больше будут проблемой.

Вариант 2: «правильная» архитектура с заделом на будущее

Это мой приоритетный путь — вынести ресурсоёмкие задачи обработки речи на отдельный сервер, а Raspberry Pi остаётся заниматься только управлением умным домом. Подход масштабируемый, стабильный и в моём случае надеюсь что будет в разы быстрее.

Схема сложнее:

[Пользователь]
      ↓ говорит
[ESP32-S3-BOX / M5Stack ATOM Echo]  ← микрофон + wake word ("Привет, пирожок!")
      ↓ захватывает аудио
    (по Wi-Fi)
      ↓
[Мини-ПК: Whisper STT-сервер]
      ↓ распознаёт речь в текст (Whisper STT)
      ↓
[Home Assistant на Raspberry Pi 4]
      ↓ определяет намерение (Assist)
      ↓ выполняет команду
      ↓ (опционально)
[Мини-ПК: Piper TTS]
      ↓ синтезирует голосовой ответ
    (по Wi-Fi)
      ↓
[ESP32-S3-BOX / M5Stack ATOM Echo] ← динамик
      ↓ озвучивает ответ
[Пользователь]

Железо:

Уже есть Raspberry Pi 4 (2 ГБ) — Home Assistant, Zigbee, автоматизации.
Примерно 14 т.р.: Mini PC (Intel N100 или N95) — сервер обработки голоса.
Примерно 6 т.р. ESP32-S3-BOX — «умный» ассистент для гостиной.
Примерно 1,4 т.р. M5Stack ATOM Echo — недорогие ассистенты для других комнат.

Сервер обработки голоса (Mini PC):
Устанавливаем легкий Linux (Debian/Ubuntu Server), затем — Docker и Docker Compose. В docker‑compose.yml разворачиваем сразу три контейнера:

Whisper — для распознавания речи (STT).
Piper — синтез речи (TTS).
OpenWakeWord — «ключевая фраза» для активации.

С мощностями N100 можно использовать модель Whisper уровня small или даже medium, получая более точное и быстрое распознавание речи, чем на Pi.

Настройка Home Assistant: на Raspberry Pi в этом случае не используется голосовых add-on'ов — только интеграция через Wyoming:

Заходим в Настройки → Устройства и службы → Добавить интеграцию.
Добавляем Wyoming Protocol трижды — для каждого из сервисов (Whisper, Piper, WakeWord), указав IP и порты Mini PC.
Создаём Voice Pipeline, выбираем нужные сервисы из выпадающих списков.

Спутники (ESP32-S3-BOX и ATOM Echo): прошиваются через ESPHome. У ESP32-S3-BOX можно задействовать экран: отображать статус («Слушаю», «Думаю», «Выполняю»), добавляя интерактивности.

Плюсы:

Ожидаемая быстрая реакция.
Ожидание распознавания сложных фраз.
Не грузит Home Assistant.
Масштабируемость: добавляем спутники - и всё.

Минусы:

Дороже (нужен Mini PC).
Потребуются базовые навыки Linux и Docker.

Вариант 3: дорого и сложно

Можно полностью избавиться от Raspberry Pi 4 с 2 ГБ памяти и абсолютно всё перевести на новый мощный сервер. RAM видимо выбрать 16-32 ГБ чтобы с запасом на все. Может быть даже купить NVIDIA VRAM 6 ГБ, но это тогда сильно увеличит стоимость и можно будет забыть о безвентиляторности.

Можно тоже будет использовать Home Assistant OS или Linux (Ubuntu/Debian) + Docker.

Правда это большая работа — много устройств. Пока склоняюсь к второму варианту.

Заключение: свобода выбора

Переход на локального голосового ассистента — это не просто технический эксперимент, а осознанный шаг к созданию по‑настоящему приватного и независимого умного дома.

Первый вариант — это отличная, почти бесплатная возможность «пощупать» технологию и понять ее ограничения. Второй — полноценное решение, которое по скорости и качеству скорее всего не уступит Алисе, при этом полностью оставаясь под контролем. Третий вариант — если есть бюджет.

Все пути ведут к одной цели — избавлению от «облачного рабства». До сентября ещё есть время. А расставание с Алисой может быть не только экологичным, но и очень увлекательным!

А каким голосовым помощником пользуетесь вы?

Автор: Михаил Шардин
? Моя онлайн-визитка
? Telegram «Умный Дом Инвестора»

29 июля 2025 года

Комментарии (89)

DashBerlin
29.07.2025 01:35
#28631040
Было бы интересно увидекть реальные результаты работы, потому что про M5Stack ATOM Echo противоречивые отзывы, нет уверенности, что справится, а про ESP32-S3-BOX очень мало обратнлй связи, но цена в несколько раз выше, является ли это показателем качества? Возможно есть еще варианты
1. empenoso Автор
  29.07.2025 01:35
  #28631050
  К сожалению нашёл только эти два варианта, ESP32-S3-BOX (он с дисплеем) - по фоткам из интернета с прошитой ESPHome выглядит симпатично.
  1. xSVPx
    29.07.2025 01:35
    #28636392
    Цена вот только на него немного странная. Чего туда на эти деньги напихали то такого ?

Abyss777
29.07.2025 01:35
#28631182
Зачем N95 за 14 если можно взять Ryzen 5 6600H+Radeon 660M + 16Гб + 512Гб за 17000
https://www.ozon.ru/product/firebat-mini-pk-amd-ryzen-5-6600h-ram-16-gb-ssd-512-gb-amd-radeon-660m-windows-11-home-am02-chernyy-1846291873/
1. empenoso Автор
  29.07.2025 01:35
  #28631220
  В целом да, сейчас не обязательно самые дешёвые цены на китайской площадке
  1. Abyss777
    29.07.2025 01:35
    #28631236
    Я скорее про то, что 3 вариант не сильно отличается по цене от второго.
    
    Я не силён в этом, но вроде как llm научились на APU запускать https://github.com/rjmalagon/ollama-linux-amd-apu
    
    SabMakc
    29.07.2025 01:35
    #28632104
    LLM и на CPU работают, вопрос скорости генерации токенов (и обработки запроса). А скорость зависит от пропускной способности памяти, где видеокарты как раз в почете.
    
    С этой точки зрения APU не имеют особого смысла - просто потому, что скорость памяти не меняется.
    
    P.S. Самый большой эффект оптимизаций видел в обработке запросов, но не в генерации (ik_llama.cpp в разы быстрее llama.cpp на CPU).
1. SserjIrk
  29.07.2025 01:35
  #28631292
  Вообще N95 вполне может обходиться без вентилятора. А с Ryzen-ами такое уже не прокатывает. Что-то типа такого Алиэкспресс
  1. empenoso Автор
    29.07.2025 01:35
    #28631354
    Спасибо
  1. Illiiilll
    29.07.2025 01:35
    #28637116
    У меня миник на n100 и без вентилятора он очень горячий, рука еле терпит. Вот такой калхозинг решает проблему(цена вопроса 200 рублей).
    
    SserjIrk
    29.07.2025 01:35
    #28637314
    Ну так это смотря что делать. Да и N100 заявлен до 105 градусов. А это далеко не то что рука может терпеть. Умному дому много не надо. Время работы на распознавание речи и ответ это очень немного а не постоянная нагрузка. Постоянный мониторинг это на столько мизерная нагрузка что можно и не обращать внимания. У меня N95 валяется в углу, торренты раздает да файловая помойка на Ubuntu Server. Только раз в полгода выключаю от пыли почистить.
1. MrLizard
  29.07.2025 01:35
  #28632588
  Вот совпадение, как раз сегодня такой должен прийти, как раз под эти же самые задачи
1. Tirarex
  29.07.2025 01:35
  #28633774
  За 7-8к можно боксы на N150 Урвать, тоже веселая железка.

rPman
29.07.2025 01:35
#28631266
я не понял, зачем оставлять raspberry pi если мощную x86 машину придется завести? разделять слишком умный функционал от базового? Какую именно работу хотите поручить малинке если сервер выключится?

p.s. настоятельно рекомендую посмотреть на скорость получения результата голос -> whisper -> llm -> tts -> ответ и при использовании локальных моделей она вам НЕ понравится!

Если же собираетесь использовать зарубежных провайдеров (типа openai/anthropic/google/xai/alibaba/deepseek..) то настоятельно рекомендую посмотреть у них realtime api (как минимум у гугла и openai они есть) с мультимодальными голосовыми моделями (или гугл), работающими как с текстом так и с голосом в одном контекстном окне, скорость их реакции максимально приближена к естественному человеческому.

p.p.s. точно знаю у meta и майкрософта (phi 4) были мультимодальные модели для работы с голосом в реальном времени, но не попадался красивый готовый пример для локального запуска, ну и гугл недавно пиарился со своей мультимодальной моделью для смартфонов в открытом доступе, может там тоже голос есть.
1. empenoso Автор
  29.07.2025 01:35
  #28631272
  Спасибо
1. SabMakc
  29.07.2025 01:35
  #28632196
  У phi 4 с русским языком "очень не очень".
  Гугл пиарился с gemma-3n, но она только текст и картинки принимает, если не ошибаюсь.
  Llama - их множество, дотренированных различным образом, но не пробовал. В целом об их моделях молва идет как о не очень качественных (не знаю, на сколько это соотносится с реальностью).
  
  Я бы посмотрел на Voxtral от mistralai.
  В целом, те модели от mistralai, что пробовал, русский понимают, пускай и не лучшим образом (но именно Voxtral не пробовал).
1. MrLizard
  29.07.2025 01:35
  #28632590
  К сожалению мультимодальность gemma (google) ограничена только LLM и VLM, в качестве tts довольно шустро (и не нагруженно) работают silero, piper(на Rpi запускается без проблем, звучит кстати тоже неплохо) coqui tts(но постоянно пытается произнести точки aka "поинт\поинти\пынта") terra tts (если добавить RUAccent вообще звучит замечательно) А вот что касаемо STT пока подробно вопрос не изучал к сожалению

maniak26
29.07.2025 01:35
#28631360
Добрый день!

Пытался внедрить голосовое управление по схеме m5 atom - whisper - ha (вм на synology хранилке)

Настроил на активацию голосом (okay Jarvis Или okay naboo). Впечатление - с заметным лагом в 70% случаев срабатывает. Но пришлось рефачить конфиг - обзывать все устройства в соответствии с best practices. С пары метров ловит более менее прилично, если находится в прямой видимости.

Далее подключал llm (небольшие gemma и Llama), запущенную на пк. Стало чуть веселее, уже не строгое "включить свет кухня", а "сделай светло на кухне". Но иногда ошибается и включает свет не там).

Пока остановил эксперименты - для полностью локального и постоянного решения нужен какой-то не сильно шумный и дорогой девайс под llm и ускорение whisper.
1. empenoso Автор
  29.07.2025 01:35
  #28631380
  Спасибо
1. rPman
  29.07.2025 01:35
  #28632454
  с каким системным промптом у вас gemma ошибалась?
  1. maniak26
    29.07.2025 01:35
    #28637794
    с дефолтным - под капотом home assiatant генерит промпт для instruct моделей с описанием всех элементов дома и как с ними взаимодействовать можно

XTBZ
29.07.2025 01:35
#28631392
Что лучше для такой системы HomeAssistant на докер контейнерах ручных или HomeAssistant OS?

Еще, не совсем понятно, почему бы не использовать сразу один сервер большой, ведь ресурсы большого сервера в любом случае требуются?
1. empenoso Автор
  29.07.2025 01:35
  #28631432
  Пока не решил для себя как окончательно сделать. Или 2 или 3 вариант рассматриваю
  1. XTBZ
    29.07.2025 01:35
    #28631510
    В плане дороговизны, может быть, можно использовать китайские старые зеоны. У них и ядер много, и в случае необходимости видеокарту добавить можно. Получится дешевый сервер, куда можно поместить что угодно
    
    empenoso Автор
    29.07.2025 01:35
    #28631518
    Место только. У меня есть специальная ниша в стене - поместиться ли такая сборка - надо смотреть
  1. almirus
    29.07.2025 01:35
    #28631870
    на большой машине поставить Proxmox, а там в контейнерах все что нужно.
1. Tirarex
  29.07.2025 01:35
  #28633794
  В докере с плагинами HA сложновато. А с baremetal системой есть шанс сломать конфиг и чинить его с красными глазами.
  
  В идеале поставить Proxmox а в нем завести виртуалку с HomeAssistantOS. В таком случае всегда есть бекапы, легко расширить ресурсы и переехать с одного хоста на другой, итд.
  
  (Скрипты TTEK делают заведение такой виртуалки делом пары минут)
  1. empenoso Автор
    29.07.2025 01:35
    #28634386
    Спасибо
1. Barnaby
  29.07.2025 01:35
  #28634518
  HA очень хочет эксклюзивно работать на своей ос. Так что или отдельный одноплатник или proxmox.

Alexroll11
29.07.2025 01:35
#28631458
Добрый день по распознованию речи я для себя открыл https://huggingface.co/t-tech/T-one вот такую штуку, работает шустро, с русским языком идеально, в реальном времени, на вашей малинке конечно не запуститься нужно 8 гигов малинка но если будете использовать сервер то идеально, у себя накрутил на сервере, и с esp передаёт звук работает быстро. Тк сам сейчас задумываюсь делать альтернативу яндексу то что бы не городить лишнего планирую делать связку, колонки с Алисой остаются, задать активную фразу которая будет через хом ассистент передавать на мой сервер для перевода в речь, на том же сервере стоит ещё одна ллм для обработки запроса и от неё ответ отдавать тоже через хом ассистент на колонки яндекса.
1. empenoso Автор
  29.07.2025 01:35
  #28631464
  Спасибо

xaxexa
29.07.2025 01:35
#28631462
Вот не поверишь у меня точно такие же взгляды на построение умного дома :-) и щас воюю с твоей проблемой, я переехал с тв приставка s912 amlogic (мощнее твоего распберри), на интел nuc 6 там склерон 4 ядра, 8 ram, ssd, hassio просто летать начал, для stt использую vosk, вобще ниодного вопроса ни по разбору речи ни по быстродействию, а вот assist дно он даже на падежах спотыкается... ну и у меня мысли прошить Алису или марусю или ещё кого-то из их семейства на армбиан и накатить туда войс сателлит есть приложение от home assistant
1. empenoso Автор
  29.07.2025 01:35
  #28631466
  Спасибо

lolo333
29.07.2025 01:35
#28631472
для малины есть плата расширения для работы с ии. Может быть ее для обработки голоса хватит. https://www.raspberrypi.com/products/ai-kit/

j_aleks
29.07.2025 01:35
#28631524
А у вас HASS отчужден от инета, не обновляется... Хотя эти обновления немало крови попили... иной раз всю ифраструктуру перепахивать приходилось...
1. empenoso Автор
  29.07.2025 01:35
  #28631620
  Не отчужден. Обновляется. Да, потом что-нибудь слетает.

Steelycrack
29.07.2025 01:35
#28631534
чет какой-то зоопарк получается вместо одного сервера с гипервизором.

yavasilek
29.07.2025 01:35
#28631616
Попробуй вместо whisper использовать vosk. Он побыстрее работает
1. AlexZino
  29.07.2025 01:35
  #28639390
  Подскажите на голом Андроид можно запустить распознавание речи, используя vosk. Мне нужно на ноловном устройстве авто реализовать голосового ассистента.
  1. rPman
    29.07.2025 01:35
    #28639624
    с google apps идет поддержка распознования и синтеза, штатный SpeechRecognizer его умеет вызывать, по уму должно работать и оффлайн
    
    AlexZino
    29.07.2025 01:35
    #28644162
    У меня голый, кастрированный китайцами Андроид 9. Туда не поставить гугл сервисы и апп
    
    rPman
    29.07.2025 01:35
    #28644168
    и это не работает?

ncix
29.07.2025 01:35
#28631790
Это все конечно занимательные развлечения, но сколько вы рассчитываете жить без интернета? За день-два любые аварии провайдера устраняются. День-два вы же проживете без Алисы?

Тот же и ещё куча других вопросов решается резервным каналом (он же у вас есть?).

А если больше пары дней без инета, тут наверное лучше тушёнки и свечей закупить, чем ещё горсть железа.
1. empenoso Автор
  29.07.2025 01:35
  #28631822
  Тут как бы основной посыл статьи немного другой - в самом начале обозначено то что меня напугало.
  1. earth_power
    29.07.2025 01:35
    #28632064
    А почему не перейти на зарубежное решение, гугл, эпл или амазон колонку? И разве нет готовых оффлайн решений? Как то очень муторно и дорого отказываться от колонки за 2500р
    
    empenoso Автор
    29.07.2025 01:35
    #28632206
    Сейчас таких цен на Алисы нет
1. DaemonGloom
  29.07.2025 01:35
  #28632108
  Добро пожаловать в современный мир. Пара дней без инета - это теперь нормально.
  1. empenoso Автор
    29.07.2025 01:35
    #28632216
    В Перми на самом деле перебоев вроде не было
1. Ruwster
  29.07.2025 01:35
  #28632444
  Управление домашними устройствами , по-моему, должно работать офлайн.
  
  У меня на даче интернет, в текущей ситуации, отсутствует, алиса в ауте, все устройства тоже. Резервный канал невозможен. Да и в принципе, на кой команды гонять через какие-то облака, чтобы включить свет в ванной или выключить кондиционер.
  1. ncix
    29.07.2025 01:35
    #28632488
    На случай отсутствия голосового помощника наверное есть пульты, приложения, панели с кнопками.
    Мне сложно судить насколько это неудобно привыкшим к голосовому управлению людям, мне наоборот, куда проще молча найти пульт/приложение и ткунть пару кнопок, чем открывать рот и говорить.
    
    JBFW
    29.07.2025 01:35
    #28634936
    А еще можно во всяких удобных местах приколотить на стену гвоздями планшеты 6-10" с уже открытым интерфейсом, хотя бы к тому же HA.
    
    Плюсы в том, что можно мимоходом посмотреть обстановку и что-то включить-выключить (не заморачиваясь "где этот телефон?!", не ожидая пока что-то там запустится).
    При этом можно и с телефона, если лень подниматься с дивана.
    
    Голосовое? Ну, это очень на любителя, либо одинокого, всеми покинутого, кому и поговорить не с кем...
    
    empenoso Автор
    29.07.2025 01:35
    #28634992
    Лёжа на диване очень удобно сказать закрой шторы если например отсвечивает на телеке
    
    xSVPx
    29.07.2025 01:35
    #28636378
    Но зачем ?
    
    Если регулярно отсвечивает на телеке шторы должны закрываться сами...
  1. empenoso Автор
    29.07.2025 01:35
    #28632510
    HA полностью локален
1. Tirarex
  29.07.2025 01:35
  #28633848
  Тут даже не вопрос интернета а вопрос алисы дома. Бесполезная + дорогая коробка + требует подписку, с очень кривым домом (удя) который интегрируется со скрипом, с обновлениями становится тупее.
  
  За цену одной яндекс станции про ( в районе 20к) можно взять мини пк на N150 или свежем райзене, пару малин с шилдами для микрофона и динамика, и пару аудио систем 2,0 для лучшего звука, и сделать заметно более гибкий умный дом который не требует подписок и не дружит с товарищем майором.
  1. teodorso
    29.07.2025 01:35
    #28636556
    мини 2 - 5к новая, и любые колонки к ней. для управления умным домом подписка не нужна, как и для чего угодно кроме музыки

chercheur
29.07.2025 01:35
#28631816
Пробовал M5 Stack Atom Echo - слабоват микрофон и дохлый динамик

Купил на пробу "официальный" Home Assistant Voice Preview Edition - совсем другое дело, микрофоны получше и ответы слышно :)

janvarev
29.07.2025 01:35
#28632186
Если нужно - есть русский опенсорс голосовой помощник Ирина с полным оффлайном: https://habr.com/ru/articles/595855/, https://github.com/janvarev/Irene-Voice-Assistant

На Гитхабе 900+ звезд, расширяется плагином, есть плагин интеграции с HA. Распознавание голоса делается на лету легким VOSK, довольно качественно. Запускали даже на Raspberry, правда, там надо немного долбаться с докером; я предпочитаю запускать на старом компьютере.

Обработка команд - либо по соотвествию слов (быстро, дешево), либо можно прокинуть до LLM локальной или облачной (тогда вызывается один из tools).
1. empenoso Автор
  29.07.2025 01:35
  #28632220
  Спасибо
1. janvarev
  29.07.2025 01:35
  #28633784
  Накатал статью на Хабр про последний апдейт Ирины: https://habr.com/ru/articles/932072/
  1. DashBerlin
    29.07.2025 01:35
    #28635040
    как раз в тему, статья появилась в ленте, спасибо!

positroid
29.07.2025 01:35
#28632260
Задарили недавно Home Assistant Voice Preview Edition, детально погонять не успел, но:
1. Для облака нужен VPN, локально на raspberry pi 4 без танцев с бубнами распознавание не завелось
2. Русский язык заявлен только в облаке
3. Можно кастомизировать вплоть до перепрошивки устройства
4. Assist в сравнении с алисой это такое ... своеобразие. Выше уже писали best practices по именованию объектов, но даже банальное "Включи весь свет" или указание комнаты у меня не завелось. Управление работает только если точно назвать объект в hass (и если whisper его правильно распознает, например "основной свет кабинет" иногда распознается как "основной свет в кабинете" и выдает ошибку).
5. Банально поболтать тоже не выходит, ни спросить погоду, ни все остальное - "сообщение не распознано". Работает только то, что завязано на Home Assistant.
Глубоко вникнуть во все детали у меня, к сожалению, не вышло, полностью отказываться от Алисы не собираюсь, но поразбираться с новым девайсом, локальными модельками и своей логикой - собираюсь. Благо в качестве основного устройства могу использовать стационарный ПК, т.к. он всегда в сети.
1. Tirarex
  29.07.2025 01:35
  #28633898
  Я тестил с телефона в паре с чатгпт в настройках AI, дом настроен по комнатам с русскими названиями, сами устройства названы как попало.
  
  Русский понимает без проблем, включи весь свет понимает без проблем, включи свет в комнате тоже, но точечные команды понимает с трудом если светильники не названы нормально. То же "включи ночник в зале" оно поймет только если ночник называется ночником а не shellyplus1pm-441793a962b0 (у меня ночником розетка шелли рулит), но это вполне логично.
  
  В целом если посидеть с конфигами один раз, то можно привести это все в рабочее состояние.
  
  С локальным AI все сложнее, у чатгпт сколько денег отдал столько токенов будет, а дома в llama можно любую сеть поднять но нужно много видеопамяти.

SabMakc
29.07.2025 01:35
#28632266
Если есть желание гонять LLM - то лучше сразу на полноценный комп закладываться, с видеокартой и прочими ништяками.

Я бы на мини-системник на базе AMD Ryzen AI MAX+ 395 посмотрел - распаяно 128GB быстрой памяти (что хорошо для LLM), но цена - около 200к, что не так уж и бюджетно (хотя если собирать новый комп с похожими характеристиками, то не сильно дешевле выйдет).

Может для умного дома и избыточно, но мощная локальная LLM пригодится и в повседневной жизни.
1. empenoso Автор
  29.07.2025 01:35
  #28632440
  Я уже завёл.

13werwolf13
29.07.2025 01:35
#28632676
у меня hass вместе с whisper и piper крутятся на безвентиляторном неттопе от китайцев с n100 в качестве процессора. увы этого камушка явно маловато для распознавания речи, в процессе распознавания команды, даже пары слов процессор грузится на 100% на 5-10 секунд хотя в остальное время он простаивает.
1. empenoso Автор
  29.07.2025 01:35
  #28634398
  А как на счёт "человечности" голосов?

Экологичное расставание с Алисой: строим полностью локальный и приватный голосовой ассистент +120

Конфигурация моего умного дома: чем будем управлять

Теоретический минимум: из чего состоит локальный голосовой помощник

Речь в текст: почему именно такой стек?

Как избавиться от голосового помощника Алисы

Вариант 1: простой и дешевый

Вариант 2: «правильная» архитектура с заделом на будущее

Вариант 3: дорого и сложно

Заключение: свобода выбора

Комментарии (89)

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор

empenoso Автор