Давайте поговорим о том, как улитка уха вычисляет звук!
Барабанная перепонка приводится в колебания изменениями давления воздуха (звуковыми волнами). Кости среднего уха усиливают и передают эти колебания в заполненную жидкостью спиралеобразную улитку. Колебания перемещаются по жидкости к базилярной мембране, которая выполняет разделение частот1: более жёсткое и лёгкое основание (base на иллюстрации) резонирует с высокочастотными компонентами сигнала, а более гибкая и тяжёлая вершина (apex) резонирует с низкими частотами. Между двумя концами резонирующие частоты логарифмически снижаются в пространстве2.

Волосковые клетки в разных частях базилярной мембраны колеблются вперёд и назад на частоте, соответствующей их расположению на мембране. Но как колебания волосковых клеток преобразуются в электрические сигналы? Этот механико-электрический процесс похож на кадры из фантастического фильма: пружины, соединённые с концами волосковых клеток, открывают и закрывают ионные каналы с частотой колебаний, что затем вызывает выброс нейромедиаторов. Вот визуализация этого процесса:
Очевидно, что «железо» уха отлично подходит для частотного анализа. Нервные волокна работают в качестве фильтров, извлекающих временнýю и частотную информацию о сигнале. Ниже показаны примеры фильтров (не все они относятся к уху) в промежутке времени. Слева показаны более локализованные во времени фильтры; например, если фильтр применяется к сигналу, видно, когда в сигнале возникает соответствующая частота. Справа приведены фильтры с меньшей временнóй специфичностью, более равномерно распределённые по частотам по сравнению с примерами слева.

Разве не было бы удобно, если бы улитка выполняла преобразование Фурье, что отлично соответствовало бы тому, как мы анализируем сигналы? Но, увы, всё обстоит не так! Преобразование Фурье не обладает явной временнóй точностью, оно напоминает что-то похожее на волны справа; а фильтры в улитке выглядят совсем иначе.
На рисунке ниже показаны различные схемы фильтрации или заполнения области времени-частот. В самом левом квадрате, где каждый прямоугольник обозначает фильтр, сигнал можно представить с высоким временным разрешением (как на иллюстрации выше слева), но без информации о составляющих его частотах. На противоположной части спектра расположено преобразование Фурье, выполняющее точное разложение частот, но мы не можем сказать, когда в сигнале встречалась конкретная частота (как на иллюстрации выше справа)3. На самом деле, улитка выполняет что-то между вейвлет-преобразованием и преобразованием Габора. На высоких частотах разрешение частоты снижается ради повышения временного разрешения, а на низких частотах — наоборот.

Почему такой компромисс частотно-временной точности оказывается хорошим описанием сигнала? Теория, исследованная в статье Lewicki 2002, гласит, что эти фильтры — стратегия для снижения избыточности описания звуков природы. Майкл Левицки провёл анализ независимых компонент (independent component analysis, ICA), создав фильтры, максимизирующие статистическую независимость при сравнении звуков окружающей среды, голосов животных и человеческой речи. В каждом из случаев компромиссы выглядят по-разному; их можно приблизительно визуализировать показанными ниже графиками.


Оказалось, человеческая речь занимает отдельное частотно-временное пространство. Некоторые учёные предполагают, что речь эволюционно возникла для заполнения частотно-временного пространства, не занятого другими звуками мира.

Формирование представлений, привязанных к окружающей среде, логично, потому что поведение зависит от неё. Похоже, это происходит и для слуха, и для других видов чувств. Возможно, это может стать основой нового эффективного кодирования, которое мы вскоре реализуем.
Мы рассмотрели некоторые из потрясающих механизмов, находящихся в самом начале процесса кодирования ощущений, но на самом деле, это лишь крошечная верхушка айсберга. Также мы вкратце поговорили о том, как происходят эти вычисления. В следующей статье мы подробнее рассмотрим биофизику вычислений в нейронах.
Это называется тонотопической организацией, то есть отображением частоты на пространство. Такая организация существует в коре мозга и для других чувств, а не только для слуха, например, ретинотопия для зрения и соматотопия для осязания.
Взаимосвязь между человеческим восприятием высоты и частоты звука логарифмическая. Совпадение?
Кто-то может заявить, что нужно сравнивать это с преобразованием Фурье на коротких промежутках времени, однако оно имеет проблемы разрешения, и тоже не похоже на то, что делает улитка.
Комментарии (4)

Furriest
04.11.2025 08:00Некоторые учёные предполагают, что речь эволюционно возникла для заполнения частотно-временного пространства, не занятого другими звуками мира.
Странноватая формулировка. Думаю, что имелось в виду, что речь эволюционно заполнила это частотно-временное пространство потому, что так ее носителям оказалось проще ее выделять на фоне звуков животных и окружающей среды.
Но не "для" заполнения этого пространства.
litos
Ухо не оцифровывает звук, а глаз не пишет видео в LOG формате...
ufopilotes
..а нервный пучок в стыке челюстей вообще можно вырвать при первой головной боли.