Что и как мы слышим

Все процессы записи, обработки и воспроизведения звука так или иначе работают на один орган, которым мы воспринимаем звуки - ухо. Две штуки :). Без понимания того, что мы слышим, что нам важно, а что нет, в чем причина тех или иных музыкальных закономерностей - без этих и других мелочей невозможно спроектировать хорошую аудио аппаратуру, нельзя эффективно сжать или обработать звук. То, что здесь описано - лишь самые основы. Да всего описать и нельзя - процесс звуковосприятия еще далеко не до конца изучен. Эти основы, однако, могут показаться интересными даже тем, кто знает, что такое децибел - мы всё же пойдем немного дальше того, что описано в справках к программам обработки звука...

Немного анатомии (устройство уха - коротко и ясно):

   Снаружи мы видим так называемое внешнее ухо. Ничего особенного нас тут не интересует. Затем идет канал - примерно 0.5 см в диаметре и около 3 см в длину. Далее - барабанная перепонка, к которой присоединены кости - среднее ухо. Эти косточки передают вибрацию барабанной перепонки далее - на другую перепонку, во внутреннее ухо - трубку с жидкостью, около 0.2 мм диаметром и еще целых 3-4 см длинной, закрученная как улитка. Смысл наличия среднего уха в том, что колебания воздуха слишком слабы, чтобы напрямую колебать жидкость, и среднее ухо вместе с барабанной перепонкой и перепонкой внутреннего уха составляют гидравлический усилитель - площадь барабанной перепонки во много раз больше перепонки внутреннего уха, поэтому давление (которое равно F/S) усиливается в десятки раз.
   Во внутреннем ухе по всей его длине натянута некая штука, напоминающая струну - еще одна вытянутая мембрана, жесткая к началу уха и мягкая к концу. Определенный участок этой мембраны колеблется в своём диапазоне, низкие частоты - в мягком участке ближе к концу, самые высокие - в самом начале. Вдоль этой мембраны расположены нервы, которые воспринимают колебания и передают их в мозг, используя два принципа:
   Первый - ударный принцип. Поскольку нервы еще способны передавать колебания (бинарные импульсы) с частотой до 400-450 Гц, именно этот принцип влоб используется в области низкочастотного слуха. Там сложно иначе - колебания мембраны слишком сильны и затрагивают слишком много нервов. Ударный принцип немного расширяется до примерно 4 кГц с помощью трюка - несколько (до десяти) нервов ударяют в разных фазах, складывая свою пропускную способность. Этот способ хорош тем, что мозг воспринимает информацию более полно - с одной стороны, мы всё таки имеем легкое частотное разделение, а с другой - можем еще смотреть сами колебания, их форму и особенности, а не просто частотный спектр. Этот принцип продлен на самую важную для нас часть - спектр человеческого голоса. Да и вообще, до 4 кГц находится вся наиболее важная для нас информация.
   Ну и второй принцип - просто местоположение возбуждаемого нерва, применяется для звуков более 4 кГц. Тут уже кроме факта нас вообще ничего не волнует - ни фаза, ни скважность.. Голый спектр.
   Таким образом, в области высоких частот мы имеем чисто спектральный слух не очень высокого разрешения, а для частот близких к человеческому голосу - более полный, основанный не только на разделении спектра, а еще и на дополнительном анализе информации самим мозгом, давая более полную стерео - картину, например. Об этом - ниже.

Основное восприятие звука происходит в диапазоне 1 - 4 кГц, в этом же диапазоне заключено человеческий голос (да и звуки, издаваемые большинством важных нам процессов в природе). Корректная передача этого частотного отрезка - первое условие естественности звучания.

О чувствительности (по мощности и частотной):

     Теперь о децибелах. Я не буду с нуля объяснять, что это такое, вкратце - аддитивная относительная логарифмическая мера громкости (мощности) звука, наиболее хорошо отражающая человеческое восприятие громкости, и в то же время достаточно просто вычисляемая.
   В акустике принято измерять громкость в дБ SPL (Sound Power Level - не знаю как это звучит у нас). Ноль этой шкалы находится примерно на минимальном звуке, который слышит человек. Соответственно отсчет ведется в положительную сторону. Человек может осмысленно слышать звуки громкостью примерно до 120 дБ SPL. При 140 дБ ощущается сильная боль, при 150 дБ наступает повреждение ушей. Нормальный разговор - примерно 60 - 70 дБ SPL. Далее в этом разделе при упоминании дБ подразумевается дБ от нуля по SPL.
   Чувствительность уха к разным частотам очень сильно различна. Максимальна чувствительность в районе 1 - 4 кГц, основные тона человеческого голоса. Звук 3 кГц - это и есть тот звук, который слышен при 0 дБ. Чувствительность сильно падает в обе стороны - например для звука в 100 Гц нам нужно уже целых 40 дБ (в 100 раз большая амплитуда колебаний), для 10 кГц - 20 дБ. Обычно мы можем сказать, что два звука отличаются по громкости, при разнице примерно в 1 дБ. Несмотря на это, 1 дБ - это скорее много, чем мало. Просто у нас очень сильно компрессированное, выровненное восприятие громкости. Зато весь диапазон - 120 дБ - воистину огромен, по амплитуде это миллионы раз!

Кстати, увеличение амплитуды в два раза соответствует увеличению громкости на 6 дБ. Внимание! не путайте: 12 дБ - в 4 раза, но разница 18 дБ - уже 8 раз! а не 6, как могло подуматься. дБ - логарифмическая мера)

Аналогична по свойствам и спектральная чувствительность. Мы можем сказать, что два звука (простых тона) отличаются по частоте, если разница между ними составляет около 0.3% в районе 3 кГц, а в районе 100 Гц требуется различие уже на 4%! Для справки - частоты нот (если брать вместе с полутонами, то есть две соседние клавиши фортепьяно, включая черные) отличаются на примерно 6%.
В общем, в районе 1 - 4 кГц чувствительность уха по всем параметрам максимальна, и составляет не так уж и много, если брать не логарифмированные значения, с которыми приходится работать цифровой технике. Примите на заметку - многое из того, что происходит в цифровой обработке звука, может выглядеть ужасно в цифрах, и при этом звучать неотличимо от оригинала.

В цифровой обработке понятие дБ считается от нуля и вниз, в область отрицательных значений. Ноль - максимальный уровень, представимый цифровой схемой.

О фазовой чувствительности:

Если говорить об ухе в целом - природа создала их такими, какими создала, руководствуясь прежде всего соображениями целесообразности. Фаза частот нам не важна абсолютно, так как совершенно не несет полезной информации. Фазовое соотношение отдельных частот кардинально меняется от перемещений головы, окружающей обстановки, эха, резонансов - да чего угодно. Эта информация никак не используется мозгом, и поэтому мы не восприимчивы к фазам частот. Надо, однако, отличать изменения фазы в малых пределах (до нескольких сот градусов) от серьезных фазовых искажений, которые могут изменить временные параметры сигналов, когда речь уже идет не о изменениях фаз, а скорее о частотных задержках - когда фазы отдельных компонент настолько варьируются, что сигнал распадается во времени, изменяет свою длительность. Ну, например, если мы слышим только отраженный звук, эхо с другого конца в огромном зале - в некотором роде это лишь вариация фаз сигналов, но настолько сильная, что вполне воспринимается по косвенным (временным) признакам. И вообще это уже глупо называть это изменениями фаз - грамотнее так и называть это задержками.
В общем, к незначительным вариациям фаз (хотя как сказать - незначительным.. в общем, до противофазы :) наше ухо абсолютно не чувствительно. Но всё это касается лишь одинаковых фазовых изменений в обоих каналах! Несимметричные фазовые сдвиги очень важны, об этом - ниже.

Об объемном восприятии:

   Человек может воспринимать пространственное положение источника звука. Кстати, слово 'стерео' на языке оригинала, к сожалению не помню на каком, означает что-то вроде 'полный'. Есть два принципа стерео - восприятия, которые соответствуют двум принципам передачи звуковой информации из уха в мозг (об этом см. выше).
   Первый принцип - для частот ниже 1 кГц, которых слабо волнуют препятствия в виде человеческой головы - они просто огибают её. Эти частоты воспринимаются ударным способом, передавая в мозг информацию об отдельных звуковых импульсах. Временное разрешение передачи нервных импульсов позволяет использовать эту информацию для определения направления звука - если звук в одно ухо приходит раньше другого (разница порядка десятков микросекунд), мы можем засечь его расположение в пространстве - ведь запаздывание происходит из-за того, что звуку пришлось пройти еще дополнительно расстояние до второго уха, затратив на это какое-то время. Этот фазовый сдвиг звука одного уха относительно другого и воспринимается как информация, позиционирующая звуки.
   И второй принцип - используется для всех частот, но в основном - для тех, что выше 2 кГц, которые отлично затеняются головой и ушной раковиной - просто определение разницы в громкости между двумя ушами.
   Еще один важный момент, который позволяет нам гораздо более точно определять местоположение звука - возможность повернуть голову и посмотреть на изменение параметров звучания. Достаточно буквально нескольких градусов свободы, и мы можем определить звук почти точно. Принято считать, что направление с легкостью определяется с точностью до одного градуса. Этот прием пространственного восприятия - то, что почти не дает сделать реалистичный объемный звук в играх - по крайней мере до тех пор, пока наша голова не будет облеплена поворотными датчиками.. Ведь звук в играх, даже с современными 3д картами, не зависит от поворота нашей реальной головы, поэтому полная картина почти никогда не складывается и сложиться, к сожалению, не может.
   Таким образом, для стерео - восприятия во всех частотах важна громкость правого и левого канала, а в частотах где это возможно, до 1 - 2 кГц, дополнительно оцениваются и относительные фазовые сдвиги. Дополнительная информация - подсознательный поворот головы и мгновенная оценка результатов.
   Фазовая информация в районе 1 - 4 кГц имеет приоритет над разницей в громкости, хотя определенная разница уровней перекрывает фазовую разницу, и наоборот. Не совсем соответствующие или прямо противоречивые данные (например - правый канал громче левого, однако запаздывает) дополняет наше восприятие окружения - ведь эти несоответствия рождаются из окружающих нас отражающих/поглощающих поверхностей. Таким образом, в очень ограниченном объеме воспринимается характер помещения, в котором находится человек. Этому также помогают общие для обоих ушей фазовые вариации огромного уровня - задержки, эхо и реверберация.

О нотах и октавах. Гармоники:

   Слово 'гармоника', в общем то, означает гармоническое колебание, или проще - синусоиду, простой тон. В аудио - технике, однако, находит применение термины - пронумерованные гармоники. Дело в том, что множество физических, акустических или просто простейших математических процессов дают дополнение какой-то определенной частоты частотами, ей кратными. Простой (основной) тон 100 Гц сопровождают гармоники 200, 300, 400 и так далее Гц. Звук скрипки, например - это почти одни сплошные гармоники, основной тон имеет лишь немного большую мощность чем его гармонические дополнения. Вообще говоря, характер звучания музыкального инструмента зависит от наличия и мощностей его гармоник, тогда как основной тон определяет ноту.
   Вспоминаем дальше. Октава в музыке - интервал изменения частоты основного тона в два раза. Нота ля первой октавы, к примеру, имеет частоту примерно - 27.5 Гц, второй - 55 Гц. Состав гармоник этих двух разных звуков имеет много общего - в том числе это 110 Гц (ля третей октавы), 220 Гц (четвертой), 440 Гц (пятой) - и так далее. В этом основная причина того, что одинаковые ноты разных октав звучат в унисон - складывается влияние одинаковых высших гармоник. Дело в том, что гармоники нам обеспечены всегда - даже если музыкальный инструмент воспроизводит только один основной тон, высшие гармоники появятся уже в ухе, в процессе спектрального восприятия звука. Нота самой нижней октавы почти всегда включает в себя в качестве гармоник те же ноты всех вышестоящих октав.
   Наше звуковосприятия почему-то устроено так, что нам приятны гармоники, и неприятны частоты, которые выбиваются из этой схемы - два звука, 1 кГц и 4 кГц, вместе будут звучать приятно - ведь это суть одна нота через две октавы, пусть и не калиброванного по стандартной шкале инструмента :-). Как я уже говорил - это то, что часто встречается в природе как следствие естественных физических процессов. А вот зато если взять два тона 1 кГц и 3.1 кГц - будет звучать раздражающе.
   Вот мы и пришли к тому, что такое аккорд (трезвучие). Музыканты знают, что есть комбинации нот, которые вместе звучат приятно, воспринимаются как один звук. Это как раз и есть те три (обычно) ноты, четные гармоники которых не мешают друг другу, не проходят слишком близко друг от друга, чтобы не вызывать неудовлетворенность слушателя, в то же время другие гармоники дополняют друг друга приятным для слуха образом, создавая эффект единичного, стройного тембра. При этом воспринимается только базовый тон аккорда - так называемая тоника, нота, по которой построен аккорд, остальные ноты так или иначе включаются в гармоническое дополнение к ней.

Октава - понятие, полезное не только для музыкантов. Октава в акустике - это изменение частоты звука в два раза. Мы уверенно слышим примерно полных 10 октав, это на две октавы выше, чем последняя октава фортепьяно. Странное дело, но в каждой октаве содержится примерно одинаковое для нас количество информации, хотя последняя октава - это весь район с 10 до 20 кГц. В старости мы практически перестаем слышать эту последнюю октаву, и это дает потерю слуховой информации не в два раза, а всего на 10% - что не так уж и страшно. Для справки - самая высокая нота фортепьяно - около 4 кГц. Тем не менее, спектр звучания этого инструмента далеко выходит за эти 4 кГц за счет гармоник, реально покрывая весь наш звуковой диапазон. Так почти с любым музыкальным инструментом - основные тона почти никогда не выходят за 5 кГц, можно быть совершенно глухим к более высоким тонам, и тем не менее слушать музыку..
Даже если бы и были инструменты с более высокими тонами - слышимый гармонический состав их звучания был бы очень бедным. Сами смотрите - у инструмента в 6 кГц основного тона есть только одна слышимая гармоника - 12 кГц. Этого просто мало для наполненного, приятного звучания, какой тембр мы бы не хотели получить в результате.

Важный параметр всех звуковых схем - гармонические искажения. Почти все физические процессы приводят к их появлению, и в звукопередаче их стараются сделать минимальными, чтобы не изменять тональную окраску звука, и просто не засорять звук лишней, отягощающей информацией. Гармоники, однако, могут давать звуку и приятную окраску - например, ламповый звук - это наличие большого (сравнительно с транзисторной техникой) числа гармоник, дающих звуку в некотором роде приятный, теплый характер, практически не имеющий аналогов в природе.

Надеюсь, эта малость информации показалась вам интересной.