Психоакустика
Психоаку́стика — научная дисциплина, изучающая психологические и физиологические особенности восприятия звука человеком.
В аспекте сугубо музыкальном, основными задачами психоакустики являются следующие:
- понять, как система слухового восприятия человека расшифровывает тот или иной звуковой образ;
- установить основные соответствия между физическими стимулами и слуховыми ощущениями;
- выявить, какие именно параметры звукового сигнала являются наиболее значимыми для передачи семантической (смысловой) и эстетической (эмоциональной) информации.
Предпосылки
[править | править код]Во многих приложениях акустики и обработки звуковых сигналов необходимо знать, что люди слышат. Звук, который образуют волны давления воздуха, может быть точно измерен современным оборудованием. Однако понять, как эти волны принимаются и отображаются в нашем головном мозге, непросто. Звук — это непрерывный аналоговый сигнал, который (в предположении, что молекулы воздуха бесконечно малы) может теоретически переносить бесконечное количество информации (так как существует бесконечное число колебаний, содержащих информацию об амплитуде и фазе).
Понимание процессов восприятия позволяет учёным и инженерам сосредоточиться на возможностях слуха и не учитывать менее важные возможности других систем. Важно также отметить, что вопрос «что человек слышит» — не только вопрос о физиологических возможностях уха, но во многом также вопрос психологии восприятия.
Пределы восприятия звука
[править | править код]Человек номинально слышит звуки в диапазоне от 16 до 20 000 Гц. Верхний предел как и нижний имеет тенденцию снижаться с возрастом. Большинство взрослых людей не могут слышать звук частотой выше 16 кГц. Ухо само по себе не реагирует на частоты ниже 20 Гц, но они могут ощущаться через органы осязания.
Диапазон громкости воспринимаемых звуков огромен. Но барабанная перепонка в ухе чувствительна только к изменению давления. Уровень давления звука принято измерять в децибелах (дБ). Нижний порог слышимости определён как 0 дБ (20 микропаскаль), а определение верхнего предела слышимости относится скорее к порогу дискомфорта и далее — к нарушению слуха, контузии и т. д. Этот предел зависит от того, как долго по времени мы слушаем звук. Ухо способно переносить кратковременное повышение громкости до 120 дБ без последствий, но долговременное восприятие звуков громкостью более 80 дБ может вызвать потерю слуха.[1]
Более тщательные исследования нижней границы слуха показали, что минимальный порог, при котором звук остаётся слышен, зависит от частоты. График этой зависимости получил название абсолютный порог слышимости. В среднем, он имеет участок наибольшей чувствительности в диапазоне от 1 кГц до 5 кГц, хотя с возрастом чувствительность понижается в диапазоне выше 2 кГц.
Кривая абсолютного порога слышимости является частным случаем более общих — кривых одинаковой громкости, изофонов: значения звукового давления на разных частотах, при котором человек ощущает звуки одинаково громкими. Кривые были впервые получены Флетчером и Мансоном (H. Fletcher and W. A. Munson) и опубликованы в 1933 году в труде «Loudness, its definition, measurement and calculation»[2]. Позже более точные измерения выполнили Робинсон и Датсон (D. W. Robinson and R. S. Dadson)[3]. Полученные кривые значительно различаются, но это не ошибка, а разные условия проведения измерений. Флетчер и Мансон в качестве источника звуковых волн использовали наушники, а Робинсон и Датсон — фронтально расположенный динамик в безэховой комнате.
Измерения Робинсона и Датсона легли в основу стандарта ISO 226 в 1986 г. В 2003 году стандарт ISO 226 был обновлён с учётом данных, полученных в результате измерений при проведении 12 новых международных исследований.
Существует также способ восприятия звука без участия барабанной перепонки — так называемый микроволновый слуховой эффект, когда импульсное или модулированное излучение в микроволновом диапазоне воздействует на ткани вокруг улитки, заставляя человека воспринимать различные звуки.[4]
Эффект маскировки
[править | править код]В определённых случаях один звук может быть скрыт другим звуком. Например, разговор рядом с железнодорожными путями может быть совершенно невозможен, если мимо проезжает поезд. Этот эффект называется маскировкой. Говорят, что слабый звук маскируется, если он становится неразличимым в присутствии более громкого звука.
Различают несколько видов маскировки:
- По времени прихода маскирующего и маскируемого звука:
- одновре́менное (моноуральное) маскирование
- вре́менное (неодновременное) маскирование
- По типу маскирующего и маскируемого звуков:
- чистого тона чистым тоном различной частоты
- чистого тона шумом
- речи чистыми тонами
- речи монотонным шумом
- речи импульсными звуками и т. п.
Одновременная маскировка
[править | править код]Любые два звука при одновременном прослушивании оказывают влияние на восприятие относительной громкости между ними. Более громкий звук снижает восприятие более слабого, вплоть до исчезновения его слышимости. Чем ближе частота маскируемого звука к частоте маскирующего, тем сильнее он будет скрываться. Эффект маскировки не одинаков при смещении маскируемого звука ниже или выше по частоте относительно маскирующего.
Для математического описания границ влияния тона на соседние частоты в литературе[5] используется понятие функции распространения (spreading function), с помощью которой задается порог маскирования[англ.][6]:
где - это расстояние между двумя критическими диапазонами по шкале Барков.
На основе функции распространения может быть вычислено маскирование критического диапазона i критическим диапазоном j[7][8]:
где - это мощность сигнала в i-том критическом диапазоне.
Чтобы определить степень маскирования в ситуации, когда маскирующих тонов много, используют понятие глобального порога маскирования[англ.]:
где - это смещение между уровнем сигнала и порогом маскирования[9], - это индекс тональности, показывающий степень периодичности аудио сигнала (для шумоподобных сигналов [10]), - индекс маскирования[11], а - это частота в килогерцах. Индекс маскирования часто заменяется константой равной 5.5 дБ[7][8].
Данные об одновременной маскировке используются, например, при сжатии аудиофайлов на этапе квантования[12].
Низкочастотный звук маскирует высокочастотные. При этом важно отметить, что высокочастотные звуки не могут маскировать низкочастотные.[источник не указан 1803 дня]
Вре́менная маскировка
[править | править код]Это явление похоже на частотную маскировку, но здесь происходит маскировка во времени. При прекращении подачи маскирующего звука маскируемый некоторое время продолжает быть неслышимым. Время маскировки зависит от частоты и амплитуды сигнала и может достигать 100 мс. В обычных условиях эффект от временной маскировки длится значительно меньше.
В случае, когда маскирующий тон появляется по времени позже маскируемого, эффект называют пост-маскировкой. Когда маскирующий тон появляется раньше маскируемого (возможен и такой случай), эффект называют пре-маскировкой.
Постстимульное утомление
[править | править код]Нередко после воздействия громких звуков высокой интенсивности у человека резко снижается слуховая чувствительность. Восстановление обычных порогов может продолжаться до 16 часов. Этот процесс называется «временный сдвиг порога слуховой чувствительности» или «постстимульное утомление». Сдвиг порога начинает появляться при уровне звукового давления выше 75 дБ и соответственно увеличивается при повышении уровня сигнала. Причём наибольшее влияние на сдвиг порога чувствительности оказывают высокочастотные составляющие сигнала.
Фантомы
[править | править код]См. статью Missing fundamental (англ.)
Иногда человек может слышать звуки в низкочастотной области, хотя в реальности звуков такой частоты не было. Так происходит из-за того, что колебания базилярной мембраны в ушной улитке не являются линейными, и в ней могут возникать колебания с разностной частотой между двумя более высокочастотными.
Этот эффект используется в некоторых коммерческих звуковых системах, чтобы расширить область воспроизводимых низких частот, если невозможно адекватно воспроизвести такие частоты напрямую, например, в наушниках, мобильных телефонах, малобюджетных динамиках (акустических системах) и т.п.
Психоакустика в программном обеспечении
[править | править код]Психоакустические модели слуха позволяют с высоким качеством производить компрессию сигнала с потерей информации (когда восстановленный сигнал не совпадает с исходным), за счет того, что позволяют точно описать, что можно безопасно удалить из исходного сигнала — то есть без значительного ухудшения качества звука. На первый взгляд может показаться, что вряд ли это позволит обеспечить сильное сжатие сигнала, однако программы, использующие психоакустические модели, позволяют добиться уменьшения объёмов файлов с музыкой в 10—12 раз[неопределённость], и при этом разница в качестве будет не очень значительна.
К таким видам компрессии относятся все современные форматы сжатия звука с потерями:
- MP3 — практически то же самое что и Musicam, который используется для цифрового аудиовещания в некоторых странах, и считающийся более профессиональным алгоритмом сжатия (также известен как MPEG-1 Layer 3).
- Ogg Vorbis
- WMA
- AAC
- Musepack
- ATRAC — используется в формате MiniDisc и в некоторых портативных MP3-плеерах Sony
См. также
[править | править код]Примечания
[править | править код]- ↑ Изменения от интенсивного производственного шума - Профессиональные заболевания органа слуха, связанные с воздействием интенсивного производственного шума - Врачебно-трудовая … Дата обращения: 4 февраля 2013. Архивировано 11 февраля 2013 года.
- ↑ Fletcher H., Munson W. A. Loudness, its definition, measurement and calculation // J.Acoust. Soc Am.5, 82-108 (1933)
- ↑ Robinson D. W., Dadson R. S. A re-determination of the equal-loudness relations for pure tones // Br. J. Appl. Phys. 7, 166—181, 1956)
- ↑ Тигранян Р. Э., Шорохов В. В. Физические основы слухового эффекта СВЧ / Ответственный редактор — д-р физ.-мат наук проф. Л. П. Каюшин. — Пущино: ОНТИ Пущинского научного центра АН СССР, 1990. — 131 с. — 370 экз.
- ↑ Zölzer U. Digital audio signal processing. – New York: Wiley, 2008. – Т. 9. - C. 280-284
- ↑ M. R. Schroeder, B. S. Atal, J. L. Hall: Optimizing Digital Speech Coders by ExploitingMasking Properties of the Human Ear, J. Acoust. Soc. Am., Vol. 66, No. 6, pp. 1647–1652, December 1979.
- ↑ 1 2 J. D. Johnston: Transform Coding of Audio Signals Using Perceptual Noise Criteria, IEEE J. Selected Areas in Communications, Vol. 6, No. 2, pp. 314–323, February 1988.
- ↑ 1 2 J. D. Johnston: Estimation of Perceptual Entropy Using Noise Masking Criteria, Proc. ICASSP-88, pp. 2524–2527, 1988.
- ↑ R. P. Hellman: Asymmetry in Masking between Noise and Tone, Perception and Psychophys., Vol. 11, pp. 241–246, 1972.
- ↑ "Psychoacoustics Models" (ТУ Ильменау) Архивная копия от 11 декабря 2019 на Wayback Machine - слайд 7.
- ↑ R. Kapust: A Human Ear Related Objective Measurement Technique Yields Audible Error and Error Margin, Proc. 11th Int. AES Conference – Test & Measurement, Portland, pp. 191–202, 1992.
- ↑ "Audio Coding Quantization and Coding Methods" (ТУ Ильменау) . Дата обращения: 12 декабря 2019. Архивировано 12 декабря 2019 года.
Литература
[править | править код]- Гельмгольц Г. Учение о слуховых ощущениях как физиологическая основа для теории музыки. Пер. с нем. СПб., 1875.
- Алдошина И. Основы психоакустики. Оборонгиз., Москва, 2000.
- Штумпф К., Tonpsychologie, 1883, Bd. 1, 1890, Bd. 2 («Психология музыкального восприятия»).
- Meyer M. F., Contributions to a psychological theory of music (1901).
- Мейер М., The Musician’s Arithmetic (1929).
- Мейер М., How we hear: How tones make music (1950).
- Roederer J.G. Introduction to the physics and psychoacoustics of music. N.Y.: Springer, 1975
- Howard D., Angus J. Acoustics and psychoacoustics. Oxford: Focal Press, 2001.