Original size 1140x1600

Кросс-модальные ассоциации: связь звука и восприятия

PROTECT STATUS: not protected
This project is a student project at the School of Design or a research project at the School of Design. This project is not commercial and serves educational purposes
The project is taking part in the competition

Рубрикатор

1. Концепция 2. Что такое кросс-модальные ассоциации? 3. Эффект буба-кики 4. Звук и форма 5. Звук и другие модальности  — Яркость  — Размер  — Вес  — Положение в пространстве 6. Заключение 7. Библиография 8. Источники изображений

Концепция

Почему высокие звуки кажутся нам «светлыми» и «маленькими», а низкие — «тёмными» и «массивными»? Почему, услышав резкий, отрывистый звук, мы интуитивно представляем нечто острое, а мягкий, плавный тон ассоциируется с округлыми формами? Эти вопросы лежат в области кросс-модальных ассоциаций — явления, при котором стимул одной сенсорной модальности (например, звук) автоматически вызывает ощущения или образы, относящиеся к другой модальности (форма, цвет, размер).

Тема кросс-модальных ассоциаций важна для саунд-дизайна, поскольку понимание этих связей позволяет осознанно создавать звуковые образы, которые будут интуитивно «читаться» слушателем. Кроме того, это явление показывает, что восприятие звука не ограничивается слуховой системой, а вовлекает комплексные процессы в мозге, связывающие разные каналы восприятия.

Визуальный и текстовый материал для исследования отбирался по принципу наглядности и научной обоснованности. Основу составляют классические эксперименты в области кросс-модальных ассоциаций, в первую очередь эффект буба-кики, описанный Вольфгангом Кёлером и развитый в работах Вилейанура Рамачандрана. Также включены исследования Чарльза Спенса и других учёных, изучающих связь звука с визуальными характеристиками. Иллюстративный материал подбирался таким образом, чтобы визуализировать абстрактные связи между звуком и другими модальностями: это схемы, изображения экспериментальных стимулов, спектрограммы и инфографика.

Исследование построено по принципу движения от общего к частному. Сначала вводится понятие кросс-модальных ассоциаций, затем рассматривается эффект буба-кики как отправная точка. Далее исследуются связи звука с формой, цветом, яркостью, размером. В завершающем разделе анализируются теории, объясняющие механизмы этих ассоциаций. Приоритет отдавался оригинальным научным работам исследователей кросс-модальных ассоциаций, а также обзорным статьям, систематизирующим экспериментальные данные. Важным критерием была воспроизводимость результатов в разных культурах и возрастных группах.

Ключевой вопрос исследования: почему определённые характеристики звука устойчиво ассоциируются с определёнными визуальными и тактильными свойствами объектов?

Гипотеза: кросс-модальные звуковые ассоциации не являются произвольными или исключительно культурно обусловленными. Они основаны на статистических закономерностях окружающей среды (объекты с определёнными физическими свойствами действительно издают характерные звуки) и на особенностях работы нейронных сетей, связывающих различные сенсорные зоны мозга.

Что такое кросс-модальные ассоциации?

Человеческое восприятие традиционно описывают как набор отдельных каналов: зрение, слух, осязание, обоняние, вкус. Однако в реальности эти каналы не работают изолированно — они постоянно взаимодействуют. Кросс-модальные соответствия — это устойчивые, неслучайные ассоциации между стимулами разных сенсорных модальностей, которые разделяет большинство людей.

Original size 1105x768

Основные кросс-модальные соответствия между высотой звука и визуальными характеристиками объектов

Контраст высоты тона (1 кГц и 220 Гц)
1 min

Исследования показывают, что люди систематически связывают высокие звуки с маленькими, яркими объектами, расположенными высоко в пространстве, а низкие звуки — с большими, тёмными объектами внизу. Эти связи возникают автоматически и не требуют осознанного решения.

Почему мозг формирует такие связи? Одна из ведущих теорий — статистическая: мозг усваивает закономерности окружающей среды. В природе маленькие объекты действительно издают более высокие звуки при ударе, а мелкие животные производят более высокочастотные вокализации. Мозг усваивает эти корреляции, формируя ожидания о связи между звуком и визуальными свойствами.

Original size 0x0

Связь размера резонатора и высоты звука: короткие пластины ксилофона дают высокий тон, большой колокол — низкий

Ксилофон и колокол — сравнение тонов
1 min

Другие теории указывают на структурные особенности нервной системы (общие нейронные механизмы для обработки интенсивности в разных модальностях), семантические связи (мы используем слово «высокий» и для звука, и для пространственного положения) и эмоциональное опосредование (стимулы разных модальностей могут вызывать схожие эмоции).

Важно, что кросс-модальные соответствия обнаруживаются у младенцев уже в возрасте 3–4 месяцев, у людей из разных культур и даже у других видов — например, у собак и шимпанзе. Это говорит о том, что данные связи имеют фундаментальный характер и не являются исключительно результатом культурного обучения.

Эффект буба-кики

Самый известный пример кросс-модальных ассоциаций — эффект буба-кики. Его история начинается в 1929 году, когда немецкий психолог Вольфганг Кёлер провёл эксперимент: показывал участникам две абстрактные фигуры — округлую и угловатую — и просил соотнести их с бессмысленными словами «балуба» (позже «малума») и «такете». Подавляющее большинство связывали округлую форму с «малума», а угловатую — с «такете».

Original size 0x0

Примеры звуко-формовых ассоциаций: Буба (мягкая форма), Кики (острая форма)

В 2001 году нейробиолог Вилейанур Рамачандран и его коллега Эдвард Хаббард воспроизвели эксперимент, заменив слова на «буба» и «кики». Они тестировали американских студентов и носителей тамильского языка в Индии. Результат оказался поразительно устойчивым: 95–98% участников в обеих группах назвали округлую фигуру «буба», а угловатую — «кики».

Эффект подтверждается и у детей. Исследования показали, что дети в возрасте 2,5 лет демонстрируют те же предпочтения, что и взрослые. Более того, эксперименты с младенцами 4 месяцев выявили, что они дольше смотрят на «несовпадающие» пары (например, округлая форма + «кики»), что говорит о врождённой чувствительности к этим соответствиям.

Original size 1914x1126

Фотографии Вольфганга Кёлера (слева) и Вилейанура Рамачандрана (справа)

В 2022 году масштабное исследование проверило эффект на 917 участниках, говорящих на 25 языках с 10 разными системами письма. Результат: связь «буба» — округлое и «кики» — острое сохраняется в большинстве языков, хотя в некоторых (китайский, румынский, турецкий) эффект слабее.

Произношение слов "буба" и "кики"
1 min

Почему это работает?

— Акустическое: звуки «к» и «и» содержат резкие, высокочастотные компоненты, а «б» и «у» — более низкочастотные и плавные. Это соответствует визуальным характеристикам острых и округлых форм. — Артикуляционное: когда мы произносим «буба», губы округляются; при произнесении «кики» рот принимает более узкую, «острую» форму. — Статистическое: в реальном мире острые объекты часто издают резкие, высокие звуки (треск, звон), а округлые — более мягкие и низкие.

Звук и форма

Почему звук разбивающегося стекла кажется «острым», а гудение контрабаса — «округлым»? Мы используем эти слова интуитивно, но за ними стоят вполне конкретные акустические параметры, которые мозг автоматически переводит в визуальные образы.

Original size 1344x768

Сравнение типов звука по нескольким основным параметрам: высота, атака, тембр, ритмический рисунок

Первый и самый очевидный параметр — высота тона. Высокие звуки ассоциируются с острыми формами, низкие — с округлыми. Писк комара будто рисует тонкую резкую линию, а гул проезжающего грузовика — что-то массивное и обтекаемое. Эта связь настолько фундаментальна, что работает даже с простыми синусоидальными тонами, лишёнными тембра и обертонов: высокий тон «выглядит» угловатым, низкий — плавным.

Не менее важно то, как звук начинается — его атака. Резкое начало ассоциируется с острой формой, плавное — с округлой. Щелчок пальцев, хлопок двери, удар по клавише — все эти звуки врываются мгновенно, и мозг воспринимает их как нечто угловатое. А вот виолончель, вступающая на пианиссимо, или нарастающий звук органа в церкви — это мягкое, постепенное появление, которое ощущается округлым.

Щелчок — резкая атака
1 min
Синт-пад — плавная атака
1 min

Третий параметр — тембр, то есть спектральный состав звука. В психоакустике существует такое понятие как острота: оно описывает, насколько много высокочастотных обертонов содержит звук. Тарелки в барабанной установке, скрежет металла, звон разбитого стекла — это яркие, насыщенные верхними частотами тембры, которые воспринимаются как «острые». Флейта в нижнем регистре, гул ветра в трубе, мурлыканье кота — тёмные тембры с преобладанием низких частот, которые звучат «округло».

Спектрограммы щелчка (слева) и синт-пада (справа)

Наконец, играет роль ритмический рисунок. Отрывистые звуки (стаккато) — капли дождя по жестяной крыше, стук каблуков по плитке — связываются с угловатыми формами. Протяжные, перетекающие друг в друга звуки — пение кита, тянущийся аккорд струнных — с плавными и округлыми.

Пример стаккато (синт)
1 min
Пример легато (синт)
1 min

Все эти параметры работают в связке. Звук, который мы интуитивно назовём «острым», обычно сочетает высокую частоту, резкую атаку, яркий тембр и отрывистость. «Округлый» звук — это низкие частоты, мягкое начало, тёмный тембр и плавность. Понимание этих связей даёт саунд-дизайнеру инструмент: чтобы звук «подошёл» к визуальному образу, его акустические характеристики должны соответствовать форме объекта.

Звук и другие модальности

Связь звука с формой — лишь одно из множества кросс-модальных соответствий. Не менее устойчивые ассоциации существуют между звуком и яркостью, размером, весом, пространственным положением. Эти связи так же универсальны и так же глубоко укоренены в нашем восприятии.

Яркость

Original size 2405x1350

Соотношение частоты и яркости: визуализация в градациях от черного к белому (примерные значения)

Высокие звуки воспринимаются как светлые, низкие — как тёмные. Это не просто метафора: эксперименты показывают, что люди быстрее реагируют, когда высокий тон сопровождается светлым визуальным стимулом, а низкий — тёмным. Несовпадение (высокий звук + тёмный объект) замедляет реакцию. Мы буквально «видим» высокие звуки светлыми.

Не случайно о музыке говорят в световых терминах: «светлое» звучание верхних регистров, «тёмный» бас, «блестящие» высокие ноты.

Размер

Original size 1308x599

Связь размера животного и высоты издаваемого звука: крупные животные производят низкочастотные звуки, мелкие — высокочастотные

Высокие звуки ассоциируются с маленькими объектами, низкие — с большими. За этим стоит статистика окружающего мира: маленькие объекты действительно издают более высокие звуки. Ударьте по маленькому и большому колоколу, по короткой и длинной струне — закономерность очевидна. Мозг усваивает эти корреляции и формирует ожидания.

Кинематограф эксплуатирует эту связь: рёв огромных существ в фильмах ужасов всегда низкий и утробный. Высокий голос у крупного персонажа мгновенно разрушает напряжение и превращает сцену в комедию.

Вес

Сравнение падения тяжёлого и лёгкого объекта (книга и ключ)
1 min

Низкие, громкие звуки ассоциируются с тяжёлыми объектами, высокие и тихие — с лёгкими. Тяжёлый предмет, падая на пол, издаёт глухой низкий удар. Лёгкий — высокий и короткий.

Саунд-дизайнеры используют это интуитивно: чтобы объект в игре или фильме «ощущался» массивным, ему добавляют низкочастотный компонент.

Положение в пространстве

Высокие звуки ассоциируются с верхом, низкие — с низом. Исследования показывают, что в естественной среде высокочастотные звуки действительно чаще приходят сверху (пение птиц, шелест листьев), а низкочастотные — снизу или с уровня земли (шаги, гул машин).

Эта связь настолько сильна, что влияет на локализацию звука: мы склонны «размещать» высокий звук выше в пространстве, даже если источник находится прямо перед нами.

Original size 1344x768

Связь высоты звука и положения в пространстве: высокочастотные звуки (пение птиц, звон колокольчиков) ассоциируются с верхом, низкочастотные (гул транспорта) — с низом

Все эти соответствия не случайны — они отражают реальные закономерности физического мира, которые мозг усваивает на протяжении жизни.

Заключение

Кросс-модальные ассоциации — не случайность и не поэтическая условность. Высокие звуки воспринимаются как светлые, маленькие, лёгкие, расположенные наверху. Низкие — как тёмные, большие, тяжёлые, находящиеся внизу. Эти связи универсальны: они обнаруживаются у младенцев, у людей из разных культур и даже у других биологических видов.

С точки зрения психоакустики, ключевую роль играют базовые параметры звука: частота, спектральный состав, огибающая амплитуды. Высокая частота и высокий спектральный центроид ассоциируются с малым размером источника — и это соответствует физике: короткие резонаторы производят высокие звуки. Резкая атака связывается с твёрдыми, угловатыми объектами, плавная — с мягкими и округлыми. Мозг усваивает эти закономерности из окружающей среды и формирует устойчивые ожидания.

Гипотеза исследования подтверждается: кросс-модальные ассоциации не произвольны и не сводятся к культурным условностям. Они опираются на статистику физического мира и на особенности работы нервной системы. Язык и эмоциональный опыт дополнительно закрепляют эти связи.

Для саунд-дизайнера это практический инструмент: понимая, какие образы вызывает звук, можно точнее выстраивать звуковую среду — или осознанно нарушать ожидания ради художественного эффекта.

Для создания визуальных материалов использовались Adobe Photoshop и/или генерация с помощью Runway AI. Аудиофайлы подготовлены в Ableton Live 12, с применением синтезатора Serum и библиотеки Freesound.

Bibliography
Show
1.

Прокофьева Л. П. Звуко-цветовая ассоциативность. — Сар. : Саратовский государственный медицинский университет имени В. И. Разумовского, 2007. — 280 с. (дата обращения: 26.11.2025)

2.

Adeli, M., Rouat, J., & Bhattacharya, S. (2014). Audiovisual correspondence between musical timbre and visual shapes. Frontiers in Human Neuroscience, 8, 352. (дата обращения: 27.11.2025)

3.

Ćwiek, A. et al. (2021). The bouba/kiki effect is robust across cultures and writing systems. Philosophical Transactions of the Royal Society B, 377(1841). (дата обращения: 26.11.2025)

4.

Fastl, H., & Zwicker, E. (2006). Psychoacoustics: Facts and Models. Springer. (дата обращения: 27.11.2025)

5.

Köhler, W. (1929). Gestalt Psychology. New York: Liveright. (дата обращения: 26.11.2025)

6.

Maurer, D., Pathman, T., & Mondloch, C. J. (2006). The shape of boubas: Sound–shape correspondences in toddlers and adults. Developmental Science, 9(3), 316–322. (дата обращения: 26.11.2025)

7.

Parise, C. V., Knorre, K., & Ernst, M. O. (2014). Natural auditory scene statistics shapes human spatial hearing. PNAS, 111, 6104–6108. (дата обращения: 26.11.2025)

8.

Ramachandran, V. S., & Hubbard, E. M. (2001). Synaesthesia — A window into perception, thought and language. Journal of Consciousness Studies, 8(12), 3–34. (дата обращения: 26.11.2025)

9.

Spence, C. (2011). Crossmodal correspondences: A tutorial review. Attention, Perception, & Psychophysics, 73(4), 971–995. (дата обращения: 26.11.2025)

10.

Spence, C., & Deroy, O. (2012). Crossmodal correspondences: Innate or learned? i-Perception, 3(5), 316–318. (дата обращения: 27.11.2025)

11.

Walker, P. et al. (2010). Preverbal infants' sensitivity to synaesthetic cross-modality correspondences. Psychological Science, 21, 21–25. (дата обращения: 26.11.2025)

Кросс-модальные ассоциации: связь звука и восприятия
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more