Итак, мы примерно понимаем, почему и как музыка может вызывать эмоции. Мы обращаем внимание на тембр и интонации, синхронизируемся с ритмом, следим за музыкальным повествованием и наши ожидания подтверждаются и обманываются, мы ассоциируем какие-то события в нашей жизни с музыкой, и мы выучиваем определенный музыкальный язык (например, то, что минор - печальный). Как теперь научить всему этому компьютер?
Распознавать эмоции в музыке - это фундаментально иного рода задача, чем, скажем, распознавать отдельные записи (то, что делает Shazam). Шазам распознает определенную песню по её короткому отрывку - это называется распознавание акустического отпечатка. Принципиальная разница в том, что для сличения акустических отпечатков нам абсолютно не важно, как слышит музыку человек.
Допустим, мы немного поменяем условие задачи, и захотим распознавать песню по её мелодии, которую кто-то напел. Это сразу делает задачу намного более сложной! Большинство музыкальных понятий существуют только в нашем восприятии, а в физической реальности они выглядят по-другому либо вовсе не существуют. Это касается не только таких сложных и субъективных штук, как чувство тональной иерархии или гулкость тембра.
Даже такие простые понятия, как громкость не являются объективным, наша субъективно воспринимаемая громкость зависит от высоты звука. И даже просто отдельные ноты на самом деле не существуют как объективные физические явления, а являются серией обертонов, которые наш мозг очень быстро и незаметно обрабатывает и предъявляет нам в расшифрованном виде - этот гундосый звук издала вот та длинная деревянная трубка. Поэтому вопрос о том, что именно человек воспринимает как мелодию, и какой именно участок этой мелодии покажется ему наиболее репрезентативным для конкретной песни - это совершенно нетривиальный вопрос.