基于内容的音频与音乐分析综述

时间:2023-03-01 10:49:07 硕士毕业论文 我要投稿
  • 相关推荐

基于内容的音频与音乐分析综述

  摘要:机器听觉包括三大研究领域:语音信号处理与识别、一般音频信号分析、基于内容的音乐信号分析。其中,语音信号处理与识别早已成为一个传统的研究热点。随着信息科学与技术的迅速发展,基于内容的音频与音乐信号分析也逐渐成为一个新的研究热点,近几年来取得了大量研究成果。文章将对1990年以后该领域上所取得的研究成果进行综述,包括基于内容的音频或音乐信号自动分类、分割、检索以及音乐作品自动分析等内容。

基于内容的音频与音乐分析综述

  关键词:音乐分类;识别;分割;检索;音乐分析;自动摘要;音频信号处理;模式识别

  1、引言

  听觉是一个非常重要的信息来源,如何能让计算机具有人类的听觉能力是一个十分有趣的问题,有着广阔的应用前景。由于实际应用的需要,同时也为了研究方便,学者们将机器听觉分为三大领域:语音信号处理与识别、一般音频信号分析、基于内容的音乐分析。在这三个研究领域当中,有关语音识别的研究最为深入,每年都有大量的相关研究工作被报道。由于已经存在许多有关语音识别方面的综述性文章[1’2],本文将不再对该领域的研究工作做进一步的归纳和整理。

  所谓一般音频信号是指除了语音信号以外的各种音频信号,其中也包括音乐。而音乐也是一般音频信号中最重要的一个类别。我们知道音乐是一种复杂的非自然的声音现象,它是人类智慧与感性思维的体现。许多无法用语言准确描述的思想感情可以通过音乐表达出来,优秀的音乐作品往往会使人产生情感上的共鸣。因此,音乐被认为是全人类的共同语言,是人类几千年文化发展的成果,对它的研究无疑具有非常重要的价值。由于音乐本身包含着大量不同层次的信息,对音乐信号进行自动分析是十分困难的。此外,人类社会已经进入数字化时代,娱乐业与信息产业愈来愈紧密地结合在一起。如何快速有效地搜索、管理和分析多媒体数据已经成为一个非常重要的问题,而基于内容的音频和音乐信号分析则有助于这一难题的解决。

  和语音信号处理与识别相比,有关基于内容的音乐和一般音频信号分析的研究工作相对较少。但进入20世纪90年代以后,这个领域的研究工作取得了很大进展,国际上发表的有关论文数量大幅增长。而目前有关该领域的比较全面的综述文章还是截止到1988年,因此我们认为非常有必要对近几年的研究工作进行一下总结。在本文中,我们将对1990年以来基于内容的音频和音乐分析领域的研究工作进行全面、完整的综述,其中主要介绍最近七八年的研究成果,之前的研究工作请参看文献[3].

  此外,具体的有关遗传算法在音乐分析领域中的应用综述请参看文献[4].这个研究领域中比较重要的期刊和会议包括IEEE Transaction on Speech andAudio Processing;IEEE Transaction on PatternAnalysis and Machine Intelligence;IEEE(Transac—tion on)Multimedia;IEEE Transaction on SignalProcessing; IEEE International Conference onAcoustics, Speech, and Signal Processing(IC—ASSP);IEEE International Conference on Multi—media and Expo(1CME)和International Symposi—um on Music Information Retrieval(ISMIR)等。

  本文将按照不同的研究工作所处理的具体问题组织全文,安排如下:第2节介绍基于内容的音频和音乐分类与识别方面的研究工作;第3节介绍基于内容的音频流分割;第4节则介绍基于内容的音频或音乐检索;第5节介绍音乐作品分析以及乐谱自动识别方面的工作;第6节介绍有关计算机音乐分析与理解方面的一些其他工作;最后在第7节中则是我们对该领域今后研究工作的一些认识。

  2、基于内容的音频和音乐分类与识别

  基于内容的音频数据自动分类是一个十分重要的研究方向,它可成为其他许多应用研究的基础,如基于内容的分割、检索等。依据研究对象的不同,我们可以将这个领域的研究工作分为以下三个部分。

  2.1 针对音乐类数据的自动分类与识别

  由于音乐类数据具有高度的复杂性,根据研究对象的不同我们可以将这部分工作进一步细分为如下几个问题。

  2.1.1针对不同音乐类型的自动分类

  (1)两类分类问题两类分类问题是指,研究对象中仅仅包含有两种不同的混合音乐类型的数据。由于应用需求的不同,学者们所感兴趣的具体研究对象也是不同的。

  如:Bickerstaffe等人研究了如何利用最小消息长度准则(MML)对摇滚乐和古典音乐进行自动分类[5].

  在他们的工作中比较了一种称为“Snob”的非监督学习方法和三种监督分类方法:决策树、决策图和人工神经网络,结果表明在这个问题中监督分类方法要明显优于非监督分类方法;为了方便进行歌词自动识别,Berenzweig等人研究了如何区分流行歌曲中的演唱部分和纯伴奏部分[6],他们利用一个在说话人识别领域中常用的分类器对类似语音的声音信号进行检测。由于具有背景伴奏音乐的歌手演唱信号与一般的语音信号有着很大的不同,对于那些无法直接通过“说话人识别分类器”来确定类别的声音片段,作者将进一步采用一个基于HMM框架的方法来最终判断其类别。

  (2)多类分类问题在针对不同音乐类型的自动分类问题中,多类分类问题是比较常见的[710J.由于研究兴趣与具体应用需求的差异,学者们所关心的音乐类别往往不尽相同,但基本上都是采用基于样本训练的分类方法。总的来说,研究所涉及的音乐类别越多则研究难度越大。Tzanetakis等人设计了一个以音乐类数据为主的三层音频分类树(见图1),其内容覆盖了大部分西方现代音乐和一部分古典音乐[7],其中在具有十种音乐类别的分类层次上可以达到61%的平均分类正确率。在他们的工作中使用了三种分别代表音色纹理、旋律内容和音高内容的特征集,并对这些特征的性能做了比较性研究。Lambrou等人利用万方数据计算机学报小波系数作为特征,对摇滚乐、爵士乐和钢琴曲这三类音乐信号进行自动分类[8],同时比较了不同的小波构造方法和分类器对于这个三类问题的区分能力。文献[9]将音乐信号的分形维数作为特征对12类音乐信号进行了自动分类研究,实验结果表明音乐信号的分形维数可以作为一种有效的特征用于音乐数据的自动分类。

  (3)非监督分类——聚类前面所讨论的两类与多类音乐分类问题都属于监督分类问题,也就是说分类问题的类别是已知的,并且研究者可以获得类别已知的样本数据,这类情况比较常见。与此相对应的则被称为非监督分类问题,此时研究者可能无法获得足够的类别已知的样本数据,有时甚至连类别数都无法知道。非监督分类问题又称为聚类分析,关于针对音乐数据进行聚类分析的研究报导较少,因为聚类结果强烈依赖于所定义的相似性度量,并且所产生的聚类结果很难满足某种具体的应用需要。Cilibrasi等提出了一种基于Kolmogorov复杂性和信息距离的音乐分级聚类方法[11|,它不使用任何音乐背景知识并可以直接用于其它领域的聚类分析。Shao等则提出了一种基于HMM的非监督音乐分类方法[1 2I,为了获得更好的结果,他们还对音乐信号的节奏进行分析并在此基础上提取特征。

  2.1.2基于内容的乐器(音色)自动分类与识别

  如何从一段给定的音乐信号中识别出参加演奏的乐器是一个非常有趣的问题。这样的任务对于人类来说也许是非常轻松的,但对于机器来说却十分困难。识别或区分某种乐器主要依靠它特有的音色,从物理学上看音色则是由物体的振动状态所决定的,不同物体的振动状态决定了它的泛音及波形的不同,一个固定音高的音由于其中所含各阶谐频成分的比例不同,其音色也不同。对于某种具体的乐器来说,这种频谱的变化又是十分复杂的,同一种乐器由于演奏技法的不同其音色也会发生显着的变化。

  因此,如何方便而准确地描述音色是一个难题。有关乐器识别或音色识别方面的研究工作比较少,它们可以分为以下两种情况:

  (1)独立演奏情况下的乐器识别

  大多数关于乐器自动识别的工作都是在独立演奏的假设下完成的,这使得工作变得相对容易了一些。Kermit等人研究了如何对吉他、键盘乐器和鼓这三种乐器进行自动识别[13|,他们首先采用Haar小波变换对音频信号进行预处理以提取特征,然后通过一个神经网络对测试数据进行分类。他们的方法也可以用来对一些语音数据进行自动分类,如一些元音和字词。在文献[14]中,作者采用一种称为ARTMAP的神经网络来区分五类乐器所演奏的单音符信号,这五类乐器分别为钢琴、吉他、小号、萨克斯和长笛。在文献[15]中,作者采用频谱特征对来自27种乐器所演奏的1007段音频信号进行了自动分类研究。实验结果表明二次分类器所取得的效果最好,它要优于目前比较流行的SVM分类器和传统的最近邻分类器。该分类器对来自具体乐器所演奏的音符的平均分类错误率为7.19%,对乐器族的平均识别错误率仅为3.13%。Eronen针对16种西方管弦乐器的自动识别问题做了特征比较研究[16【,他考虑的特征包括Mel频率、线性预测倒谱系数和delta倒谱系数等。他所报道的对乐器族的最高识别正确率仅为77%。Krishna等同样在单音符乐器识别问题中比较了不同特征(MFCC和LPCC)以及分类方法(高斯混合模型和K近邻法)的作用[1?,他们所报道的针对14种乐器的最高平均识别正确率为90%。

  (2)混合情况下的乐器识别

  在实际演奏的情况下,尤其是在多乐器混响的情况下进行乐器自动识别是非常困难的,相关的研究报道非常少。Josephson等人研究了模糊专家系统在混响情况下乐器识别问题中的有效性,并列举了几个应用实例n 8|.他们建议采用定量的物理分析与模糊专家系统相结合的方法对音色进行识别。其中专家系统的知识库是这样建立的:专家的知识+从音乐信号中直接提取出的音质特性,如基频、谐波泛音强度、谐波相位偏移量等。但是该文并没有详细给出系统的实现方法。Kostek研究了如何从二重奏音乐信号中识别乐器并将其分割出来[1 9|,他使用神经网络作为最后的决策系统。Sakuraba等则对四重奏音乐信号下的乐器识别问题做了特征比较研究。

  2.1.3歌手自动识别

  如何让计算机分辨出一首歌曲是哪位歌手所演唱的是一个十分有趣的问题。由于人们在日常生活中所欣赏的音乐大多都是歌曲,解决该问题会十分有助于歌曲类多媒体数据的自动管理和检索。这个问题与语音识别领域中的说话人识别非常类似,解决的思路也基本类似。但是由于人在演唱时嗓音的动态范围比说话时要大的多,再加上往往会有伴奏音乐,所以歌手识别问题要比说话人识别更加困难。

  有关该问题的文献不多,它们可以分为以下两种情况:

  (1)无伴奏情况下的歌手识别在文献[21]中,作者对12位美声唱法歌手的清唱歌声做了自动识别研究。他们采用频谱包络的主成分作为特征,并用一个二次分类器对来自不同歌手的歌声做自动识别。通过交叉验证实验,对歌手的平均正确识别率为95%。Kim则通过训练HMM对来自4名美声歌手所演唱的简单音调做了识别,平均正确率可达90%左右[2引。

  (2)有伴奏情况下的歌手识别“u等提出了一种方法用于在MP3格式下做歌手识别[2引。他们首先通过一系列多项滤波器将训练集中的MP3音乐信号进行分解得到一系列音符(或音素),然后从每个音符中提取特征训练分类器对测试集中的歌曲进行歌手识别。Zhang基于说话人识别系统的一般框架提出了一种歌手自动识别方法口“。她为训练集中的每位歌手的嗓音特性训练了一个统计模型。对于一首待测试的歌曲,她首先检测歌曲中演唱部分的起始点,然后从这个起始点开始截取出一段定长的演唱片断,最后从这个演唱片断中提取音频特征与训练集中的歌手嗓音模型进行匹配以完成歌手识别任务。在一个不大的测试集上,她的方法可以达到大约80%的平均识别正确率。此外,她还针对歌手之间的嗓音相似性做了一些聚类分析。Maddage等也提出了一种歌手自动识别方法嘶],他们首先采用SVM分类器来检测歌曲中的演唱片断,然后通过高斯混合模型来对歌手的嗓音进行建模和识别。在一个包含了100首独唱歌曲的数据库中,他们的方法可以达到87%的平均正确率。Tsai等则研究了如何在具有背景伴奏和其他歌手存在的情况下,如何检测和跟踪某个特定歌手的演唱‘2引。

  2.2包含音乐类数据的一般音频分类

  包含音乐类数据的一般音频自动分类是指在分类对象中至少包含一种属于音乐类别的数据或者音乐与其他类别音频信号(如语音)的混和数据。我们可以将这部分研究工作进一步细分为如下两部分。

  2.2.1语音与音乐类数据的区分

  由于语音和音乐是非常重要的两类音频数据,如何有效地区分语音和音乐就显得非常重要。关于这方面研究的文献资料比较多[27。30f,他们通常也被当作复杂情况下语音识别所必需的预处理工作。

  Feng等采用最大熵模型,并结合一些通用特征对语音和音乐进行分类[2?.Hughes等采用小波变换与神经网络相结合的方法来解决这个问题[28|.Chou等则着重强调了语音信号与歌曲类信号的区分,并为此提出了一些新的特征[2 9I.Beierholm等提出了一种无需训练的语音、音乐区分算法口?。在他们的方法中,对语音和音乐信号分别采用了不同的特征类别和模型阶数。

  2.2.2其他多类分类问题

  在包含音乐类数据的一般音频自动分类问题中,多类分类问题也是比较常见的。31。3“。由于研究者的兴趣和实际应用需求的不同,他们所关心的音频类别数和具体的音频类别往往不尽相同,但又十分相似。Lu和Zhang等首先通过K近邻结合线性谱对向量量化法(LSPLVQ)将音频信号分为语音和非语音两大类[3¨,然后利用基于规则的分类方法将菲语音类音频信号进一步分为音乐、环境声音和静音。

  为此,他们还提出了自己定义的一些特征,如:噪音帧数比和频带周期。在文献[32]中,他们比较了SVM、K近邻法和高斯混和模型在~个五类的音频分类问题中的性能差异,这五类音频分别为静音、环境声音、语音、非纯语音和音乐。实验结果表明SVM要明显优于其它两种分类器。Li等研究了在一般音频信号分类中的特征选择问题[3?,他们将音频信号分为七类:静音、环境噪音、单人语音、多人语音、音乐、语音和音乐的混合信号、噪音背景下的语音。研究结果表明倒谱类特征(如MFCC)和线性预测系数(LPC)要优于一般的时域和频域特征,他们所报道的最高平均分类正确率为90%。Zhang使用能量函数、平均过零率、基频和谱峰轨迹作为特征,并通过一个基于规则的启发式的分类方法将一般音频信号分为八类:和谐的环境声音、纯乐曲、歌曲、带有背景音乐的语音、带有背景音乐的环境声音、纯语音、非和谐的环境声音和静音口4|.他们的方法也可以达到90%的平均分类正确率。

  2.3不包含音乐类数据的一般音频分类

  有关这方面研究工作的报道比较少。Guo等利万方数据计算机学报用SVM构建了一个二叉分类树[35|,对来自“MuscleFish”数据库中的16类共409段音频数据进行自动分类。这些音频类别包括动物的叫声、男声、女声、铃声、掌声、笑声、机器的嘈杂声等等,平均分类正确率可达89%。Li在最近邻方法的基础上提出了一种称为最近特征线(NFL)的分类方法[36|,并将其在“Muscle Fish”数据库上进行了测试。实验结果表明最近特征线分类方法要优于传统的最近邻法,其平均分类正确率可以达到90%。Couvreur等通过时频分析技术结合HMM建立了一个环境噪声监测系统[37|,它可以区分五类噪声源:小汽车、卡车、摩托车、飞机和火车,平均分类正确率可以达到95%。

  Wold等提出了一种基于内容的声音文件的分类方法[38|.作者对一小段声音的WAV文件提取各种特征(持续时间、音高、振幅、带宽、明亮度)并计算它们的均值、方差、自相关等统计量,将这些特征及其统计量组成特征向量,用这个特征向量来表示这段声音。在此基础上,作者定义了声音文件之间的相似性度量(欧几里的距离)使得基于内容的相似性成为可计算的量。随后作者用带标签的一组样本来定义一个特定的类,并计算其均值特征向量和协方差矩阵作为该类的数学模型。最后用近邻法来做进一步的分类和检索工作。

  2.4小结

  从前面的介绍中不难发现,有关基于内容的一般音频和音乐数据自动分类是一个十分开放的研究领域。由于研究对象的复杂性和开放性,使得这个领域中拥有层出不穷的新问题有待学者们去探索和研究,这也是其能够成为近年来的一个研究热点的重要原因。另一方面,与一些传统的研究领域(如语音识别、人脸识别、指纹识别等)相比,这个新兴的研究领域也存在一些问题,比如缺乏一个可以被学者们所广泛接受的数据库。目前的情况是几乎每个学者都在使用不同的数据,研究不同的问题。这使得我们很难对不同的算法在性能上有一个直观的比较,这在一定程度上制约了有效的学术交流。从研究方法上看,几乎所有的算法都是采用基于数据的机器学习框架。这一方面得益于近年来机器学习领域的迅速发展,而另一方面也反映出我们在研究事物本质特征方面的滞后。模式识别问题的核心是特征的提取与选择。目前在有关音乐数据自动分类研究领域中被广泛使用的仍然是一些低层次的音频特征,如MFCC、线性预测系数以及各种时域、频域特征及其统计量,这些特征显然不足以反映音乐现象的本质。如何提取出更有效的可以揭示音乐现象本质的特征是一个亟待解决的难题。

  3、基于内容的音频流分割

  基于内容的音频流分割是指将一段音频流数据按其内容自动地分为若干片段,使得每个片段在内容类别上具有一致性。它是基于内容的音频和多媒体数据分析领域中的一个十分重要的问题。例如,一段电台或电视台的音频信号,其中可能包含古典音乐、流行歌曲、传统戏曲以及广告、语音等内容。如果能将其按这些内容属性合理地分割开来,就能够方便听众和观众选择收听、收视,也能够方便多媒体数据的分类保存和进一步的剪辑加工等。面对海量的多媒体数据,如果能开发出一种自动的、基于内容的音频流分割方法,无疑会大大地提高工作效率。有关音频流分割的文献比较多,按照研究对象的不同这些工作又可以分为以下几个方面。

  3.1说话人分割

  说话人分割是指根据说话人嗓音特性的不同,将音频流中属于不同说话者的声音片断分割出来。Delacourt等将一些二阶统计量作为特征用于连续语音信号中的说话人分割[3 9|.他们的方法不需要知道说话者的数目和其它一些先验信息,但是要求说话人不能同时讲话。Kim等比较了声谱投影(audiospectrum projection)和MFCC这两种特征在说话人分割问题中的有效性[40I.他们从不同说话人的声音片段中分别提取这两种特征并训练HMM模型用于说话人分割,实验结果表明MFCC的效果要好于ASP.

  3.2语音/音乐数据流分割

  有不少研究工作都是专门针对语音和音乐类音频数据流的分割问题的。事实上,在2.2.1节中讨论过的关于语音与音乐区分的许多算法都可以用于语音和音乐数据流分割。此外,Ajmera等提出了一种针对广播信号的语音/音乐数据自动分割算法[41I,它可以作为广播新闻自动翻译工作的预处理。他们首先用纯语音信号训练出一个神经网络,并将其作为信道模型。然后在这个神经网络的输出端计算熵和信号的动态特性。最后通过一个两状态的各态历经HMM模型对音频流信号进行分割。

  3.3其它多类音频流分割问题

  关于这类音频分割问题的研究报道比较多口。32’42-45],从研究方法上看这些工作可以大致分为两类:一类属于非监督的音频流分割方法,如文献[42—43].它们主要通过检测音频特征值的突变点或对音频信号做局部相似性分析而对音频流进行分割。Pandit等在一个三类音频流分割问题(单人语音、多人语音和音乐)中比较了几种基于距离度量和线性判别分析(LDA)的相似度计算准则[43【。实验结果表明基于Mahalonabis距离度量的相似度计算准则要优于基于其它距离度量方式和LDA的准则;另一类则属于有监督的音频流分割方法。依据具体应用要求的不同,利用各种样本数据学习训练得到的音频流分割方法往往能够得到比较理想的分割性能。在这类方法中,比较有代表性的是文献[31—32].

  在文献[31]中,作者提出了一种方法将音频流分割为语音、音乐、环境声音和静音。他们采用了一种完全基于小尺度分类的分割方法,其基本分类单元为1s的音频片段。首先,音频信号被分为语音信号和非语音信号两类,然后进一步将非语音信号分为音乐、环境声音和静音。在他们的方法中仅仅给出了分类器的平均正确率,而没有对整个分割算法的效果进行评价。Nitanda等也提出了一种音频流分割方法“引,他们首先采用模糊C均值聚类法检测可能的分割点,然后设计分类器将分割点之间的音频片段分为五类(静音、音乐、语音、具有背景音乐的语音、具有背景噪音的语音),通过对音频片段进行分类也可以达到去除一部分虚假分割点的目的。此外,我们经过研究发现大尺度音频片段的分类正确率要明显高于小尺度音频片段的分类正确率,并且这个趋势与分类器选择无关。基于这个事实和减少虚假分割点的目的,我们提出了一种新的音频流分割方法H5c.首先,我们采用基于大尺度音频分类的分割方法对音频流进行粗分割,以减少虚假分割点;然后我们定义了分割点评价函数,并利用它在边界区域中进一步精确定位分割点。实验结果表明我们的音频流分割方法可以比较精确地获取真实分割点的位置,同时大大减少了虚假分割点的出现。

  3.4利用音频分析技术的视听多媒体数据分割

  在当今社会中,数字技术越来越多地应用于多媒体数据的管理,如电视制作、节目检索等方面。如,对于类似电视、电影等既有图像又有声音的多媒体数据,如何快速有效地从大量数据中找出自己关心的片断是一个十分有趣的问题。传统的方法一般从视频数据人手去寻找线索,对视听数据进行分割,音频数据中所包含的信息没有被利用上。但是在许多情况下,仅仅利用视频信息进行分割是非常困难的,如果能将音频信息利用起来无疑可以大大提高分割效率和正确率。这方面的文献也比较多[34“6‘4 7……如Zhang和Jay Kuo介绍了一种视听数据分割方法口引,其算法流程见图2.她先将背景声音进行分割和分类,然后利用背景声音的分类结果将图像序列分割并归类为一个个“视听场景”,并为之标上“标签”以便检索。在他们的方法中首先从每个1s的音频片段中提取特征,然后检测出音频流中的特征突变点并用这些特征突变点将音频流分割开来,最后再利用一种基于启发式规则的方法将这些片段进行分类。与文献[31]类似,他们只给出了分类器的正确率而没有对整个分割算法的精度、真实分割点检测率以及虚假分割率进行探讨。Strobel等则利用音频一视频联合的技术进行目标定位与跟踪等提出的基于音频分析的视听数据自动分割与检索算法流程图Ⅲ3万方数据计算机学报。

  3.5 小结

  总的来说,基于内容的音频流分割算法可以分为两大类:一类算法是基于特征值突变检测或音频流局部相似性分析的。原则上说,这类算法可用于分割任意音频流数据。但是在实际应用中,由于分割对象往往过于复杂并且算法不具有针对性,因而很难取得理想的效果;另一类算法是基于对音频片段的监督分类的。在第2小节中所介绍的有关音频信号监督分类的算法一般都可以用于构造相应的音频流分割算法。由于这类音频流分割算法具有较强的针对性,因而当应用环境比较稳定时这类算法可以取得较好的效果。但是当应用环境发生较大变化或应用于新的分割问题时,这类算法都需要重新收集样本数据训练并更新相应的分类器,甚至需要重新设计分类器。因而这类音频流分割算法的应用灵活性相对较差。

  对于一个特定的分割算法,我们认为其分割精度、真实分割点检测率和虚假分割率都是非常重要的指标。但令人遗憾的是到目前为止,几乎所有文献都只给出有关分割精度和正确分割率的报道,而没有对分割算法的虚假分割性能做出分析。在许多应用中,人们不仅会在意分割点的精度,而且会更加关心虚假分割的比例,面对原本属于同一内容却被分割的支离破碎的音频片段,即使其真实端点的定位精度再高也已经失去了应用价值。例如,当用户从音频流中选听自己感兴趣的内容或跳过不感兴趣的内容(如广告等)时,如果频繁的错误出现自己并不感兴趣的段落或将自己感兴趣的段落错误跳过时,会严重影响他们对算法的使用热情。但是在保证一定分割精度的前提下,提高真实分割点检测率和降低虚假分割率是相互矛盾的。如何在设计算法时根据实际需要合理地平衡这些指标是一个值得认真考虑的问题。

  4、基于内容的音频数据自动检索

  基于内容的音频数据自动检索是一个十分重要的应用问题,事实上前面所介绍的关于音频数据自动分类和音频流分割的工作都可用于检索目的。从检索对象上看,相关工作可以分为两大类。

  4.1针对音乐类数据的自动检索

  目前互联网上已有的音乐曲目的数量非常巨大,面对浩如烟海的音乐数据库,传统的检索方法主要依据曲名、演唱者、出版商等附属文字信息,但仅依靠这些检索手段往往不能满足用户快速有效地查找音乐作品的需要。如果通过某种技术可以直接查找音乐文件的内容将会大大提高检索结果的有效性和准确性,图3是一个典型的基于内容的音乐自动检索和索引系统工作流程图。基于内容的音乐类数据自动检索目前已经成为一个研究热点,相关文献报道比较多,其中一半以上都是最近三四年内的最新研究成果。从检索方式来看这些工作可以分为以下几类。

  4.1.1 基于原曲局部相似性匹配检索

  这类音乐检索工作的特点是允许用户提供希望查找的音乐的某一片断,系统经过对这一片断进行处理,提取特征,在音乐库中自动寻找到该音乐的完整文件或与之内容相似的作品Ⅲ。5引。Mo等提出了一种针对MIDI格式的音乐文件的检索方法m3,并给出了一种基于主旋律的音乐文件之间相似性程度的计算方法。他们认为音乐的基本曲调(主旋律)可万方数据5期张一彬等:基于内容的音频与音乐分析综述719以看成是~系列具有一定的音高和音长的音符集合。可以将经过分解和规范化后的两段音乐的对应乐句作为基本比对单元。通过计算对应乐句中对应音符的相对音高的相似性和两音符之间关系的相似性来得到对应乐句的相似性值,从而最终得到两个音乐MIDI文件之间的相似性值。Yanase等提出了一种用于音乐信息检索的方法[5?,该方法本质上属于特征向量法。传统的特征向量法一般是基于整首乐曲中提取特征的,而他们的方法是基于乐句来提取特征的,所以需要先将~首完整的乐曲分割成若干个乐句。MIDI格式并不提供休止符的位置,该文的方法是检测各个连续音符之间的问隔时间,如果这个问隔时问超过了一个固定的域值,则在此处放置一个休止符。然后再用一些启发性的规则合并掉一些休止符,最终每两个相邻的休止符之间的部分就可以被看作一个完整的乐句。然后将每个乐句的正常音符序列转换为相对音高序列和相对音长序列。该文采用了卵一gram patterns作为特征来将这些序列表示为一定长度的向量的形式:用户检索时先用MIDI乐器演奏待检索乐曲的一个片断作为关键字,然后用这个关键字到数据库中查询。因为习惯上人们一般会演奏一个或几个连续的完整的乐句,而该文提取特征的方法又是基于乐句的,所以理论上会比那些从整首乐曲中提取特征的方法的精度高一些。Pye研究了如何对MP3格式的音乐文件作基于内容的分类和检索口1I.他从语音处理领域借鉴了两种方法并将其应用到基于内容的音乐分类、检索领域。经过实验比较,发现高斯混合模型法(GMM)效果比较好;基于树的向量量化法(Tree-based Vec—tor Quantization)速度比较快。此外,他还比较了两种从MP3文件中提取特征的方法,发现MFCC法对噪声干扰的稳定性比较好,但是由于要求全部解压缩,因而速度比较慢;MFCCS法只对MP3文件的进行部分解压就可以了,因而速度比MFCC法快很多,但其效果不如MFCC法。Tsai等实现了一个歌手检索系统酯2I.使用者通过提供感兴趣的歌手的演唱片段,可以从数据库中找出属于该歌手或与该歌手嗓音类似的歌曲。

  4.1.2歌曲“哼唱”检索

  “哼唱”检索是一种十分理想的基于内容的音乐检索方式,它是将用户哼唱的一段旋律作为查询内容从数据库中找出与之对应的或旋律相似的原曲,“哼唱”检索方式通常用于歌曲检索。从技术实现上看“哼唱”检索是非常困难的,因为用户所哼唱的旋律往往与希望被检索到的歌曲相差很大,另外被检索的音乐作品往往具有伴奏音乐而通过哼唱所输入的查询旋律通常只能是清唱。有关“哼唱”检索的研究报道比较少,且一般都是基于MIDI格式的[53。鲥].

  李扬等提出了一种近似旋律匹配方法——线性对齐匹配法[5?,并在此基础上实现了一个哼唱检索系统原型,其算法流程见图4.该算法并非基于近似符号串匹配、统计模型或者特征空问,而是根据相近旋律的音高轮廓在几何上的相似性,将音高和节奏特征一并考虑所设计而成的新算法。实验结果表明在含有3864首乐曲的搜索空间中,检索62段人声哼唱,线性对齐匹配法取得了90.3%的前3位命中率。

  Yang等将数据库中的韩国民谣根据它们的节奏模式人工地分为五大类[5“,每首歌曲由基于曲调的符号串表示。用户检索曲目时首先需要哼一段旋律,然后用这段旋律作为检索关键字在数据库中寻找与之相似的乐曲。值得注意的是,这段旋律被保存为wav格式(8bit、16kHz、混合单声道),并直接对其进行处理。首先,他们用自相关方法得到该段旋律的音高序列。然后,一个BP神经网将判断用户哼唱的这段旋律属于何种节奏模式,该神经网的输入层有10个节点,对应着10个连续的音符,输出层为5个节点,分别对应五类模式之一,两个隐层各含20个节点。最后,他们用字符串近似匹配方法在确定的子类中去寻找相似的歌曲序列。

  旋律提取音符序列图4 李扬等提出的歌曲哼唱检索系统工作流程图¨列4.1.3基于“情感”的音乐检索有时候我们并不关心一首歌曲是谁唱的,也不在乎它具体的旋律,仅仅希望能够找到符合当时心情的歌曲就可以了,这就是所谓基于“情感”的音乐检索。有关基于“情感”的音乐检索的研究工作非常少。Feng等通过检测音乐的演奏速度和“清晰度”来万方数据720 计算机学报分析音乐中所蕴含的情感[55f.他们首先通过multipleagent方法检测出音乐演奏的速度,再将其转换为相对速度;在“清晰度”计算的基础上求出所谓“平均寂静率”的均值和标准差,最后通过一个BP神经网络将音乐分为快乐、悲伤、愤怒和恐惧四类。用户将在一个三维可视化的特征空问中去检索感兴趣的音乐。

  4.2针对一般音频对象的自动检索针

  对一般音频对象进行自动检索的研究工作比较少[56。57……在2.3节中所介绍的研究工作均可用于一般音频对象检索。此外,Zhang和Jay Kuo提出了一种分级的多类音频分类与检索方法邸引。他们的方法分为三个阶段,首先通过对音频信号的短时特征曲线作统计和形态分析将音频信号进行粗分类(语音、音乐、环境声音和静音);然后对环境声音进一步提取时频特征并利用HMM将其细分为诸如掌声、雨声、鸟叫声等等;最后允许用户提供样本音频片段,数据库中与其相似的音频片段将被检索出来。

  Smith等利用主动搜索和模板匹配的方法,从广播信号中寻找感兴趣的声音信号[5川。为了提高速度,他们使用了过零率等比较简单的特征。

  4.3小结

  基于内容检索是一个非常重要同时也非常困难的问题,其核心在于如何进行特征提取并有效地定义相似性度量。应用需求不同,特征提取与相似性度量便会不同。对于音乐数据而言,用户可以输入同一段信息,但希望得到的检索结果却可能大不相同。比如,对于同一首输入的流行歌曲用户可能希望按照歌手去检索,也可能希望按照配器、旋律、音乐风格甚至情感等其它信息进行检索。如何有效地为音乐类数据定义相似性度量就显得更加困难,这其实也是一个知识表达方面的难题。对于一个实用的基于内容的音乐检索系统,它可能面对的是海量的待检索数据、大类别数甚至不特定类别数、不同类别的数据量不平衡、用户需求多样性等困难。此外计算量也是一个不可忽视的问题。总之,我们认为目前的基于内容音频及音乐检索算法与系统尚处于实验研究阶段,其性能距离真正实用化还有很大差距。

  5、基于内容的音乐分析

  这里所说的音乐分析是指针对某个完整的音乐作品所进行的分析和识别工作,有关这个领域的研究报导在最近几年增长较快。根据研究目的的不同,我们分为以下几个小节分别进行介绍。

  5.1音乐作品结构分析

  音乐是一种十分复杂的、有层次的声音信号,一些学者致力于通过计算机来分析音乐本身的这种层次结构[58书2|.他们所定义的这种层次结构不一定和音乐学本身相关,但是可能会更适合于音乐信号的自动处理。由于MIDI格式本身已经包含了大量音乐信息,所以基于MIDI格式的音乐分析工作相对较多。Hsu等定义了音乐信号中的“非平凡重复模式”[58I.所谓重复模式是指在一首音乐作品中重复出现的那些音符序列,非平凡重复模式则要求重复出现的音符序列对于这首音乐来说具有特殊性和代表性,比如:这首音乐的主旋律或主旋律的一部分。

  通常非平凡重复模式应该是具有一定长度的音符序列。他们同时提出了两种基于MIDI格式的“非平凡重复模式”提取方法——相关矩阵法和PR树法。Lo等则进一步提出了一种关于“非平凡重复模式”的快速提取算法口引。Pikrakis等通过小波分析和树状分类的方法对希腊传统音乐中预先定义的一些孤立音乐模式进行自动识别以辅助音乐学研究[60I.此外,Shmulevich等提出了三种方法用于度量音乐旋律的复杂性[61|.Chen等在对音乐结构进行分析的基础上提出了一种针对音乐信号的自动分割方法[6引。

  5.2音乐自动摘要

  所谓音乐自动摘要是指对一段音乐信号生成一个高度简约又能反映出该音乐特点的摘要信息,如何对音乐数据进行摘要描述是一个重要的问题。由于音乐所具有的高度复杂性、结构化、非语义性以及人们对音乐理解的主观性,为音乐数据自动生成摘要已经成为一项具有特殊挑战性的工作。另一方面,随着娱乐业的快速发展大量流行歌曲被不断创作出来。据统计,仅在西方国家每个月就新产出大约4000张音乐CD,其中流行歌曲占据了很大的比例。

  对于普通消费者来说,如何在浩如烟海的流行歌曲当中找到真正想听的歌曲?对于商家来说,如何快速有效地管理他们的海量音乐数据?这些都已成为紧迫的问题。从总体上看有关音乐自动摘要的文献报导不算很多,其中大部分都是有关流行音乐的。有迹象表明它正在成为一个新的研究热点¨3‘67I.在文献[63—64]中提出了一些基于一般音频格式的音乐自动摘要算法。在这些文献当中,音乐摘要通常被定万方数据5期张一彬等:基于内容的音频与音乐分析综述721义为一些定长(如10s、20s或30s)的音频片段。这些音频片段主要是通过相似性分析或重复度计算的方法被分割出来的。所有这些方法的计算量都比较大,并且其效果只在较小的测试集上通过一些主观的评价方法(如只对自动摘要结果直接评分)得到验证。

  在文献[65]中,Xu等首先利用SVM分类器将音乐信号分为纯音乐和声乐两大类,然后分别针对这两类音乐信号提取特征并进行聚类分析,在聚类分析的基础上再结合相关领域知识生成最终的音乐摘要。他们的研究结果还表明在音乐分类问题中,SVM分类器要优于传统的基于欧式距离的分类器和隐马尔可夫方法(HMM)。此外,Shao和Liu等人分别研究了如何对MP3格式的音乐直接生成自动摘要‘66‘6川。在文献[67]中,作者首先采用多项滤波器从MP3文件中直接提取特征,并在特征提取的基础上对MP3音乐信号进行分割;然后对分割结果进行聚类分析,聚在一类的音乐片段可以被当作一个重复模式;最后通过RP—Tree算法从中找出非平凡重复模式并将其作为整首音乐的自动摘要。

  5.3音乐建模

  对音乐进行建模分析是十分困难的,也是十分必要的。关于音乐建模的研究很少,但近两年来也可以看到一些报道。Wang等提出了一种音乐数据模型和相应的代数操作规则,并将其应用于数字音乐图书馆中的数据检索和查询[68|.Cour_Harbo研究了如何将最小燃料神经网络(minimum fuel neuralnetwork)用于音乐信号的稀疏表示[6 9|,该方法可以归结为一组二阶微分方程,并且他认为可以通过先验知识来确定用于优化该方法的最重要的参数——离散化步长。Endelt等对通过小波变换实现音乐信号的稀疏表示时所遇到的若于问题进行了研究[7?,他们还比较了用于音乐信号稀疏表示的几种方法[71|.

  5.4乐谱自动识别与分析

  乐谱自动识别是指将音乐演奏的声学信号所对应的乐谱信息自动翻译出来,它是音乐分析领域中的一项十分重要同时也是十分困难的工作。我们知道一首音乐的乐谱记录着该音乐的全部信息,音乐家通过阅读乐谱就可以了解音乐的全貌,并不需要将它实际演奏出来。现有的许多音乐分析方面的工作都是基于MIDI格式的,因为MIDI格式本身包含着大量的乐谱信息,所以基于MIDI格式的音乐分析工作可以做的比较深入。但是它们一个共同的缺点就是其对MIDI音乐文件格式的强烈依赖性,这制约了这些方法的应用价值。而大量的音乐数据大多采用一般音频格式存储,如果能将其所对应的乐谱自动识别出来,那么基于MIDI格式的音乐分析算法的应用价值就可以得到极大的拓展。当然乐谱自动识别的应用价值还远不止于此,在信号处理方面其本身所具有的研究价值也非常巨大。乐谱自动识别是计算机音乐分析与理解中的一个传统研究领域,相关文献报道比较多。从研究内容上看,乐谱自动识别可以分为以下几个方面:

  5.4.1音高估计与音符识别

  音高估计或音符识别是乐谱自动识别工作的基础。由于音高作为一个重要的音频特征,在语音识别以及一般音频分类、分析等工作中都有广泛应用,所以有关音高估计的文献比较多[72。75|,也存在一些经典的方法,如自相关法等。目前对于单乐器在实验室环境下所演奏的单个音符的音高估计是比较准确的,但是对实际的音乐作品或复杂条件下做音高估计则相当困难。Chang等提出了一种基于循环神经网络的音高估计方法[721,该方法减小了音高估计所需要的时间窗的长度因而可用于音高变化较快的信号,但是其计算量比较大。Kashino通过一种适应性模板匹配的方法可以对以立体声或单声道的形式存储的音乐进行自动音符识别[7引,他们的方法同时还可以识别出演奏该音符的乐器。Black等提出了一种基于泛化谱(generalized spectrum)的音高检测和估计算法[74|,他们将基于GS的方法与经典的自相关法和基于倒谱的方法进行了比较,实验结果表明他们提出的方法在音高检测问题上,特别是在信噪比较低的情况下要优于传统的方法,但是在估计精度上比传统方法略微逊色。Zhu等则提出了一种用于音调估计的新方法[7 5|,它既可以用于流行音乐也可以用于古典音乐。

  5.4.2节拍或节奏识别

  关于节拍或节奏识别方面的文章近年来有所增加[76-79].Goto等提出了一种针对不含有打击乐器(如鼓)的音乐节拍跟踪算法[7 6|.该方法不仅能够对间隔不超过四分之一音符的节拍信息进行检测,还能够在较大的时间尺度内对音乐节拍的结构进行分析,从而找到“和旋”等高级音乐结构的改变点。

  Smith则利用一种基于线性相位Gabor变换的小波分析技术对音乐的节奏信息进行分析[77|,他将可能的节奏信号分解为o.1Hz~100Hz的若干分量,再通过相位一致性约束对其进行分析。他的方法对单万方数据计算机学报声道的由打击类乐器所表达的音乐节奏比较有效。

  Gao等提出了一种基于最大后验估计的自适应学习方法用于音乐信号中的速度和节拍分析【78l,实验结果表明该方法较为稳定并且对分析窗宽的大小不十分敏感。Shiratori等则通过检测伴奏音乐的节奏来分析舞蹈动作的结构[7?.

  5.4.3旋律或和声提取

  音乐作品中的旋律与和声是一种非常重要的高级信息,但是如何从基于一般音频信号的音乐记录中将其提取出来是十分困难的,有关的文献报道并不多口”82|.Su等提出了一种基于小波变换和自组织神经网络的多音色和声自动识别方法[80I,他们的方法可以直接对和声音频片段进行分类而不需要知道具体的乐器音色和音符序列。Tang等介绍了几种从MlDI文件中自动寻找主旋律音轨的方法[8川,它们分别为AvgVel,PMRatio,SilenceRatio,Range,TrackName,经过实验比较发现TrackName法效果最好。Chang等也提出了一种和声识别方法[82|.该方法可分为两个阶段,在局部识别阶段给出可能的和声候选集,然后通过一些全局规则从中找出最合适的和声作为最后的结果。然而,如何从一般的WAVE文件中寻找或表示主旋律则是一个难题。

  5.4.4复调音乐乐谱识别

  多乐器(包括演唱者)混响下的乐谱识别与分析是非常困难的,然而在实际的音乐作品中往往存在着大量的复调成分,这也是为什么乐谱自动识别技术始终无法真正实用化的重要原因之一。有关复调音乐乐谱识别的文献不多,但是最近两年该领域的研究成果有所增加[83.86].Cem百l等提出了一种基于动态贝叶斯网络的复调音乐乐谱分析方法[83|,他们的方法强调了对声音产生过程的建模,可以对复调音乐的节拍和音高轨迹进行跟踪,Keren等利用多分辨率傅立叶变换系数对钢琴所演奏的复调音乐进行乐谱识别[84|.实验结果表明在对演奏加以若干限制的情况下,可以得到较好的音高检测结果。Miwa等研究了如何使用立体声音乐信号进行复调音乐乐谱识别[8引,他们通过比较两个声道信号值的比率将不同的音源分离开从而对“三重唱”进行乐谱识别。

  Marolt提出了一种基于听觉模型与自适应振荡器网络相结合的泛音跟踪技术,它可用于复调钢琴曲的音符自动识别[86|.

  5.5 自动伴奏

  自动伴奏是一个十分有趣的问题。一般情况下研究者们会给计算机提供机器可读的乐谱,这个乐谱既包括了乐队将要演奏的部分也包括了计算机将要演奏的部分。研究者们需要计算机解决的任务是一边“聆听”演奏者的演出,一边同步地为之伴奏,图5是一个典型的计算机自动伴奏系统的工作流程图。这个任务之所以困难是因为计算机的伴奏必需要与演员的演奏保持一致,而演奏者可能会根据演出的具体情况(比如听众的反应)而做出一些改变,此外演奏者本身也可能会犯错误,这就使得现实的演出经常会和曲谱之间产生差异。另一方面,要想及时、准确地知道演奏者的演奏进度是非常困难的,这需要一个十分可靠的、实时的乐谱自动识别与分析系统。有关自动伴奏研究的历史相对较长,Dannen—berg对1988年以前这个领域的研究状况做了很好的综述[3].20世纪90年代以后,有关自动伴奏研究的文献报道不算很多[87喝引。Raphael提出了一种基于HMM模型的单声道音乐信号中的音符与休止符检测方法[87。,通过检测实际演奏信号中的休止符并将其与已知的相应乐谱中的休止符位置进行匹配,就可以达到与实际演奏保持一致的目的。他还提出了一个用于自动伴奏的统计专家系统[8引,该方法可以通过利用先验知识、实时地从演奏者的演出信号中提取出诸如演奏速度等信息、学习演奏者的排练信号等手段改善伴奏效果。Aono等人开发了一套自动伴奏系统口9|,它可以利用普通的声学乐器(如钢琴、吉他等)为人们提供“即兴”伴奏(即不需要伴奏乐谱)。该系统还可以实时识别一些简单的和旋。在实验中,对一些4音符和旋的正确识别率可以达到95%。

  5.6音乐情感分析

  音乐是一种复杂的声音现象,许多无法用语言准确描述的思想感情(如喜、怒、哀、乐等)可以通过音乐表达出来,优秀的音乐作品往往会使人产生情感上的共鸣,但是如何描述音乐对人的情感的影响是非常困难的。在4.1.3小节中,我们介绍了Feng等人的工作口引,他们将音乐对人的情绪的影响分为“快乐、悲伤、愤怒和恐惧”四类并提出了相应的方法万方数据5期张一彬等:基于内容的音频与音乐分析综述对音乐进行分类和检索。Milicevic则设计了一种基于情感的模糊自适应系统凹?,它可以分析音乐并模仿听众可能的情感反应。研究者希望这个系统可以协助音乐家进行创作,以获得满意的实际效果。Li等将音乐中的情感检测看作是一个多类分类问题,并迸一步将其分解为一系列两类分类问题,最后通过训练一系列的SVM分类器来加以解决[91j.Liu等设计了一种被称为“情感环”的音乐情感模型,并在此基础上结合模糊数学的处理方法对一种铃声音乐进行了情感分析[92|.早在1988年,Katayose等人就提出了一个有关音乐情感分析的研究框架[93I.在他们的研究计划中,音乐情感分析可以分为三个步骤:第一步为乐谱自动识别,在这一步中音乐演奏的音频信号被翻译为音符序列;第二步为音乐粗分析,在得到音符序列的基础上,结合乐理知识从音符序列中提取出诸如节奏、和声、旋律等音乐高级结构;最后,在此基础上通过设计一系列启发式规则来实现音乐信号中的情感提取。实际上由于种种技术困难无法突破,这个计划中的任何一步到目前为止都无法很好地实现。

  5.7 小结

  与语音信号处理与识别相比,计算机音乐分析与识别是一个新兴盼研究领域,其中包含了大量的问题有待于学者们去进一步探索和研究。面对音乐这样一种复杂的、非自然的声音现象,我们该如何对其进行分析和研究呢?这本身就是一个有趣的课题。从大量的研究成果来看,基本可以分为两种思路:一种是自底向上的研究方法,即分析法,例如乐谱自动识别等。这类方法首先着眼于识别比较微观的音乐元素,并希望在此基础上进一步对宏观的音乐现象进行分析。但是由于音乐信号的高度复杂性,即便是对一些微观的音乐元素在复杂情况下也很难达到较为理想的识别率,如复调下的音符识别等;另一方面由于实际应用的需要,我们又希望能够对一些涉及到音乐理解层面的问题进行分析和研究,如音乐情感分析等。这时采用基于数据驱动的机器学习方法就成为了一种比较自然的选择,但是单纯采用这类方法很难触及到问题的实质。如何提取本质特征便成为了解决问题的关键。由于计算机音乐分析与识别本身具有多学科交叉性,模式识别、信号处理等只是我们的研究工具和手段,所以如何更好地利用音乐理论自身提供的知识将会成为该研究领域的一个发展方向。

  6、其它相关工作

  6.1计算机音乐合成

  所谓计算机音乐合成是指利用计算机自动生成音乐演奏或演唱中的一些特殊的效果、音色甚至具有某种风格的音乐作品。它可以分为以下两部分:

  6.1.1 音效合成

  音效合成是指利用计算机自动生成音乐演奏或演唱中的一些特殊的效果和音色,例如:Meron等研究了如何通过计算机手段自动生成美声唱法中的颤音效果[9 4I.他们把所谓的颤音效果建模为对某个演唱音高的调制,但是简单的串联调制合成法不能产生出自然的颤音效果。在他们的方法中,通过确保调制前的原始音高与调制后的颤音的相位一致,可以最小化所需的调制量从而得到更为自然的颤音效果。Bradley等则研究了如何自动合成高质量的吉他音色[9 5|,为此他们提出了一种改进了的吉他琴弦震动模型和吉他琴体声学模型。

  6.1.2 自动作曲

  我们经常可以发现某个作曲家的作品会具有某种特殊的风格。那么有没有可能通过分析这个作曲家的大量作品,从而利用计算机来自动创作出类似的音乐作品呢?或者通过分析具有不同风格的大量音乐作品,从而利用计算机来生成全新风格的音乐作品呢?这显然又是一个十分有趣和困难的问题,这样的研究工作被称为计算机自动作曲或自动创作H’96。98|.Cope于1991年介绍了他的EMI(Experi—ments in MusicalIntelligence)研究计划[96I,构想中的一个EMI子计划是一个专家系统,它可以利用模式识别技术来创造“重组”音乐。首先它将音乐作品分解为由音符组成的若于模式,然后对其进行分析,最后将这些模式重新组合起来从而创作出新的“音乐”。Tseng设计了一个基于内容的音乐自动检索系统——“Crystal”[97……它的一个特点是可以随机地生成一些旋律片段,用户可以试听这些旋律片段并选择其一作为查询内容,从而实现“o输入”情况下的基于内容音乐检索。Srinivasan则利用线性预测技术对音乐的动态特性进行分析,在此基础上提出了一种“音乐即兴创作”技术,并将其用于为视频自动生成背景音乐[9引。20世纪90年代以后,随着遗传算法和进化计算技术的迅速发展,许多学者将其应用到计算机自动作曲领域中来。Burton等对该技术在计算机音乐分析领域中的应用做了全面的综述[4].

  6.2 其它工作

  还有一些其他的有关计算机音乐分析与理解方面的工作,列举如下:Rothman等研究了如何通过一个人的语音特性分辨此人是不是职业歌手[9 9……Fragoulis等研究了高质量的CD音乐与其它相应的低质量的、严重变形的音乐(如广播音乐)之间的匹配与识别问题[1”:。Politis等则通过心理学的方法将不同的音乐现象与不同的色彩联系起来并绘制出“音乐图像,[1。川,他们试图通过这种方法来揭示~维音乐信号中的“隐藏维数”。1wahama等提出了一种基于MIDI音乐的网上自动推荐系统[102].文献[103]则对音乐水印技术及其应用进行了研究。

  7、总结与展望

  本文对近年来基于内容的音频与音乐分析领域所取得的研究成果进行了全面的综述。从研究对象上看,由于音乐在人类社会中所占有的特殊地位,它必将成为音频处理领域中继语音之后的又一个研究热点。由于音乐是一种十分复杂的声音对象,这种复杂性无论是在形式上还是内涵上都得以充分的体现。和语音信号相比音乐还具有非语义符号性和很强的模糊性,这使得它比语音信号更具挑战性。从目前的研究状况和应用需求来看,在可预见的将来,基于内容的音乐自动分类和检索以及乐谱自动识别等仍将是计算机音乐分析与识别领域的主要研究方向,有关音乐理解方面的研究(比如音乐自动摘要、音乐情感分析等)也会成为重要的研究热点。

  此外,音频处理技术与视频处理技术相结合的视听多媒体数据分析是另一个很有前途的研究方向。传统的方法一般从视频信息人手去寻找线索,对视听数据进行分割,音频数据中所包含的信息没有被利用上。但是在许多情况下,单纯使用视频分割方法是非常困难的,如果能将音频信息利用起来无疑可以大大提高分割效率。由于音乐在多媒体中的音频部分占有很大的比重,如果可以将音乐分析和识别的技术与视频分析技术相结合的话,那将为多媒体数据的分割、检索带来极大的便利。目前这个研究方向已经成为了一个研究热点,相关的文献报道也比较多。但令人遗憾的是,大多数研究成果往往只是将音频分析技术简单地用于视频分析,而没有做到和视频分析技术有机地结合起来,实现算法上的优势互补。如何将音频分析技术与视频分析技术更加完美地结合起来已经成为这个研究方向所面临的主要难题之一。

【基于内容的音频与音乐分析综述】相关文章:

基于顾客价值的需求,流动网挖掘策略分析06-04

基于组织行为学分析沃尔玛企业文化05-01

基于成交量标度的股价动力学分析05-12

文献综述格式09-27

论文综述的格式12-20

基于主成分分析及二次回归分析的城市生活垃圾热值建模08-06

蓝牙技术在音频网关中的应用05-29

电视广告的音乐分析论文04-22

化学综述论文12-22

基于业务和财务视域分析企业IT预算管理05-16