
根据外国媒体《新地图集》的报道,想象一个计算机程序可以直观地识别出在无声钢琴演奏视频中正在播放哪首音乐,这并不夸张。 然而,新的人工智能系统又向前迈进了一步,以数字方式真实再现了钢琴演奏的声音。
访问:
阿里云“暖云”主题活动3000万补贴助中小企业突破寒冬
这项技术称为Audeo,由华盛顿大学的一个团队设计。 研究人员使用钢琴家Paul Button的YouTube视频对系统进行了培训和测试。 培训内容包括大约17.2万个Patton视频帧,播放巴赫和莫扎特等著名古典作曲家的音乐。
在分析无声视频时,生成的系统首先观察按键的按下顺序,并确定各个音符及其排列方式。 换句话说,它还可以感知每个按键的强度和按下的时间,从而可以计算每个音符的强度以及在后续音符下持续的时间长度。 。 它还考虑了钢琴的独特声学特性。 然后,将数据转换为现有数字合成器可以理解的格式。 据报道,合成器播放音乐文件时,听起来很像原始钢琴音乐。
在Audeo的测试中,其任务是根据Patton播放的无声视频而不是系统训练的音乐作品来再现钢琴音乐。 当诸如SoundHound之类的音乐识别应用程序分析这些复制品时,它们可以约86%的精度识别音乐。 相比之下,当这些应用程序分析同一视频中的原始钢琴音频时,其识别准确率将攀升至93%。 随着技术的进一步发展,这种差距应缩小。
这项研究的资深作者埃利·谢里兹曼(Eli Shlizerman)副教授说:“我们希望我们的研究能够开辟与音乐互动的新方式。 “例如,未来的应用是Audeo可以扩展到虚拟钢琴,并且摄像机仅记录一个人的手。此外,通过将摄像机放置在真实的钢琴上,Audeo可以帮助教给学生新的演奏方式。”