喜马拉雅ai音频研究成果再获世界顶级学术会议icassp 2022认可-足球即时指数

发布时间:2022-02-16 16:46:42   来源:足球即时指数-足球推荐    
字号:

用手机扫描二维码 在手机上继续观看

手机查看

近日,由国际音频顶级会议icassp(international conference on acoustics, speech, and signal processing,国际音频、语音与信号处理会议)联合阿里巴巴发起的icassp 2022多通道多方会议转录挑战赛(m2met)落下帷幕,喜马拉雅智能语音实验室和中国科学技术大学合作,在说话人日志赛道获得第三名。同时,相关论文已经被icassp 2022收录,并受邀于今年5月份在新加坡举办的线上/线下会议中进行展示,这是今年喜马拉雅的第二项研究技术成果得到icassp 2022的认可。

此前,喜马拉雅自研的跨语言语音合成创新技术论文有关跨语言语音合成创新技术的论文已被icassp 2022录用。icassp是由ieee(电气电子工程师学会)主办的在信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。今年是icassp的第47届会议,会议主题为“以人为本的信号处理”。

而m2met挑战赛是icassp2022信号处理大挑战(grand challenge)之一,包括说话人日志和多说话人语音识别两个赛道,旨在进一步促进该领域的深入研究。喜马拉雅和中国科学技术大学合作在说话人日志赛道取得了4.05% 的日志错误率(der)结果,名列第三位。 第一、第二名分别由昆山杜克大学的李明教授团队(2.98%)和腾讯-香港中文大学团队(3.98%)获得。

说话人日志技术,也称说话人分段聚类,通过记录多说话人音频数据上属于特定说话人的语音事件来解决“谁在什么时候说话”的问题,比如在语音聊天室场景中,可以告诉开会者当前谁在说话。同时,该技术也在其他相关的语音处理技术中扮演着重要角色,比如会议转写的语音识别,或者为语音分离、vad等其他语音技术提供关键的先验信息。

会议场景是语音技术应用中最有价值、同时也是最具挑战性的场景之一。因为这样的场景包含了丰富的讲话风格和复杂的声学条件,需要考虑到重叠语音、数量未知的说话人、大型会议室中的远场信号、噪音和混响等挑战。而此次的m2met挑战赛便聚焦中文会议数据,对参赛团队提出了挑战。

为了提高日志准确率,喜马拉雅和中国科学技术大学合作研发的系统,在语音的预处理上,首先使用麦克阵列技术对信号进行降噪、降混响,使得信号相对纯净,之后使用基于深度学习的声纹模型和谱聚类方法,对多人远场数据进行初步处理,并使用多通道标签融合技术对不同通道的结果进行融合,进一步提升准确率。

由于在挑战赛的会议场景中,多人同时说话的比例达到30~40%,传统聚类方法在该场景下会产生极高的漏判错误(miss error),因此喜马拉雅创新研发的系统还使用target-speaker vad将聚类问题转化为多标签问题处理,并使用神经网络进行建模和训练。在采用多种数据增强和后处理策略后,成功将der由基线的15.6%降低到4.05%,基本达到了实用要求。

喜马拉雅已在ai语音技术领域潜心钻研多年,并在内部专门成立了喜马拉雅智能语音实验室这一核心部门,长期专注于语音合成、识别、语音信号处理、编解码以及智能音效的研究和开发,而这次说话人日志技术的研究成果便来自于这一部门。目前,喜马拉雅已经在研发类似会议场景的多人同时会议转写项目,其中说话人日志解决了谁在什么时候说话的问题,大幅度提升了撰写效果。未来,喜马拉雅的说话人日志技术,也将可能被应用到更多场景中,比如语音聊天室,告诉参与者当前谁在说话;又比如喜马拉雅的ai文稿,说话人日志技术通过提供说话人的信息,有利于进一步提高ai文稿的准确率。

除了说话人日志,喜马拉雅的tts(语音合成)技术也处于行业前列,并已经广泛被运用于评书、新闻、小说等多种内容的制作中,正助力喜马拉雅在现有的“ugc pgc pugc”内容生态之外,进一步拓展aigc的可能性。

2021年,喜马拉雅通过将自主设计单独的韵律提取模块融入到 hitts 技术框架,完美复现了单田芳的“声音”,目前已用单田芳的ai合成音上线了超过80张的“单田芳声音重现”专辑,其中,《毛氏三兄弟》和历史类作品的声音完播率远超过普通人声作品,为未来出版物大量有声化提供了新的足球即时指数的解决方案。此前喜马拉雅被icassp 2022s收录的自研跨语言语音合成技术,未来将可能让我们听到单田芳先生的“声音”来播讲英文内容。同时,2021年,还有新京报、环球时报、潇湘晨报、时代周报、海外网、刺猬公社等众多主流媒体入驻喜马拉雅,借助喜马拉雅tts技术加速制作新闻类音频节目,让听众有了更多的渠道听到更权威的新闻。

未来,喜马拉雅将持续投入语音技术的研发升级,不断创新和突破,进一步打开对于声音的想象,让技术加持声音、让声音服务生活。


环境与生活网-《环境与生活》杂志社足球即时指数官网足球即时指数的版权与免责声明:

① 凡本网注明“来源:环境与生活网或《环境与生活》杂志”的所有作品,足球即时指数的版权均属于环境与生活网,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:环境与生活网”。违反上述声明者,本网将追究其相关法律责任。

② 凡本网注明“来源:xxx(非环境与生活网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

③ 如因作品内容、足球即时指数的版权和其它问题需要同本网联系的,请在30日内进行。

分享到微信朋友圈

×

打开微信,点击底部的“发现”,

使用“扫一扫”即可将网页分享至朋友圈。

新闻
财经
生态
科技
  • 栗战书在黄河保护法实施座谈会上强调 贯彻习近平总书记关于黄河流域生态保护和高质量发展的重要指示精神 推动黄河保护法贯彻实施
  • 栗战书主持召开十三届全国人大常委会第一百三十三次委员长会议 决定十三届全国人大常委会第三十九次会议2月23日至24日在京举行
  • 粮稳天下安:中国全方位夯实粮食安全根基
  • 习近平会见沙特国王萨勒曼
  • 李克强会见世界银行行长马尔帕斯
  • 栗战书同尼加拉瓜国民议会议长波拉斯举行会谈
  • 李克强抵达金边出席东亚合作领导人系列会议并对柬埔寨进行正式访问
  • 习近平在第五届中国国际进口博览会开幕式上发表致辞
  • 北交所上市公司去年合计营收增逾两成
  • 住房租赁市场融资渠道全面拓宽
  • 新一期贷款市场报价利率未作调整
  • 能链智电ceo王阳:绿色金融是新能源产业发展的加速器
  • 2022年中国银联足球即时指数的合作伙伴峰会召开——联接创造价值,共助商户经营
  • 积极触网,推动产品“破圈” 老品牌“在线”越活越年轻
  • 银保监会拟完善人身保险行业个人营销体制
  • 前三季度北交所上市公司营业收入同比增长33.25%
  • 绿色电能助力乡村生态游
  • 深圳2172个工业园区完成转供电改造 年减少企业用电成本超30亿元
  • 能链智电以充电碳减排助力进博会打造零碳会议
  • 零碳智慧园区怎么建?能源思享汇给出港华答案
  • 服务构建新发展格局 奋力推动高质量发展 谱写中华民族伟大复兴电力新篇章
  • 倡导绿色可持续发展理念 施耐德电气助力2022北马开跑
  • 聚焦服贸会“双碳”技术 看科技如何助力绿色转型
  • 生态环境部公布第六批生态环境执法典型案例(环境影响评价管理领域)
  • 央企全力做好基础产品保供稳价
  • 第二届中国数字碳中和高峰论坛在成都举行
  • 华龙一号批量化首堆漳州核电1号机组外穹顶吊装成功
  • 更多支持政策将出 2023年光伏新增装机或超95gw
  • 隆基创硅太阳能电池效率新纪录
  • 智能巡检、智慧施工、智控工厂……记者实地探访“5g 工业互联网”应用成效
  • 数据中心刷新“绿色标准”
  • 我国油气领域关键核心技术旋转地质导向获突破
网站地图