当前位置: 编码机 >> 编码机发展 >> 柯南领结变成现实,字节跳动SAMI发
机器之心报道
机器之心编辑部
这项技术未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。
字节跳动智能创作语音团队SAMI(Speech,AudioandMusicIntelligence)近日发布了新一代的低延迟、超拟人的实时AI变声技术。不同于传统的变声,AI变声是基于深度学习的声音转换(VoiceConversion)技术来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。
该方案的亮点如下:
在CPU单核上就能做到极低延迟的实时输入实时变声,就像“柯南领结”一样;
能够高度还原输入语音的抑扬顿挫、情感、口音,甚至连轻微的呼吸、咳嗽声也能还原;
媲美真人的高保真音质,以及高度的目标音色一致性;
从语音合成到声音转换:探索更多元的声音玩法
语音合成作为人工智能的一个重要分支,旨在通过输入文字,经由人工智能的算法,合成像真人语音一样自然的音频,该技术已被广泛的应用于音视频创作场景中。而相比语音合成,声音转换创造了新的语音交互形式:其不再需要输入文字,而是根据用户输入的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情感等一致。相较于输入文本,输入音频包含了更丰富的副语言信息,例如各个段落的情感、抑扬顿挫、停顿等。声音转换能够做到改变音色的同时,将这些副语言信息很好的还原。
同基于深度学习的语音合成一样,声音转换的模型也由声学模型(acousticmodel)和声码器(vocoder)组成。声学模型通过内容编码器从输入音频中提取出发音内容序列,并通过音色编码器从参考音频中提取出音色特征,最后通过声音转换模型生成带有输入音频内容和参考音频音色的频谱;声码器负责将声学模型生成的频谱还原为能够被设备直接播放的音频采样点:
面向实时场景的声音转换模型优化
相较于非实时场景下对完整音频的声音转换,实时声音转换有着更加丰富的落地场景。典型的场景包括直播、虚拟人这类实时交互的娱乐场景,变声的结果需要在很短的延迟内实时流式的生成,才能保证音画同步。
实时声音转换的难点在于:1.模型在每个时刻只能获取到很短的未来音频片段,因此发音内容的正确识别更加困难;2.流式推理的实时率(计算时长/音频时长)需要稳定小于1,因此在设计模型时需要更加
转载请注明:http://www.aideyishus.com/lktp/3218.html