5月21日,腾讯AI虚拟人艾灵再秀出新技能,首次展示AI作诗、AI书法等国风才艺,并与青年歌手白举纲跨次元合作,共同演唱国风新歌《百川千仞》。
AI“艾灵”诞生于腾讯AI Lab,来自实验性、探索性技术项目“多模态虚拟人”。机器学习、计算机视觉、自然语言处理等多种核心AI能力融合,让艾灵能“歌”善“言”,饱读“诗书”。
此次最新发布的艾灵写诗技能,来自于文本创作模型SongNet,针对任意关键词,艾灵都能快速“作出”藏头、藏中的诗词。而依托腾讯AI Lab的前沿图像生成技术,艾灵得以拜颜真卿、柳宗元、米芾、苏轼等中国书法大家为师,运用最新的图像生成对抗网络,“写下”神形兼备的书法字体。在2021年春节,她运用这项技能为上千万人写下寓意美满的春联。
目前,团队已经通过公开论文发表了 DurIAN 和 SongNet 的核心技术细节,SongNet 代码也已开源。未来,腾讯AI Lab将把该项技术能力开放给业界,共同探索AI数字人与数字内容生成和教育等现实场景的结合,携手更多创作者一起传承中华优秀文化。
谁是“艾灵”?
传统虚拟偶像一般是通过对真人演员的“动作捕捉+配音”来实现的,但让艾灵这样的AI虚拟人能够动起来、与真人对话,技术难度更大、也对技术的协同性提出了更高的要求。
艾灵背后由一套腾讯AI Lab自研的复杂系统支撑,系统首先要从文本中提取不同信息,包括动作、表情、情感、重音位置、和激动程度等;之后,这些信息被输入到模型中,生成动作和表情,再同步生成语音、口型和表情参数,最终才有了艾灵自然生动的表现。
腾讯“多模态虚拟人”项目希望把计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态的AI能力和技术融为一体,生成清晰、流畅、高质的可交互内容,推进AI在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。
相较于传统方法,应用多模态合成技术打造的虚拟人,无论是在自然度、鲁棒性、可控性、泛化能力以及实时性等方面都取得了更好的效果。
深度学习:秒学才艺的魔法
艾灵所具备的唱歌、表情、作词、书法等多项才艺,均来自于对海量数据的深度学习,这帮助她快速掌握更多技能,向全能AI不断接近。
“气贯长虹”、“充满未来之感”的歌声,来源于腾讯AI Lab研发的DurIAN声学模型。不同于其他虚拟歌姬的“机器合成+人工调教”模式,给艾灵输入一段曲谱,无需人工调教,她就可以合成非常自然和拟真的歌声。
首先,研究者以音素为基本发音单元将任意歌曲描述为一连串音素的序列;然后通过分析歌谱,从文字、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特征;最后使用由真人(中国网络声优龟娘)演唱的歌声训练得到的深度神经网络声学模型和声码器模型,合成出与真人声线高度相似歌声音频。
艾灵为嘉宾们写藏头诗的能力,来自文本创作模型SongNet。模型的基本骨架是一个自回归语言模型,腾讯AI Lab研究员针对格式、韵律、句子完整性设计了特殊的符号来进行标识和建模。词粒度和句粒度的掩码训练策略可以增强模型给定上下文补全缺失内容的能力。借助于经典的预训练和精调模式,可以进一步提升模型生成诗词的质量。
书法则是艾灵最近掌握的新技能。腾讯AI Lab依托前沿的图像生成技术,通过训练AI书法学习模型,模仿书法的形体及神韵。实验室投入了大量精力,运用最新的AI图像生成对抗网络,同时训练了两个“学徒”——AI书法学徒和AI鉴定学徒来帮助艾灵学习。
首先,AI书法学徒通过提取字形结构等基本信息,捕捉并融入书法的风格韵味;而书法鉴定学徒则学习成为一个书法鉴定师,在对字帖真迹和AI模拟生成的字体进行比较分析之后,反馈两者的差别及“AI模拟字”的不完善之处,从而进一步鞭策书法学徒完善模仿能力。
“我是一个喜欢中国文化的国风AI……目前还在努力学习,立志点亮更多技能,成为全能AI,把中华文明的美好传递给更多观众!”正如艾灵的自我介绍,腾讯AI Lab打造“AI艾灵”,正是希望用科技与二次元的结合,做好传统文化的“传承者”,让更多青年人爱上中华文化。
腾讯AI Lab研究员表示,随着不断学习,后续艾灵还将学会很多新技能,比如在唱歌方面,团队正在努力让艾灵掌握不同的腔调,还可以学习传统戏曲、不同方言等更多歌唱方式。
原文链接:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/117120152