底座+能力+应用！科大讯飞研究院高建清分享讯飞AIGC布局-极速天气

2023年，AIGC爆发出前所未有的发展潜力，其中不断完善的深度学习模型、开源模式的推动，以及大模型探索商业化的可能，成为了AIGC发展的“加速度”。AIGC或将会改变内容领域的生产方式，带来整个行业的变革。

3月29日，量子位主办的中国AIGC产业峰会在北京举行。大会以「Hello New World」为主题，AIGC领域学界、产业界的专家学者齐聚一堂，从产学研等多维度，覆盖大公司玩家、创新创业公司、学研和创投代表，全方位探讨和分享中国AIGC产业的现状、机遇和未来。科大讯飞AI研究院常务副院长高建清受邀参加并作主题演讲。

在《AIGC技术探索与应用创新》的演讲中，高建清分享了基于文本预训练、多模态预训练、多元异构基础资源构建、异构集群构建及大模型训练套件，讯飞在音频创作、视觉创作、文本创作等方面的研究和应用。

高建清表示，科大讯飞的AIGC整体布局可以总结为三层架构：“底座+能力+应用”，是，形成了音频创作、视觉创作、文本创作三大AIGC能力，进而衍生出在教育、医疗、人机交互等领域的丰富应用。

关于“底座”，科大讯飞以文本预训练、多模态预训练、多元异构基础资源构建、异构集群构建及大模型训练套件为技术底座，充分培养出强大的AIGC能力，并能结合实际应用。此前，科大讯飞拥有的扎实技术积累就已经铸就了其语音AI龙头地位，凭借其在语音合成、语音识别、机器翻译以及自然语言理解等核心技术上的深厚的积累，在AIGC火热的背景下，自然拥有着乘风而起的底气。

关于“能力”，科大讯飞由底层技术延伸出的三大AIGC能力分别为音频创作、视觉创作和文本创作。

在音频创作方面，多风格多情感语音合成系统SMART-TTS是讯飞研究院此次的重磅技术突破之一。高建清分享了科大讯飞研究院在虚拟声音自动创造和多风格多情感语音合成系统SMART-TTS上的技术进展和成果，抛弃生硬的机器人“口音”，语音合成将变得更加具有“喜怒哀乐”。在此创新下，语音合成从依据真人生成走向语义可控生成，音色、韵律、口音等还可根据自己需要进行控制和调整。

在视觉创作方面，你对AIGC的印象还停留在“AI作画”吗？现在，制作独一无二的虚拟人才是最“潮”玩法！

作为国内较早开展虚拟人技术研究的人工智能公司，早在2018年，科大讯飞就发布了多语种虚拟人口唇驱动，2021年发布2D真人捏脸系统；目前已形成了从3D虚拟形象口唇表情和动作的AI驱动到AI贯穿3D形象构建的全流程。目前，科大讯飞AI虚拟人已广泛应用于媒体、金融、文旅、教育、政企等多场景。。随着AIGC的发展，其AI生成的应用场景将更加广阔。

基于在AIGC各方面的技术积累与行业应用经验，讯飞推出了AIGC内容创作平台——讯飞智作和讯飞音乐的词曲家平台。讯飞智作平台为用户提供AI配音、虚拟人音视频播报、声音定制、形象定制等服务，一键生成定制化音视频，其平台界面清晰，操作简单，使用门槛低，真正实现让AIGC的技术飞入寻常百姓家造福社会。作为面向广大词曲作者和采买方的词曲创作交易平台，词曲家平台不仅提供了辅助作词、辅助作曲和歌曲试音、质量分析等AI辅助工具，还能够帮助广大音乐人有效缩短交易路径，获得更多收益与安全交易保障，助力词曲创作交易良性发展。

高建清在大会上表示，讯飞将在认知智能大模型核心技术的研发基础上，重点结合教育、医疗、人机交互、办公等若干领域方向进行应用落地探索，并将持续赋能行业，促进数字经济发展与产业进步。

科大讯飞此次AIGC布局的分享，展现了其在技术层面的强大底气，致力于用AI技术赋能行业及个人，其在具体应用场景上所体现出的企业社会责任感只增不减。

本文来源：财经报道网