近日,中国多媒体大会(ChinaMM2023)在云南昆明召开,大会聚焦多媒体领域技术与应用发展,集结了多媒体领域专业人士。快手高级副总裁、研发线负责人于冰受邀在大会上发表了《AGI时代下智能媒体技术前沿进展与思考》主题演讲,结合快手在多媒体技术领域内的创新实践,分享快手的技术前沿进展及相关思考。
自2011年成立至今,快手已经发展成为国民级短视频直播数字社区,在用户、内容、商业等方面保持良性增长态势。而快手社区生态的蓬勃发展,离不开快手长期的巨大投入,以大规模自研技术支撑业务发展。
回顾快手过往经历,于冰表示,业务发展会经历入局、成长、成熟等多个阶段,在业务发展的不同阶段,快手所采取的研发策略也各有侧重。创新成长期更注重持续投入,探索新产品、新周期;而成熟阶段则需聚焦优化效率,兼顾体验,既保证产品体验的竞争力,又保证业务的稳健成长。
【资料图】
于冰以快手音视频业务为例,目前该业务已步入成熟期,研发策略重点也转移至提升效率、优化成本,追求单位成本下算力、存储和网络使用效率的提升。快手基于自研视频质量评估KVQ、视频增强修复KEP和KRP、视频压缩编码算法KVC等一系列核心技术,形成数据驱动的视频处理闭环,在兼顾体验的同时极致压缩视频。
2022年,快手技术toB业务StreamLake推出了首款自研智能视频处理芯片SL200,该芯片集成了快手领先的视频编解码、图像处理、AI推理、内容自适应编码等关键技术,具备高质量、高密度、智能化的特点,在业内处于领先地位。在今年7月举办的MSU2022世界编码器大赛中,SL200一举夺得4K和1080P赛道24项指标中的16项第一。在本届大会上,SL200也荣获了中国多媒体企业创新技术奖。目前,SL200芯片已全面应用于快手的直播和短视频业务,实现成熟技术通过StreamLake对产业赋能。
而在数字人领域,快手也取得了诸多领先成果。快手全链路自研了光场扫描重建、超写实人像建模、智能绑定、动作捕捉与驱动、物理仿真等数字人核心技术,推出「快手虚拟演播助手(KVS)」和「快手智播」两大解决方案;结合内容平台在品牌营销领域的独特优势,在美术、技术、运营、营销等多个维度赋能,打造了百万粉丝虚拟主播关小芳、蒙牛集团首位虚拟员工奶思等多个知名IP。未来,结合智能编曲、图像/视频生成、LLM等AI能力,快手数字人技术将继续在文旅、教育、游戏、直播电商等领域广泛应用,助力客户打造高品质低成本的3D和2D数字人。
随着多媒体与AI技术的深度结合,快手持续深耕AI技术,推动产品形态、用户体验发展,探索短视频业务的第二曲线。于冰认为,AI大模型作为当下最重要的革命性技术,进入爆发期,有望开启AGI时代,而多模态内容生成与理解是其核心能力。
当前,多模态AI大模型因其在文本、代码、图像和视频等多种内容上突出的生成与理解能力,有望为视频生产、理解、分发、消费等全链路打开新的技术视角,突破传统音视频编码的技术天花板,突破基于用户行为的搜广推算法的传统思路,将视频内容创作从PGC、UGC带动进入AIGC时代,创造AI大模型驱动的视频内容创作工具,激发创作者的创意空间,高效率、低成本地生产高质量的视频内容。
而短视频、直播作为最典型的多模态媒介,快手也抓住平台基因,在AI大模型领域重度投入,全方位探索技术突破。于冰介绍,目前,快手在AI大模型的布局体系分为三个层级:基于具备高性能、高并发、高算力的“大基建”,构建快手多模态的AI“大模型”,进而在搜广推、内容创作、用户增长、研发效能等领域内打造“大应用”。
例如在搜广推领域,快手搜广推算法已达到国际领先水平,相关成果获得信息检索与数据挖掘领域国际顶级学术会议CIKMBestPaper、SIGIRBestPaper-HonorableMention等荣誉,目前快手突破传统基于用户行为的技术思路,探索更深层次的模型网络,开拓推荐模型,利用内容生成与理解来探索深层次用户兴趣的新路径。
同时,在多模态AI大模型的加持下,AI技术和工具可全方位地赋能影视创作者,助其在创作、拍摄、后期等各阶段激发创意、提升效率和内容质量,影视制作的周期也能大幅提高,过去花费数年拍摄的大片有望数月完成。
技术发展从萌芽到成熟,不仅仅靠企业自研,也需要高校科研机构的人才赋能。此前,快手先后与清华大学、中国科学技术大学北京研究院、中国人民大学建立联合科研机构,与全球顶尖高校、实验室建立科研合作,共同探索音视频、多媒体和AI领域的前沿技术,联合培养科研人才。
“学术界有顶尖的技术和优秀的科研人才,工业界则具备真实的应用场景,拥有海量数据和大算力的优势,两者深度合作、双向赋能,其价值将成倍放大。”于冰表示,一方面,技术的突破将在互联网业务中得到规模化使用,产生巨大的经济效益和社会效益;另一方面,互联网真实的场景、海量的数据、强大的算力,也能助力科研技术不断迭代。未来,快手将持续促进产学研生态完善,向学术界开放场景、数据和算力,共同探索AGI时代智能媒体新技术,以技术赋能行业创新与发展。
云南网记者刘畅