5月31日,超集信息联合CCF计算机视觉专委会共同举办"生成式大模型研究趋势及其高效训练技术交流会",现场不仅有算力升级及资源优化解决方案探讨,更有南京大学王利民教授、华中科技大学王兴刚教授、浙江大学赵洲教授、哈尔滨工业大学左旺孟教授等多位行业大咖带来最新研究成果、技术突破及未来趋势分享,旨在共同助推人工智技术创新与进步。
会议开场,苏州超集信息科技有限公司销售及市场副总裁廖治国指出随着生成式AI大模型在多个领域的创新应用,我们日常生活迎来了前所未有的变革。但随着科研深入,算力资源供给和日常使用问题日益凸显,成为人工智能实现普惠的最大难点。面对科研等多场景用户的迫切算力需求,超集信息将持续输出更高效、更稳定、更绿色的高性能计算解决方案,助力更多应用落地,共同助推科技进步。
"人工智能"顾名思义就是希望计算机可以和人类一样去认知,去思考,而人类在信息获取、环境感知、知识学习和表达等方面都是采用多模态的输入、输出方式,随着人工智能技术等产业发展逐步深入,"多模态"研究的大势所趋已十分明朗。南京大学王利民教授在报告中为我们带来了InternVideo模型、自监督预训练方法VideoMAE、多模态视频弱监督预训练方法UMT和多模态视频交互对话模型VideoChat等前沿技术分享,为多模态视频理解提供了重要技术支撑。
同时,文本、图像、3D资产等多模态内容的高质量生成都依赖于生成模型中的高效表征学习,华中科技大学王兴刚教授在图像视频生成领域,研究了Diffusion模型中的低复杂度序列表征,克服了Diffusion Transformer的复杂度高的问题;在高质量文本QA问题上,研究了专有模型和大语言模型之间的通用接口;在3D内容生成方面,提出了动态场景中的4D Gaussian Splatting表达,通过高效的多维度表征学习全面提升了内容生成的质量和速度。
当然,如何利用多模态技术在多种应用场景中实现真正应用落地,是我们需要考量的重要议题。浙江大学赵洲教授基于模态异构语义鸿沟、可泛化视频内容生成和低延时语音合成等技术,通过理解和模拟人类交流方式(包括语言、视觉和听觉等多个方面)实现了机器和人类更自然的交互,提供了更加丰富的用户体验,助力多模态技术实现多场景高效落地。
文生图模型作为当下热点,是多模态技术发展的重要方向。但相对于通用图像生成,许多应用需求中都会涉及特定个体或特定布局的生成。对于此,哈尔滨工业大学左旺孟教授带来了针对特定个体定制化图象生成的高效编码网络Elite方法、结合人脸定制化生成的MasterWeaver方法、针对特定布局图像生成的动态生成和开放域正则法等技术分享,为视觉内容生成提供了新的助力。
技术推动着科技发展,算力则支撑着技术研发。会议最后,面对生成式AI大模型训练&推理所需的算力建设、算力选择与优化、算力调度、算力资源高效利用等问题,超集信息资深售前工程师沈佳威结合多场景用户实际需求,带来了高性能工作站、智能液冷数据中心及PlatforMax智算融合平台等全方位计算解决方案分享,旨在助力更多客户高效应对日益复杂的计算挑战。