继现象级的ChatGPT之后,最近几天我们再一次被人工智能刷屏,各大科技公司大招频出,可谓神仙打架,吃瓜群众们纷纷拍板叫绝。
先有NVIDIA发布了可于本地端运行的AI模型Chat with RTX,紧接着谷歌突然发布了最高可支持10,000K Token上下文(GPT-4 Turbo只能处理128k Token)的新一代多模态大模型Gemini 1.5 Pro,最后来自OpenAI的人工智能文生视频大模型Sora更是技惊四座,震惊了整个科技圈。
Sora拥有三大突出亮点:
1、60秒长视频,Sora可以保持视频主体与背景的高度流畅性与稳定性。
2、单视频多角度镜头,Sora在一个视频内实现多角度镜头,分镜切换符合逻辑且十分流畅。
3、理解真实世界的能力,Sora对于光影反射、运动方式、镜头移动等细节处理得十分优秀,极大地提升了真实感。
其实,视频生成AI并不是新技术,目前市场上已有大量应用,包括基于文本的视频生成AI——Gen-2、Pika、Imagen Video;基于图像的视频生成AI——Genmo、PixVerse、D-ID。诚然,Sora能够生成高流畅度,高分辨率,逼真自然的视频,但仅凭此绝不足以称为对人工智能技术的颠覆。那么,Sora的颠覆性到底在哪呢?
Sora能够生成非常逼真的视频,关键在于其极高的自然语言理解能力和可以模拟各种各样的物理现象和角色行为,例如火焰、水流、物体碰撞和角色运动等。对真实世界规则的理解、重构和模拟,才是Sora真正的颠覆性所在。
Sora采用了以Transformer为骨架的Diffusion Model(扩散模型),通过分析视频来捕捉现实世界的动态变化,并利用计算机视觉技术重现这些变化,创造新的视觉内容。它的学习不限于视频的画面和像素,还包括视频中展示的物理规律。
一直以来,机器与真实世界交互的都成本非常高,科学家希望能够在虚拟世界中建立一个与现实世界物理规则相同的模型,方便机器"试错"。这也是Sore的目标,成为"世界模拟器"。
尽管Sora距离世界模型还有很长距离,但它证明了一点,即机器可以通过"投喂数据"推算出一些物理世界的规则。毫无疑问,它是机器模拟现实世界的一个里程碑。
但是,从ChatGPT到Sora,OpenAI一直都延续着自回归生成式路线(Auto-regressive models),遵循"大数据、大模型、大算力"的暴力美学,而这也对意味着其对后端算力支撑提出了极高挑战。
见微知著,算力永远是人工智能探索道路上无法回避的问题。对于物理世界的学习和观察能力所需的算力远超文本,这也加剧了算力的紧缺。进行强大、稳定的算力建设,实现高效算力升级,是助力人工智能科研实现创新突破的关键所在。
超集信息作为我国高性能计算解决方案优秀提供商,凭借坚实的技术积累和强大的研发及交付能力,为大量人工智能科研企业及团队提供了强大的算力支撑,持续赋能着科技创新。
面对人工智能技术创新及产业升级下日益高涨的算力需求和算力芯片迭代升级下前所未有的解热及能耗挑战,超集信息为您推荐拥有更高算力密度部署、更强设备散热能力、更省改造建设成本、更优能耗使用效率、更快液冷改造速度的LiquidMax智能液冷数据中心解决方案,可助力客户实现更强大、更稳定、更绿色算力的高效建设,为人工智能科研创新提供强有力的算力保障。
总体而言,虽然就Sora目前整体表现来看,并不意味着它已经真正"读懂"了物理规律,但其在视频生成和模拟真实世界互动方面的表现已经十分出色,已然实现了大模型对真实世界理解和模拟的重大突破。在通向AGI的漫长道路上,超集信息将持续为大家提供高效算力保障,让我们一起期待"世界模型"在不远将来的真正降临。