华商专访Sora横空出世院士怎么看？

来源：云开体育发布时间：2024-04-21 13:24:31

产品详情

春节假日期间，美国人工智能研究公司OpenAI发布了Sora模型。在文生文、文生图之后，Sora突破了文生视频技术，能够准确的通过文本指令生成长达1分钟的逼真和富有想象力的视频，引起网络和公众高度关注。

Sora模型的基础原理是什么？可能会带来哪些变化和影响？我国目前在AI领域的研究处于什么水平？近日，华商报记者正常采访了欧洲科学院院士、IEEE Fellow、西安电子科技大学华山学者杰出教授焦李成先生。

华商报：焦院士过年好，很荣幸能采访到您。Sora根据文本指令就能生成逼真视频，其基础原理是什么？和之前的类似技术有何本质不同？

焦李成：总的来说，Sora的成功源自于整个学界、业界、AI社区多年来在技术、工程等方面的探索和积累。

文生视频是生成式人工智能中的一个典型应用。生成式人工智能的核心是使用机器学习和深度学习算法，通过对大量数据的学习和模式识别，能够生成新的、以前未见过的内容，如图像、音频、视频、文本等。

ChatGPT、Sora等都是AI生成式大模型。这些成功主要是依靠三个要素，分别是数据、算力和算法。其核心是深度学习算法的突破，也就是指深度神经网络算法。其基本思想是模拟人脑的信息处理机制构建人工神经网络，基于大量数据训练模型，希望它能够对自然信息尤其是声音、语言、图像、视频等进行很好的处理。

尽管在大模型中展示了强大的性能，但对于人脑的知识处理机制和推理机制实现得还不够，这也是我们近三十年一直深耕的领域。

Sora其实就是一种深度扩散变换器模型（diffusion transformer），训练这个模型需要大量配有相应文本提示的视频。它在算法框架上的创新本质上并不明显，主要是在各模块集成与技术细节有所突破。包括以下七个方面：

统一的视觉数据表示：Sora将所有类型的图像和视频数据，转换为统一的表达形式，以便适应进行大规模的生成模型训练。通过结合文本条件生成，Sora可以依据文本提示生成上下文相关且视觉上连贯的视频。关于这一点，浙江大学人工智能研究所所长吴飞教授解读得很通俗：真实的生活中每个人都是通过有价值的内容组合来进行交流和创作的，所以从ChatGPT到Sora，都遵循着同一个原理——对合成内容中的最小单元进行有意义的关联组合。比如，在保持连贯的上下文语境中，对若干个单词进行有意义组合，从而连缀成一个会意句子；在保持合理的空间布局下，对众多图像小块进行有意义组合，拼合为一幅精彩图像；在保持一致的连续时空内，对一系列时空子块进行有意义组合，从而拼接成一段动感视频。人工智能程序一旦捕获了单词与单词之间的共生关联，就可利用这种关联来合成句子。那么，将图像切分为空间子块，或者将视频切分为时空子块，人工智能模型去学习这些子块在空间维度中的布局分布、在时间维度上的连续变化等信息，同时学习子块之间运动、颜色、光照、遮挡等复杂视觉特征，就可能重建、合成新的视频序列。

视频压缩网络：训练了一个模型网络，将高维空间的原始视频压缩到一个低维潜在的数据特征空间，Sora在这个压缩的潜在空间中进行训练并生成视频。为何要这么做呢？吴飞教授也解释得很好：文生视频需要先提供文本提示词，然后通过文本单词和时空子块之间的关联来合成新的视频。但因文本单词与视觉信息分属于不一样，故而存在异构鸿沟困难。其次，还要克服由视频图像分辨率过大而带来的维度灾难，以及其所引发的操作上的挑战。为应对这些挑战，Sora先将文本单词和视觉子块映射到同构低维隐性空间，在这一低维隐性空间中引入扩散模型，对视觉信息反复迭代，千锤百炼地挖掘文本单词、空间子块和时空子块之间的关联关系。这种方式好比先通过“车同轨、书同文”，将文本、视觉等异构信息投影到同构空间，然后再通过“先破坏（添加噪音）”“再重建（去除噪音）”的迭代手段，来洞悉视频中各种不同单元在时间和空间中的关联关系，从而甄别和学习纹理、运动、光照、遮挡、交互等复杂视觉物理规律。这就好比鲁班学艺，不断将大桥拆散再拼装，从这个反复过程中知晓它们的跨结构、支座系统、桥墩、桥台和墩台之间的组合关系，从而练就重建大桥的能力。因此，Sora合成视频的过程并非是简单随机的“鹦鹉学舌”，而是对物理世界的重建。

扩散模型：Sora是一个深度扩散模型，它通过预测原始“干净”的数据样本，来从输入的噪声数据样本中生成视频。什么叫“干净”的数据样本？什么叫噪声数据样本？在图像的获取、传输、存储过程中由于种种原因，都会受到噪声（即噪点）的影响。大家通常都不喜欢噪声，因为噪声越少，图像就越清晰，但是从文字生成图片和视频的过程却利用了噪声。比如当图片中的猫被一步步加噪声，就会得到一幅幅越来越不清楚的图，直到最后这张图变成全是噪点，根本看不出猫。这样的一个过程就叫扩散过程。系统用大量这样的被噪声淹没过程中的图片及其文字标签去训练神经网络，所用数量通常是以亿来计。而文字生成图像的过程，则是这样的一个过程的逆过程。即依据输入的提示词，从一张张全是噪声的图片上不断地去除噪声，一步步变成清晰的图片。图片是这样生成的，而视频实际上就是连续播放的图片，所以生成视频和生成图片的基础原理差不多。OpenAI把视频中的很多不同的帧即每一张图片切割成小块，把它叫做spacetime patches，即“时空补丁”或“时空碎片”，这样就可以方便进行处理。

视频生成的可扩展性：Sora能够生成不同分辨率、时长和宽高比的视频，包括全高清视频。这种灵活性使得Sora能直接为不同设备生成内容。

语言理解：Sora结合了大语言模型ChatGPT。Sora的训练样本是文本-视频对，有些视频对应的标题过于简短或者缺少，Sora采用了Dall-E的重新标题技术，即首先训练一个高度描述性的标题生成器网络，然后为训练数据集中的所有视频生成相对较为完整的文本标题。

△提示：几只巨大的毛茸茸的猛犸象踩着白雪皑皑的草地走近，它们长长的毛茸茸的毛毛在风中轻轻吹拂，远处白雪皑皑的树木和壮观的白雪皑皑的山脉，午后的光线与薄薄的云层和远处高高的太阳营造出温暖的光芒，低相机视角令人惊叹，用美丽的摄影捕捉了大型毛茸茸的哺乳动物。

△提示：纽约市像亚特兰蒂斯一样被淹没。鱼、鲸鱼、海龟和鲨鱼在纽约的街道上游来游去。

△提示：一窝金毛猎犬幼犬在雪地里玩耍。他们的头从雪地里探出头来，被雪覆盖着。

图像和视频编辑：Sora不仅能基于文本提示生成视频，还可以用图像或视频作为输入提示，这使Sora能够执行各种图像和视频编辑任务，创建完美循环的视频、为静态图像制作动画、在时间上向前或向后扩展视频。

模拟能力：当视频模型在大规模训练时，它们展现出了一些有趣的新兴能力，使得Sora 能够模拟物理世界中的某些方面，如动态相机运动（即随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动）、长期一致性（比如当不同物体间存在遮挡或消失等情况时，依旧可保持它们之间的依赖关系）、对象持久性（单个样本可生成同一角色的多个镜头，在整个视频中保持其外观）等。

△单个样本可生成同一角色的多个镜头，在整个视频中保持其外观。这段由文字提示生成的视频时长达59秒

△Sora还可以在两个视频之间无缝过渡，无人机在飞行中突然变成蝴蝶，场景也自然变换

总的来说，Sora展现的三维空间连贯性和长期物体持久性，提升了视频内容的真实感。通过模拟数字世界和与世界互动，Sora能够创造出富有创意的视频内容。这种独特训练方法及其对不同纵横比的原生支持，标志着视频生成技术的一个新时代从此开启。

尽管Sora并未使用与过往不同的新技术，几乎所有技术都是已经公开的，但其所用的视频生成方式对算力要求极高，而这种对算力和资金消耗极大的方式，大幅度的提高了同行跟进的门槛。同时，Sora利用GPT系统对提示词进行了润色与丰富，从而拉开了与之前文本生成视频模型之间的差距，形成了对手短期内难以跟进的优势。

华商报：Sora技术报告中的“世界模拟器”、“物理世界通用模拟器”这样的词在网络上讨论很热烈，听起来也让人感到很振奋。OpenAI技术报告介绍视频模型在大规模训练时涌现出的新兴仿真功能中列出了“与世界互动”：“例如画家可以在画布上留下新的笔触，这些笔触会跟着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。”但Sora生成的一些视频似乎并不符合现实世界物理规律，比如老奶奶吹了生日蜡烛，蜡烛的火苗却纹丝不动。这是为何？

焦李成：Sora之所以能对物理世界规律进行模拟，一个可能的原因主要在于大数据驱动下，人工智能模型体现出一种学习能力，即Sora通过观察和学习海量视频数据后，洞察了视频中时空子块单元之间所应保持的物理规律。其实，人类也是基于对自然界斗转星移、节气变迁和昼夜交替，以及微观物质世界物质合成与生命演化的观测，推导出各种物理规律。虽然Sora很难像人类一样，将物理世界中诸如牛顿定律、湍流方程和量子学定理等，以数学方程罗列于人工模型中，但Sora能记住时空子块单元之间应遵守的模式，进而利用这些模式约束时空子块的组合。

OpenAI 技术报告中透露，Sora能够深刻地“理解”运动中的物理世界，堪称真正的世界模型。OpenAI想强调，Sora不是单纯的视频生成模型，不只是视频行业颠覆者，而是世界的模拟器，它打开了一条通往模拟物理世界的有效路径。OpenAI仅列举了作为物理世界的模拟器应具备的几个特点和例子——3D一致性、远程相关性、物体持久性、与世界互动等，却并未对“什么是世界的模拟器”做任何定义和具体分析。但我们有可能可以总结出它的逻辑：Sora生成的视频能够在相当长的时空范围内不违反物理世界的常见规律，比如重力、光电、碰撞等。如果模型规模逐步提升，它有可能模拟生成物理世界的视频。

世界模拟器是指可以逼真反映虚拟世界或现实世界的模型或系统。物理世界的模拟器能够在虚拟环境中重现物理现实，为用户更好的提供一个逼真且不违反物理规律的数字世界。

Sora生成视频中为何会出现违背物理学规律的例子，也可以从其文生视频的原理来分析：

Sora将视频分解成时空令牌，然后学习上下文中令牌间连接的概率分布，并且依据这一概率分布由白噪声生成令牌、连接令牌，解码成短视频。每个令牌表达图像或者视频中的一个局部区域，不同局部区域间的拼接成为问题的关键。

Sora相对独立地学习每个令牌，将令牌间的空间关系用训练集中体现的概率来表达，但无法精准表达令牌间时空的因果关系。这种“局部合理，整体荒谬”的生成视频，意味着模型学会了碎片化知识的连接概率，但是缺乏时空上下文的大范围整体观念。

另外Sora采用的是目前最为热门的扩散模型，在计算传输映射的时候，必然会光滑化数据流形的边界，从而混淆不同的模式，直接跳过临界态图像的生成。因此视频看上去从一个状态突然跳跃到另外一个状态，中间最为关键的倾倒过程缺少，导致物理上的荒谬。

由此可见，虽然Sora声称是“作为世界模拟器的视频生成模型”，但目前的技术路线无法正确模拟世界的物理规律。

首先，用概率统计的相关性（指Transformer用以表达令牌之间的统计相关性）无法精确表达物理定律的因果性，自然语言的上下文相关无法达到偏微分方程的精密程度，而物理定律目前只有偏微分方程才能精密表达；

其次，虽然Transformer能学习临近时空令牌间的连接概率，但是无法判断全局的合理性，整体的合理性需要更高层次的数学理论观点、或者更为隐蔽而深厚的自然科学和人文科学的背景，目前的Transformer没办法真正悟出这些全局观点；

另外，Sora忽略了物理过程中最为关键的临界（灾变）态，一方面因为临界态样本的稀缺，另一方面因为扩散模型将稳恒态数据流形的边界模糊化，消弭了临界态的存在，生成的视频出现了不同稳恒态之间的跳跃。

焦李成：随着生成式人工智能技术的持续不断的发展，特别是文生视频技术受到大家的关注，后续关于这方面的研究会推动该领域再上一个台阶，技术的走向除了Sora目前存在的缺点，应该还有会其他突破。将来可能会在以下方面得到普遍应用：

创意行业：文生视频技术能帮助艺术家、设计师和创作者快速生成创意作品，包括动画、影片、广告等，提高创作效率和降低成本。

营销和广告：文生视频技术可以根据用户的偏好和行为数据生成个性化的广告内容，提高广告效果和用户参与度。

视频制作和编辑：文生视频技术可以自动生成视频剪辑、字幕、特效等内容，简化视频制作和编辑的流程。

虚拟现实和增强现实：文生视频技术可以生成逼真的虚拟现实和增强现实内容，用于游戏、培训、教育等领域。

自动化视频生成：文生视频技术可以自动生成新闻、体育赛事、天气预报等视频内容，提高新闻媒体和娱乐行业的自动化程度。

客户服务和教育培训：文生视频技术能够在一定程度上帮助企业和教育机构快速生成培训视频、产品演示等内容，提升客户服务和教学效果。

随着文生视频技术的发展和完善，除了上述的基本应用领域外，将来还会渗透到更加专业的领域，带来更高效、创新和个性化的视频内容生成体验。

△提示：一个小小的、圆形的、蓬松的生物，有着大而富有表现力的眼睛，探索着一个充满活力、迷人的森林。这种生物是兔子和松鼠的异想天开的混合体，有着柔软的蓝色皮毛和浓密的条纹尾巴。它沿着波光粼粼的溪流跳跃，惊奇地睁大了眼睛。森林里充满了神奇的元素：会发光和变色的花朵，叶子呈紫色和银色的树木，以及类似萤火虫的小漂浮灯。这个生物停下来与一群围绕着蘑菇圈跳舞的精灵般的小生物嬉戏互动。这个生物敬畏地抬头看着一棵发光的大树，这棵树似乎是森林的中心。

△提示：一朵巨大的、高耸的云，人形的云层笼罩着大地。云人将闪电射向地面。

华商报：技术是一柄双刃剑，Sora可能会给人们带来哪些便捷与变化？也可能带来哪些风险？

焦李成：这是一个哲学问题。但是对于今天的生成式人工智能大模型或者Sora来说，有些方面具有其特有属性。

创造性内容生成：生成式人工智能可以生成以前未见过的图像、音频、视频和文本等创造性作品，为艺术家、设计师和创作者提供了新的灵感和工具。

自动化创作：生成式人工智能可以自动化创作过程，减少人工劳动，提高效率。例如可以自动生成文章、音乐、影片等内容。

个性化体验：生成式人工智能能够准确的通过用户的偏好和历史数据生成个性化的推荐、广告和服务，提供更好的用户体验。

自然语言处理和机器翻译：生成式人工智能在自然语言处理和机器翻译领域有广泛应用，能够在一定程度上帮助人们更好地进行沟通和交流。

假新闻和虚假信息：生成式人工智能可能被用于制造虚假的新闻和信息，对社会造成误导和混乱。

侵犯隐私和数据安全：生成式人工智能需要大量的数据来进行训练，在处理个人数据时可能会引发隐私和数据安全的问题。

不可控的生成结果：生成式人工智能可能会产生不可预测、不受控制的生成结果，包括有害、冒犯或违法的内容。

伦理和道德问题：生成式人工智能可能引发伦理和道德问题，如利用人工智能制作深度伪造视频等。

华商报：在用AI工具文生图的操作的流程中，经常会发现输入的关键词希望生成的图片和最终实际生成的图片存在着中西方文化的差异。不知在文生视频中是否也会出现这样的情况？

焦李成：会出现这样一种情况，几乎所有基于数据训练的模型都一定会出现这样的问题。这种中西方文化差异在AI生成图像中出现的原因可能有几个方面：

训练数据集的偏差：人工智能模型在生成图像时通常会基于大量的训练数据，这一些数据可能来自于特定地区或特定文化背景的图片。如果训练数据集中的图像偏向某种文化，那么生成的图片也有一定可能会受到这种文化影响。

模型设计和算法：AI生成图像的模型和算法可能对不同文化的视觉特征和风格有所偏好，导致生成的图像在中西方文化之间有差异。例如，某些模型可能更擅长模仿西方艺术风格，而另一些模型可能更适合模仿东方艺术风格。

数据样本不足：对于一些特定主题或概念，有几率存在的中西方文化差异导致某些文化的样本数据较少，进而影响了模型对于该主题的理解和生成能力。

为减小这种中西方文化差异带来的影响，能够尝试使用更广泛和多样化的训练数据集，同时调整模型参数或使用不相同的生成算法。此外，也可通过后期处理或编辑生成的图片来使其更符合文化背景和偏好的要求。

华商报：在一条视频中，美籍华人、美国工程院院士、NVIDIA创始人兼首席执行官黄仁勋提出：AI主权要独立掌握，否则历史背景和文化会被篡改，每个国家都需要有自己的智能产品。他还进一步解释了“主权人工智能”的概念：你有自己的数据，无另外的人拥有它，它编纂了你们的文化，你们的社会智慧，你们的常识，你们的历史，这一些数据必须掌握在自己手里。因此你必须拿到这一些数据、提炼完善这一些数据，有自己的国家智能，不能交给其他人帮你们完成。Sora的横空出世，也再次说明了数据资源的重要性。在这方面，您有何观点？

焦李成：数据资源的重要性不言而喻，我们的祖国也格外的重视这块，成立了国家数据局来主要做这个事情，当然也包括对生成数据的管控问题，但这是一个全球范围内的数据治理问题。

人工智能生成的数据存在潜在的安全风险隐患，为减少这些安全风险隐患，需要加强对AI生成数据的监管和审查，确保数据的准确性和可靠性。同时，需要加强数据隐私保护和安全防护，避免敏感信息被不当使用或泄露。此外，对抗性攻击和法律伦理问题也需要引起重视，建立相应的防护机制和监管措施。

华商报：目前我国在该领域的研究处于什么水平？未来该领域的发展趋势是什么？

焦李成：目前我国在AI领域的研究处于全球领先水平，政府和企业对AI的投入和支持力度也非常大。研究机构和高校在AI领域取得了许多重要的成果，包括在语音识别、计算机视觉、自然语言处理等方面取得了显著的进展。

关于未来的研究方向，主要从两个方面出发，分别是判别式AI和生成式人工智能。

判别式AI是一种通过学习输入数据的特征和模式来进行分类、识别或预测的人工智能方法。与生成式人工智能不同，判别式人工智能的主要任务是建立一个模型来直接对输入数据来进行建模，从而对其进行分类或预测输出结果。

判别式人工智能的发展趋势是不断的提高模型性能、数据效率和资源利用率，注重解释性和可解释性，同时也加强泛化和迁移学习能力，应对多模态数据处理等挑战。

生成式人工智能的主要任务是使用已知数据的统计特征来生成新的、以前未见过的数据。与判别式人工智能不同，生成式方法不仅仅可以对已有数据来进行分类或预测，而且还能够生成新的数据样本，从而模拟现实世界中的数据分布和特征。

生成式人工智能的发展趋势是不断的提高生成模型的各方面的能力，包括稳定性、连贯性、逻辑性、真实性等，实现更多领域的创新和应用。

华商报：您所带领的团队在AI领域耕耘三十余载，可否粗略地介绍一下相关研究成果吗，以及对未来的设想？

焦李成：西电在AI领域人才教育培训工作方面起步很早，1986年就展开了研究生的人工智能教育与培养，2001年获批模式识别与智能系统的博士点，2003年设立了智能信息处理硕士点与博士点，1991年成立国内第一个神经网络研究中心，2017年成立部属高校首个人工智能学院。西电是全国唯一一所“智科”和“人工智能”专业双双入选国家“双一流”建设的高校，且均被评为A+专业，也是教育部获批的“人工智能+教育”三所标杆大学之一。

在大模型技术方面，我们从始至终面向国家重大需求开展着研究。主要做了西电遥感脑大模型和智能医学影像分析大模型系统。

西电遥感脑大模型是基于三十多年的技术积淀开发的，该系统主要对机载和星载卫星获取的图像和视频进行智能识别与解译。它是基于“国产遥感卫星数据+国产人工智能框架+国产人工智能算力平台+自主知识产权技术”，可以有效的进行遥感数据经济生态体系的创新及应用研究，也是国际上第一个遥感大模型。

智能医学影像分析大模型是一款全面的医学影像分析平台，能帮助从医工作者提高诊断效率，支持MRI、X光、CT和B超等多种医学影像数据的显示与处理。可提供丰富的医学影像解译算法，包括海马体分割、脑瘤分割与识别、肿瘤检测与定位、肺部感染诊断、多器官2D、3D分割、结肠癌原发灶分割、乳腺癌病灶分割等。还支持统计分析功能，包括区域统计分析、按类别的统计分析以及数量统计等，为医学影像领域的专业用户更好的提供了有效实用的工具和功能。

总的来说，大模型既是一个基础模型，又是面向重大工程应用的通用平台，这既是考验，也是机遇，我们要从基础理论、关键技术、创新应用等方面突破，从而在国际上处于领先地位。

焦李成，欧洲科学院院士，IEEE Fellow，西安电子科技大学华山学者杰出教授。现任西安电子科技大学计算机科学与技术学部主任、AI研究院院长、智能感知与图像理解教育部重点实验室主任、教育部科技委学部委员、“一带一路”AI创新联盟理事长、陕西省AI产业技术创新战略联盟理事长、西安市人工智能产业发展联盟理事长、中国人工智能学会第六-七届副理事长、亚洲计算智能学会主席，IEEE/IET/CAAI/CCF/CIE/CAA/CSIG/AIIA/AAIA/ACIS Fellow，连续九年入选爱思唯尔高被引学者榜单。国务院学位委员会学科评议组成员, 第八届全国人大代表, 国务院政府津贴的专家，全国模范教师、陕西省突出贡献专家、陕西省师德标兵和陕西省西迁精神传承人。焦院士的主要研究方向为智能感知与图像理解、深度学习与类脑计算、进化优化与遥感解译。

华商专访Sora横空出世 院士怎么看？

华商专访Sora横空出世院士怎么看？