金字塔-流-sd3:用于生成长视频的新文本视频开源模型

比Kling.ai、Luma Dream Machine、MiniMax和Runway Gen3 Alpha更好的文本到视频生成工具

在生成式人工智能中出现了一连串的文本生成模型和图像生成模型后,现在是时候出现文本-视频模型了。这个名单中的新模型是金字塔流sd3,一个用于从文本或图像中生成视频的开源模型,视频时长可高达10秒,帧率可达24fps!

模型非常重要。

免费使用并且是开源的,因此该模型也可以通过代码进行本地使用。

生成更长的AI视频(长达10秒)。 这是其他模型生成的两倍大小(5秒)。

它提供文本和图像视频生成。并不是很多人都有这种设施。

它是在开源数据集上进行训练的。

该模型可以在HuggingFace上下载,并且可以使用Python进行使用。

模型可以生成

文本输入,10秒,768p,24fps 视频

文本输入,5秒,768p,24fps 视频

图片到视频

了解金字塔流量

随着pyramid-flow-sd3的发布,团队还引入了一个名为金字塔流的新概念,该模型是基于这一概念的。从官方github库中摘录。

金字塔流,基于流匹配的高效训练自回归视频生成方法。

让我们来解析这个术语

自回归视频生成

自回归视频生成是一种技术,其中视频的每一帧都是按顺序生成的,每个新帧都是基于先前生成的帧进行预测的。

这种方法确保了视频中的时间关系得到保留,使最终输出更加真实。该模型学习了如何理解运动和变化随着时间发生,这对于创建流畅而可信的视频序列至关重要。

流程匹配

流匹配是一种用来使生成的数据分布与实际数据相一致的方法。它涉及建模数据点(在这种情况下是视频帧)如何随着时间从一个状态过渡到另一个状态。

以通俗的话说:匹配流是一种技术,可以帮助计算机学习如何使生成的视频看起来真实。它侧重于理解视频的一个帧应该如何变化为下一个帧。通过找出这些变化,模型可以创建看起来自然可信,就像真实运动一样的视频。

金字塔流量

金字塔流是指在视频生成中采用层次化的方法,在多个分辨率下运行,类似于金字塔结构。

这种方法允许模型从较低分辨率的表示开始,并逐渐将它们优化到更高的分辨率。通过这种方式处理数据,金字塔流增强了计算效率,并保持了帧与帧之间的连续性,这对生成逼真的视频至关重要。

金字塔流与流匹配相关吗?

金字塔流利用流匹配改善视频生成。

当模型创建视频时,它使用流匹配来确保金字塔的每一步(或层)平稳过渡到下一个步骤。这意味着当它从模糊版本过渡到清晰版本时,它保持一切看起来真实和流畅。

金字塔流程就像逐步构建视频一样,而流匹配确保每个步骤看起来不错,并且顺利地过渡到下一个步骤。

如何使用模型?

HuggingFace 总是有答案:

如果您希望进行比较,您也可以在以下演示中查看其他文本视频模型。

MiniMax 极小极大

Kling.ai

露玛梦幻机

CogVideoX 认知视频X

2024-10-11 04:12:57 AI中文站翻译自原文