OpenAI发布的GPT – 4o展开,介绍了其引发的全网“吉卜力”狂潮,探讨了它强大的生图能力、生图技术细节及原理,还列举了它在合成、科研绘制修改、视频等多方面的应用,最后表达了对其更多秘密被揭露的期待。
当下,GPT – 4o已经在全网掀起了一场史无前例的「吉卜力」狂潮。从最初全网对其产生的模因狂热,到后来备受争议的版权问题,OpenAI本周推出的这项全新技术成果,所引发的戏剧性事件如潮水般一波接着一波。
在网络上如海啸般涌现的大量吉卜力风格图片中,不少人惊讶地发现,GPT – 4o生成的漫画效果极其强悍,甚至到了令人不寒而栗的程度。它展现出了极强的元上下文和元理解能力,能够自主预测不同的情境,仿佛拥有了独立的思考和想象能力。
可惜的是,目前OpenAI并未对外公布GPT – 4o的生图技术细节,只是简单提到它采用的是自回归方法,与常见的语言模型类似。
这意味着,4o与DALL – E所使用的扩散模型不同。它运用自回归模型逐步生成图像,通过根据先前的像素或补丁来预测下一个像素或补丁。这种方式让它能够更好地遵循指令,甚至在进行逼真的照片编辑时也表现出色。
无独有偶,CMU博士Sangyun Lee也对GPT – 4o的图像生成原理进行了推测,他认为大致过程如下:
-
GPT – 4o首先生成视觉token,随后由扩散解码器将这些token解码为像素空间中的图像。
-
这里所使用的并非普通的扩散模型,而是类似于Rolling Diffusion的分组式扩散解码器,它会按照从上到下的顺序进行解码。
值得一提的是,我们还可以通过手动调整模糊功能的高度,来改变生图的模糊范围。
不过,尽管上述生成过程同样遵循自回归过程,但生成过程中前端显示的图像却存在相当显著的差异。
从真实的中间生成图像来看,还发现了一个有趣的现象:两个色块之间的白色区域并没有严重模糊,这与扩散模型中产生的噪点图像有所不同。
基于此,Sangyun Lee猜测,这是否意味着GPT – 4o实际上是纯自回归 (AR) 生成的呢?他做出这样的推测,主要有两点理由。
其一,在有强烈条件信号(比如视觉token)的情况下,最初生成的图像往往是模糊的草图,这或许是待生成区域呈现粗略结构的原因。
其二,UI显示的是从上到下的生成顺序。Sangyun Lee之前尝试过从下到上的顺序,当可视化 E[x0|xt](在本例中就是xt)时,就可以重现类似的可视化效果。当时,他还以为这是一个bug,而不是特性。但现在看来,这个模型实际上是介于扩散模型和自回归模型之间的一种方式。实际上,通过设置num_groups = num_pixels,甚至可以让它恢复自回归模型。
相对而言,Claude在表达上几乎总是对自己的“生活”充满喜悦,不像GPT – 4o似乎带着一种存在性的痛苦。
在应用方面,GPT – 4o有着丰富的表现。
合成与形象迁移:它可以将一张图片的风格替换为另一张图片的风格,或者把原照片置于一个全新的场景中。
科研绘制修改:除了用于娱乐“整活”,GPT – 4o在严肃的科研领域也能发挥重要作用。例如对遥感影像中的物体进行区分后叠加要素,或者根据点云生成真实世界的图像。
视频整活:网友们将GPT – 4o生成的图片与其他视频AI工具相结合,创造出了许多有趣的作品。比如将《大话西游》变成陶土风,效果十分传神;苹果热播剧《人生切割术》也能被改成另一种风格。
由此可见,不论是在美术、设计领域,还是在风格、创意方面,GPT – 4o都展现出了强大的实力。接下来,我们不妨拭目以待,期待更多GPT – 4o的秘密被逐步揭露。
本文详细介绍了GPT – 4o引发的全网热潮,分析了其生图技术原理和特点,探讨了它与其他模型的差异,还列举了其在多个领域的应用。GPT – 4o展现出了强大的生图能力和广泛的应用前景,未来还有更多秘密等待被发现。
原创文章,作者:Nelson,如若转载,请注明出处:https://www.lingtongdata.com/7873.html