AIGC 最大独角兽:下一个目标是席卷 10 亿用户|AI|极客公园|开源社区_新浪科技_新浪网

发布日期:2023-01-03 22:13:27

StaÓbiજlity AI CTO Tom Mason 认为,A◐IGC 的下一波浪潮将是音视频和 3D

⇔整理 | 凌ਊ梓郡

±编辑 |∇ 郑玄

整整一年,AI 绘画的话题热度不减。人们惊异于大模型做起了「画师」,这让 AIGC(AI 生成内容)成为了热门的ࢮ资本赛道。「下一波浪潮肯定是视频、音频和 3D 内容,」&#25bd;Stability AI 的੫ CTO Tom Mason 坚定地认为,他们目前正在全力研究生成视频和音频的相关模型。

将 AI 绘画推向高ਭ潮的是 Stablυe Diffusion,一个前所未有的开源模型,对所有人开放、能够又快又好地生成图画。它的诞生路径也与众不同:源于开源社区,而非大公司。它的主要推动者是 Stability AI。公司将自己作为社区的贡献者之一,并希望探索出一条开源、AI 模型、☜社区共同前进的道路。

Stability AI 成立于 2019 年,不到三年已经成为估值ઞ超 10 亿美元的独角兽。੘Stability AI 专注于生成模型,认为它在未来会成为互联网的重要组成部分。如果说上一代 AI 算法带来的是广告推荐,那么「生成૊式 AI 正在做的,就是让消费者成为创作者,给他们创作他们自己消费的媒体内容的能力」。

今年的 IF 2023,极客公园邀请了 Stability AI 的 CTO(首席技术官)Tom Mason,他以自己的视角分享了 ♧AIGC 从默默无闻到突然爆发的全过程,并对 AIGC 未来影响世界的方式给出了自己的预测。以下是他在大会上的分享实录,经极客公园>整理发布。∧

(在极૩客公园创新大会 IF 2023 现场,极客◈公园创新业务总监 Ashley 对 To©m Mason 的访谈视频进行解读。)

01ࢵ

开ⓔ源是 StÄability A&#263c;I 

ણ的根Ê基所在

极客公园:请简单介绍一下,在来到 St੝abiÈlity AI 之前Ô,你都有怎样的经历?

&Tom Mason:我之前有 15 ધ年的时间都在伦敦经营着一家科技公司,为大型汽车公司开发了很多不同的平台,也为很多创业公司提供技术支持。在接触 AI 和 Stabi੍lity AI 之前,我从事过很多领域。

大概 2 年前,我开始和一个开源社区一起,开发一个叫做 Disco Diffus ion 的 Python Notebook,用来生成动画和图像。那是一个很棒的社区,我和他们共事了好几个月,一ৄ起打造了给非技术用户使用的新工具。Pytho•n Notebook 和一个同时开发的产品,后来成为了 Dream Studio,通过这段经历,我发现了 Stability AI,也就是现在我所在的公司。

极客ય公园:Stability AIŸ 是一个怎样的公司?

Tom઴ Mason:Stability AI 非常坚持开源,某种程度上也是我们的根基所在。我们协助支持了大概 8 个开源社区,共计超过 10 万名成员,他们专攻¸不同的模态,从语言到图像、到音频 Î、视频和 3D。

我们会提供算力支持,并会资助一部分研究人员,我们拥有非常大的计算集群,现在我们在 AWS 上有 4000 个 Aô100 节点,在其他地方还有 ਜ1500 个节点。这些计算集群正在以非常快的速度增加,¸我们会将资源开放给研究员们,以便他们训练模型,这些模型最终会开源。所以可以说 Stability AI 是一个基础平台,它的支柱其实是这些开源社区。

♬同时我们内部有团队也░会给他们提供支持,建设 HPC 超算、管理这些计算集群;数据团队会提供数据上的帮助;跨职能团队(负责)跨社区的一些◘协助工作。

另外我们还有一个非常大的基础设施部ⓩ门,他们的工作主要ú是开发 API 和产品。我们会通过平台网站向全世∫界发布 API 和我们自己打造的产品。

极客公园:开源为什么至关Øι重要?Η

Tom Mason:我因为开源 AI 技术开启了这段旅程。于我而言,开源 AI 令人惊喜到难以置信。从我自己的家里,我可以登陆开源社区,与一个包含了所有完整信息的模型交互,并使用它做一些更酷的事,在它的基础上创建工具,这就像一次飞跃。所有这些推进了人类历史的进程,我们正生活在这样一个无比奇妙的时刻。这些(开源)赐予ૢ人类的,让我们能够去创造更美好◘、更伟大的事业,我也真的非常荣幸能参与到这个进程里,成为这个公司的一员,见证这个时刻的发生。

比如 S੡table Diffusion 的发布,我觉得开放一个如此大规模如 此复杂的模型,并不ઘ是那么一件容易想到、做到的事情,(但它真的发生了)并且带来了创造力的爆发。

每天早上醒来,我都可以在网上看到 10 个不同的新项目,有很多人都એ在做一些了不起的事情,每一个小憨项目都有可能成为一家新公司઩,成为一个新的开源社区。

Ó极客公园:Stability σAI会成为像 ±OpenAI 一样的机构吗?

Tom Mason:Open AI 非常专注于 AGI(ν通用人工智能)。但这绝对不是我们的目标,我们想建立好的生成模型。因为生成式 AI 很有可能会产生更大的影响力。目前已经有很多理论在讨论它将如Œ何实现,特别是通过语言模型和视频ƿ模型,以及其他的带有时序信息的模型。

现在 AGI 不是我们关注的重点。我们只专注于构建不同ƿ模态的、好用的生成模型,用大型数据集支持这些模型的定制´化,以及支持开源。这就是我们和 OpenAI 的主要区别。我们绝对百分百地致力于让我们的模型开源,并将ê这项技术公开,让全世界的人都可以不受任何限制地使用它。这绝对是一件非常重要的事情,因为这项技术是如此具有革命性。

Ç

0઎2

AIGC&#263e; 让௄

î消费者ⓜ成为创作ੜ者

极客公园 :AIGC 在这一年受到Δ了前所ⓠ未有的关注,在你看来,爆发前有哪些重要的时刻?

Tom Mason:我认为 AI 领域其中一个重要转折点是 2017 年关于 ஻Transformer 的论文,《Attention Isε All You Need》发表。论文介绍了注意力机制的概念,这使得神经网络变得更加普ਜ਼及;紧接着,基于 Transformer 网络,图像生成领域出现了很多研究,其中出现了扩散模型。最开始是 Latent Diffusion,现在有了 Stable Diffusion,它最初是由 CompVis 团队开发的。

极客公园ⓡ:在这个过程Δ中,Stable Diffusñion 是怎么诞生的?

Tom Mason:接下来两个重要的转折点,分别是数据¸集和算力。♡我们支持的其中一个项目 LA੣ION,就专注于收集和建立海量的数据集,他们现在有 50 亿图文匹配的多语种数据集,其中 20 亿是有英文标注的图片。

在这 20 亿的基础上,我们筛选出大约 10 亿数据集用于 ìStable Diffusion,数据集的工’作开始于 2、3 年前,每年规模都在Ζ增长,数据集的规模是非常重要的。除了 LAION 以外,并没有其他可用的数据集拥有这样的规模。所以当 CompVis 团队和 LAION 团队开始合作,这个神经网络就诞生了。

Ê第三个关键要素是算力的满足,在这之前,学术研究人员,开源研究者们必须通过大学的网络,或者其他提供算力资源的公司,申请算力资源。而目前 Stabφility AI 拥有世界上第十或第十一大的自用的超算。我们将这些资源提供给有需要的开源研究员,所以他们现在有能力训练世界上最大的模型,与任何其他公司相竞争。这对社区的帮助非常大ð。让他们能够有资源去做研究和开发,

也≠因此带来了现在发布的这些超棒的模型,我相信这个趋势还会增长。随ઙ着来µ到 2023 年,这里会涉及更多其他模态,比如视频,模型会越来越大,数据集会越来越大,所以这个趋势大概率会持续下去。

(T∠om Mason 在 IF 202હ3 大会现场的分享。&#25bd;)

极客公Š园Ã:今年,通过文字生成图像非常引人注目,在这之后,内Ê容生产领域还会有怎样的变化?

Tom Mason:下一波浪潮肯定是视频、音频和 3D。语言模型和图像模型的爆发和流行,实际上源于数据集的开放。我们能够从互联网上提取大量઺的文字,用它来训练图像模型。这其实是过去几年,图像和语言模型能够爆发性发展的一个重要原因。视频模型已经开始出现,它们同样依赖于大规ਲ਼模、有标注的整洁数据集,这样模型才能进行高▩效的训练。

这是我们现在主攻的领域,音频也是∫类似的。我们有一个叫 Harmonai 的团队,正在主攻文字和音频。现阶段通过训练的模型输出的结果已经非常出色,且是能够通过文Ü字输入生成的,所以这是一个非常令人兴奋的领域,我个人的热情在于视频和动画,我在加入 Stability 之前就一直在做这方面的事情ν。

互联网上并没有足够大量的视频数据ⓙ集和音频数据集,这是我们的当务之急。我们应该会通过合作的形式来完成(数据集搭建)。语言模型和图像模型的爆发和流行,实际上源于数੏据集的开放。我们能够从互联网上提取大量的文字,用它来训练图像模型。这其实是过去几年,图像和语言模型能够爆发性发展的一个&#25bc;重要原因。

大量的视频内容,是被大型电影公◑司和流媒体公司版权所有的,所以帮助那些公司使用他们的数据集,开发新的视频模型,对我们来说很重要,&#263a;这是我们的核心策略之一,就是让☺数据变得更智能,去更好地利用好那些大多时候没有被妥善使用的大型数据集。

极客公园:视频内容®的生成的模型什么时候会发布?ੈ

Tom Mason:毫无疑问&#260e;是明年。我们现在已经有正在训练的视频模型了,લ我们也跟那些我前面提到的大数据集所有者建立了合作关系,我૜觉得模型的架构还需要优化,不过我们已经有了一些有趣的可选方案。

我非常期待明年年中,我们能够做出੉一个不错的视频模型,当然是短视频,然后慢慢向长视频(发展),这可能需要用到多 模⁄型组合。同时,还要优化好场景融合和其他的相关技术。

我们的一个工具 Dream Studio,就是用来编辑和制作动画的,我们其È实正在研究动画生成的 API,让人们只用一张图片就可以生成动画,使用一种 2D 转 3D 的深度估计方法。这是一个非常酷的技术,&#261c;跟视频扩散有一点区别,我们会在明年早些时候发布,让用户体验。视频扩散则会在明年晚些ⓡ时候发布。

我非常期待有一天,我们能够打造出Ú动画和视频扩散(模型)的工具。3D 也是,明年会成为一个热门领域。我们已经看到很多包含 NeRF(注:一种将 2D 图像转 3D 模型)的管线,允许我们创建 3D 模型和资产。通过文本管线、文生图、2D 转 3Dૄ,或者摄影作品里的环境通过 NeRF 转换成 3D 模型。这些管线目前(生成速度)还非常慢,但他们正在快速░地提升效率。

极客公园:视频、3D 的生产模型会给人们带来怎κ样Ì的全新体验?

Tom Mason:用户应该很快就可以通过这些生成式管线,在 VR 或Ë游戏场景里创建 3D 资产…了。这会⊃是一件很重要的事情,它几乎会立刻让你想到元宇宙。在里面可以创建你自己的环境,玩家只要口述他们希望沉浸在什么样的游戏资产或环境中就可以了。这会非常令人兴奋。

我想我们中很多人都想象过。在Á VR 里,围绕我们的整个环境都是(自动)生成的。玩家能够完全掌控音乐、3D 资产和环境氛围,这样你就能完全掌控你的体验。这与当下行业里生成式 AI 取得的进展非常契合。生成式 AI 正在做的,就是让消费者成为创作♧者,给他们创作他们自己消费的媒体内容的能力。它会是一个非常令人兴奋的时 刻。

极客公园:目前Ô,生成 3Dષ 内容有哪些挑战♪?

Tom Ma−son:就当下的 3D(内容生成)而言,我觉得挑战主要是生成的时间,以及分辨率。这二≥者是Ý相关联的,NeRF 模型越精确,跑起来就越慢,如果考虑什么是图像模型最令人惊艳的进展,就是生成时间(缩短)。

一年前,生成一张高分辨率的图片可能会需要几分钟,2、3 分钟或者 4 分钟才能生成完成。但比如通过跑在我们 API 上的 Stable ÁDi∋ffusion,只需要差不多 2-3 秒的时间,所以在性能表现上有成数量级的进步。这也就是为什么,这个模型可以如此成功,因为ⓣ它足够小,生成得可以足够快。因此它能够跑在本地的 GPU 上,同时速度也更快。

所以我们需要看到,在 3D 内容生成领域也需要有 类似这样的ૄ突破,通过一♪张照片生成一个还不错的网格模型,现在大概需要 10 分钟左右,对想要将其嵌入创作体验的普通用户来说太慢了,人们想要的是能够快速响应的创作工具。

所以ટ我觉得我们需要专√注解决这个问૎题。

极客∋公ˆ园:那视频生成模型的技ણ术成熟度如何?

Tੇom Mason:ઍ我有信心它的进展会快很多。我们已经看到一些新的采样技术和模型架构,能大大缩短推理时间。图像模型构成了视频模型的核心。某种程度上,视频模型是在图像模型基础上增加了时序信息,所以只要我们把图像模型做得更小,那么视频模型也‰可以变得更高效,这是视频领域研究比较明确的方向。

我觉得我们有挺大概率在明年年底实现视频实时(生成)。ç我能看到视频的图像推理时间&#263a;在明年很快就可以达到至少 1 秒 1 帧的速度,然后到年底的时候达到实时输出的流畅度,3D 就会相对遥远一些,这取决于技术的迭代情况。但毫无疑问,我们会与包括英伟达在内的很多公司,共同在 3D 内容ઞ生成领域持续坚定地投入。

ⓩStabπil®ity AI 官网

03 

Stability≡ AI” 

是ÿ社区的ϖ一员

极客公园:你提到ϑ Staથbility AI坚持开ƿ源,支持了 8 个开源社区,开源社区的运作是怎样的?

Tom Masonલ:我们开源社区的运作模式,与 Linux 以及其他大家熟悉的开源项目是类似的,唯才是用。通过 Git 管理(社区成员)对代码库的贡献,社区成员互相审核☼代码,一旦审核通过,就ੇ可以合并到主干。

对于我们支持的开源社੠区,我们资助了一些能够带领社区的研究人员,这也使他们能够全职地参与到项目里。许多从事&#256e;这些项&#25d0;目的人都是利用业余时间做的,又或者是在攻读大学学位或博士学位时做的。他们中的许多人即使想全职投入项目的工作,但现实也无法让他们做到。我们资助了一些项目核心研究人员,让他们能够完全把精力投入到这个项目中。

当然,我们也是在非常确定这个人ઝ是对社区至关重要的情况下才这么做。这些人要么是在创造社区方面发ભ挥了重要作用,要么他们能够将社员聚集在一起,总î有一部分人在组织里不可或缺,扮演着粘合剂的角色。对于这些人,我们会去尽力地支持他们。

极客公园ઘ:StabilÔityAI 在社区里扮演怎样的角色?

Tom Mason:我认为ટ关键是,我们与社区里的其他成员并无区别。Ε作为一家企业,我઺们只是社区中的一员。我们并没有掌控它,我们只是一个贡献者。

我想我们所有人都是这样认为的。除此之外,我们并不想ⓒ扮演其他更多的角色。作为一家企业,我们只想以积极ઽ开放的方式做出贡献,并推动生态的改善。我想大家都很认同这一点。并且我们⊕也希望自己能做出更多积极的贡献。

极客公园:你们希望自己的模型能够影响 10 亿∝人,这会怎样Ε发生?

Tom Mason:Íજ一个令人激动的事实是,我们正在用大量不同的语言来训练模型。现在并没有大规模的多语言生成模ˆ型,但多语言数据集出现后就不一样了。

当下大家对于这项技术的φ认知并不多。我们看到模型覆盖范围的统计数据,它在全球的覆盖范围依然非常小。所以在未来的一两年里,我Ù们将用不同的语ú言来训练模型,并让 Stable Diffusion 兼容更多语言。我们希望可以与全球的合作伙伴一起,对我们而言与不同国家的机构合作非常重要。我们可以一起用不同语言训练这些模型。

这并不需要把技术重新开发一遍,这实际上是对现有程序的重新应用。既然我们拥有了这些架构,我们就应该快速地将它们推广出去。૊我们希望将整个模型培ણ训的过程和知识都分享出去,让各个国家的合作伙Φ伴和供应商都能掌握。这样,在未来 12 个月内,图像生成或许在全球各地还会再一次掀起浪潮,视频和音频领域也是如此。10 亿这个数字可能还远远不够,但这是我们当前的目标。

*头&#25b3;图来源લ:&#25bc;视觉中国

本文为极客∩公园原创文章,转载请联系极客君微信 geⓛekpar♧kGO

⋅Ã

&#263f;

极ਜ਼客一问

你如何看待 S઒tabilityAϑIδ

κ

ƒ

&#263d;Â

±

Ò

ψ

&#263f;

੏Χ

“掌”握↔科技鲜闻 (微信搜索tec௄hs૊ina或扫描左侧二维码关注)

新σ≈浪科ú技

新浪科技为你带来•最憨新鲜的ⓙ科技资讯

ß☎

苹果઱汇

苹∇果汇为你&#ffe1;带来最新鲜的苹果产品新闻

新ૠ浪众测¿

新ð酷‚产品第一时间免费试૪玩

新&#25b2;浪探⊥索

提供&#263d;最新的科”学家新闻,精彩的震撼χ图片

新浪科技意见反馈留ੑ言Ψ板▨

All Rights Reserv&#25a1;ed −新浪公司 ੨版权所有

关于 财经

发表评论

邮箱地址不会被公开。 必填项已用*标注