AIGC 最大独角兽：下一个目标是席卷 10 亿用户|AI|极客公园|开源社区_新浪科技_新浪网

发布日期：2023-01-03 22:13:27

2023年1月3日 189 查看

StaÓbiજlity AI CTO Tom Mason 认为，A◐IGC 的下一波浪潮将是音视频和 3D

ૌ

⇔整理 | 凌ਊ梓郡

±编辑 |∇ 郑玄

整整一年，AI 绘画的话题热度不减。人们惊异于大模型做起了「画师」，这让 AIGC（AI 生成内容）成为了热门的ࢮ资本赛道。「下一波浪潮肯定是视频、音频和 3D 内容，」&#25bd;Stability AI 的੫ CTO Tom Mason 坚定地认为，他们目前正在全力研究生成视频和音频的相关模型。

将 AI 绘画推向高ਭ潮的是 Stablυe Diffusion，一个前所未有的开源模型，对所有人开放、能够又快又好地生成图画。它的诞生路径也与众不同：源于开源社区，而非大公司。它的主要推动者是 Stability AI。公司将自己作为社区的贡献者之一，并希望探索出一条开源、AI 模型、☜社区共同前进的道路。

Stability AI 成立于 2019 年，不到三年已经成为估值ઞ超 10 亿美元的独角兽。੘Stability AI 专注于生成模型，认为它在未来会成为互联网的重要组成部分。如果说上一代 AI 算法带来的是广告推荐，那么「生成૊式 AI 正在做的，就是让消费者成为创作者，给他们创作他们自己消费的媒体内容的能力」。

今年的 IF 2023，极客公园邀请了 Stability AI 的 CTO（首席技术官）Tom Mason，他以自己的视角分享了 ♧AIGC 从默默无闻到突然爆发的全过程，并对 AIGC 未来影响世界的方式给出了自己的预测。以下是他在大会上的分享实录，经极客公园>整理发布。∧

（在极૩客公园创新大会 IF 2023 现场，极客◈公园创新业务总监 Ashley 对 To©m Mason 的访谈视频进行解读。）

ય

01ࢵ

开ⓔ源是 StÄability A&#263c;I

◑

ણ的根Ê基所在

极客公园：请简单介绍一下，在来到 St੝abiÈlity AI 之前Ô，你都有怎样的经历？

&Tom Mason：我之前有 15 ધ年的时间都在伦敦经营着一家科技公司，为大型汽车公司开发了很多不同的平台，也为很多创业公司提供技术支持。在接触 AI 和 Stabi੍lity AI 之前，我从事过很多领域。

大概 2 年前，我开始和一个开源社区一起，开发一个叫做 Disco Diffus ion 的 Python Notebook，用来生成动画和图像。那是一个很棒的社区，我和他们共事了好几个月，一ৄ起打造了给非技术用户使用的新工具。Pytho•n Notebook 和一个同时开发的产品，后来成为了 Dream Studio，通过这段经历，我发现了 Stability AI，也就是现在我所在的公司。

ⓜ

极客ય公园：Stability AIŸ 是一个怎样的公司？

Tom઴ Mason：Stability AI 非常坚持开源，某种程度上也是我们的根基所在。我们协助支持了大概 8 个开源社区，共计超过 10 万名成员，他们专攻¸不同的模态，从语言到图像、到音频 Î、视频和 3D。

我们会提供算力支持，并会资助一部分研究人员，我们拥有非常大的计算集群，现在我们在 AWS 上有 4000 个 Aô100 节点，在其他地方还有 ਜ1500 个节点。这些计算集群正在以非常快的速度增加，¸我们会将资源开放给研究员们，以便他们训练模型，这些模型最终会开源。所以可以说 Stability AI 是一个基础平台，它的支柱其实是这些开源社区。

♬同时我们内部有团队也░会给他们提供支持，建设 HPC 超算、管理这些计算集群；数据团队会提供数据上的帮助；跨职能团队（负责）跨社区的一些◘协助工作。

另外我们还有一个非常大的基础设施部ⓩ门，他们的工作主要ú是开发 API 和产品。我们会通过平台网站向全世∫界发布 API 和我们自己打造的产品。

极客公园：开源为什么至关Øι重要？Η

ૄTom Mason：我因为开源 AI 技术开启了这段旅程。于我而言，开源 AI 令人惊喜到难以置信。从我自己的家里，我可以登陆开源社区，与一个包含了所有完整信息的模型交互，并使用它做一些更酷的事，在它的基础上创建工具，这就像一次飞跃。所有这些推进了人类历史的进程，我们正生活在这样一个无比奇妙的时刻。这些（开源）赐予ૢ人类的，让我们能够去创造更美好◘、更伟大的事业，我也真的非常荣幸能参与到这个进程里，成为这个公司的一员，见证这个时刻的发生。

比如 S੡table Diffusion 的发布，我觉得开放一个如此大规模如此复杂的模型，并不ઘ是那么一件容易想到、做到的事情，（但它真的发生了）并且带来了创造力的爆发。

每天早上醒来，我都可以在网上看到 10 个不同的新项目，有很多人都એ在做一些了不起的事情，每一个小憨项目都有可能成为一家新公司઩，成为一个新的开源社区。

Ó极客公园：Stability σAI会成为像 ±OpenAI 一样的机构吗？

Tom Mason：Open AI 非常专注于 AGI（ν通用人工智能）。但这绝对不是我们的目标，我们想建立好的生成模型。因为生成式 AI 很有可能会产生更大的影响力。目前已经有很多理论在讨论它将如Œ何实现，特别是通过语言模型和视频ƿ模型，以及其他的带有时序信息的模型。

现在 AGI 不是我们关注的重点。我们只专注于构建不同ƿ模态的、好用的生成模型，用大型数据集支持这些模型的定制´化，以及支持开源。这就是我们和 OpenAI 的主要区别。我们绝对百分百地致力于让我们的模型开源，并将ê这项技术公开，让全世界的人都可以不受任何限制地使用它。这绝对是一件非常重要的事情，因为这项技术是如此具有革命性。

0઎2

AIGC&#263e; 让௄

î消费者ⓜ成为创作ੜ者

极客公园：AIGC 在这一年受到Δ了前所ⓠ未有的关注，在你看来，爆发前有哪些重要的时刻？

Tom Mason：我认为 AI 领域其中一个重要转折点是 2017 年关于 ஻Transformer 的论文，《Attention Isε All You Need》发表。论文介绍了注意力机制的概念，这使得神经网络变得更加普ਜ਼及；紧接着，基于 Transformer 网络，图像生成领域出现了很多研究，其中出现了扩散模型。最开始是 Latent Diffusion，现在有了 Stable Diffusion，它最初是由 CompVis 团队开发的。

极客公园ⓡ：在这个过程Δ中，Stable Diffusñion 是怎么诞生的？

Tom Mason：接下来两个重要的转折点，分别是数据¸集和算力。♡我们支持的其中一个项目 LA੣ION，就专注于收集和建立海量的数据集，他们现在有 50 亿图文匹配的多语种数据集，其中 20 亿是有英文标注的图片。

在这 20 亿的基础上，我们筛选出大约 10 亿数据集用于 ìStable Diffusion，数据集的工’作开始于 2、3 年前，每年规模都在Ζ增长，数据集的规模是非常重要的。除了 LAION 以外，并没有其他可用的数据集拥有这样的规模。所以当 CompVis 团队和 LAION 团队开始合作，这个神经网络就诞生了。

Ê第三个关键要素是算力的满足，在这之前，学术研究人员，开源研究者们必须通过大学的网络，或者其他提供算力资源的公司，申请算力资源。而目前 Stabφility AI 拥有世界上第十或第十一大的自用的超算。我们将这些资源提供给有需要的开源研究员，所以他们现在有能力训练世界上最大的模型，与任何其他公司相竞争。这对社区的帮助非常大ð。让他们能够有资源去做研究和开发，

也≠因此带来了现在发布的这些超棒的模型，我相信这个趋势还会增长。随ઙ着来µ到 2023 年，这里会涉及更多其他模态，比如视频，模型会越来越大，数据集会越来越大，所以这个趋势大概率会持续下去。

（T∠om Mason 在 IF 202હ3 大会现场的分享。&#25bd;）

极客公Š园Ã：今年，通过文字生成图像非常引人注目，在这之后，内Ê容生产领域还会有怎样的变化？

Tom Mason：下一波浪潮肯定是视频、音频和 3D。语言模型和图像模型的爆发和流行，实际上源于数据集的开放。我们能够从互联网上提取大量઺的文字，用它来训练图像模型。这其实是过去几年，图像和语言模型能够爆发性发展的一个重要原因。视频模型已经开始出现，它们同样依赖于大规ਲ਼模、有标注的整洁数据集，这样模型才能进行高▩效的训练。

这是我们现在主攻的领域，音频也是∫类似的。我们有一个叫 Harmonai 的团队，正在主攻文字和音频。现阶段通过训练的模型输出的结果已经非常出色，且是能够通过文Ü字输入生成的，所以这是一个非常令人兴奋的领域，我个人的热情在于视频和动画，我在加入 Stability 之前就一直在做这方面的事情ν。

互联网上并没有足够大量的视频数据ⓙ集和音频数据集，这是我们的当务之急。我们应该会通过合作的形式来完成（数据集搭建）。语言模型和图像模型的爆发和流行，实际上源于数੏据集的开放。我们能够从互联网上提取大量的文字，用它来训练图像模型。这其实是过去几年，图像和语言模型能够爆发性发展的一个&#25bc;重要原因。

❄

极客公园：视频内容®的生成的模型什么时候会发布？ੈ

Tom Mason：毫无疑问&#260e;是明年。我们现在已经有正在训练的视频模型了，લ我们也跟那些我前面提到的大数据集所有者建立了合作关系，我૜觉得模型的架构还需要优化，不过我们已经有了一些有趣的可选方案。

我非常期待明年年中，我们能够做出੉一个不错的视频模型，当然是短视频，然后慢慢向长视频（发展），这可能需要用到多模⁄型组合。同时，还要优化好场景融合和其他的相关技术。

我们的一个工具 Dream Studio，就是用来编辑和制作动画的，我们其È实正在研究动画生成的 API，让人们只用一张图片就可以生成动画，使用一种 2D 转 3D 的深度估计方法。这是一个非常酷的技术，&#261c;跟视频扩散有一点区别，我们会在明年早些时候发布，让用户体验。视频扩散则会在明年晚些ⓡ时候发布。

我非常期待有一天，我们能够打造出Ú动画和视频扩散（模型）的工具。3D 也是，明年会成为一个热门领域。我们已经看到很多包含 NeRF（注：一种将 2D 图像转 3D 模型）的管线，允许我们创建 3D 模型和资产。通过文本管线、文生图、2D 转 3Dૄ，或者摄影作品里的环境通过 NeRF 转换成 3D 模型。这些管线目前（生成速度）还非常慢，但他们正在快速░地提升效率。

∨极客公园：视频、3D 的生产模型会给人们带来怎κ样Ì的全新体验？

Tom Mason：用户应该很快就可以通过这些生成式管线，在 VR 或Ë游戏场景里创建 3D 资产…了。这会⊃是一件很重要的事情，它几乎会立刻让你想到元宇宙。在里面可以创建你自己的环境，玩家只要口述他们希望沉浸在什么样的游戏资产或环境中就可以了。这会非常令人兴奋。

我想我们中很多人都想象过。在Á VR 里，围绕我们的整个环境都是（自动）生成的。玩家能够完全掌控音乐、3D 资产和环境氛围，这样你就能完全掌控你的体验。这与当下行业里生成式 AI 取得的进展非常契合。生成式 AI 正在做的，就是让消费者成为创作♧者，给他们创作他们自己消费的媒体内容的能力。它会是一个非常令人兴奋的时刻。

极客公园：目前Ô，生成 3Dષ 内容有哪些挑战♪？

Tom Ma−son：就当下的 3D（内容生成）而言，我觉得挑战主要是生成的时间，以及分辨率。这二≥者是Ý相关联的，NeRF 模型越精确，跑起来就越慢，如果考虑什么是图像模型最令人惊艳的进展，就是生成时间（缩短）。

一年前，生成一张高分辨率的图片可能会需要几分钟，2、3 分钟或者 4 分钟才能生成完成。但比如通过跑在我们 API 上的 Stable ÁDi∋ffusion，只需要差不多 2-3 秒的时间，所以在性能表现上有成数量级的进步。这也就是为什么，这个模型可以如此成功，因为ⓣ它足够小，生成得可以足够快。因此它能够跑在本地的 GPU 上，同时速度也更快。

所以我们需要看到，在 3D 内容生成领域也需要有　类似这样的ૄ突破，通过一♪张照片生成一个还不错的网格模型，现在大概需要 10 分钟左右，对想要将其嵌入创作体验的普通用户来说太慢了，人们想要的是能够快速响应的创作工具。

所以ટ我觉得我们需要专√注解决这个问૎题。

极客∋公ˆ园：那视频生成模型的技ણ术成熟度如何？

Tੇom Mason：ઍ我有信心它的进展会快很多。我们已经看到一些新的采样技术和模型架构，能大大缩短推理时间。图像模型构成了视频模型的核心。某种程度上，视频模型是在图像模型基础上增加了时序信息，所以只要我们把图像模型做得更小，那么视频模型也‰可以变得更高效，这是视频领域研究比较明确的方向。

我觉得我们有挺大概率在明年年底实现视频实时（生成）。ç我能看到视频的图像推理时间&#263a;在明年很快就可以达到至少 1 秒 1 帧的速度，然后到年底的时候达到实时输出的流畅度，3D 就会相对遥远一些，这取决于技术的迭代情况。但毫无疑问，我们会与包括英伟达在内的很多公司，共同在 3D 内容ઞ生成领域持续坚定地投入。

ⓩStabπil®ity AI 官网

૞

੓

Stability≡ AI”

是ÿ社区的ϖ一员

极客公园：你提到ϑ Staથbility AI坚持开ƿ源，支持了 8 个开源社区，开源社区的运作是怎样的？

Tom Masonલ：我们开源社区的运作模式，与 Linux 以及其他大家熟悉的开源项目是类似的，唯才是用。通过 Git 管理（社区成员）对代码库的贡献，社区成员互相审核☼代码，一旦审核通过，就ੇ可以合并到主干。

对于我们支持的开源社੠区，我们资助了一些能够带领社区的研究人员，这也使他们能够全职地参与到项目里。许多从事&#256e;这些项&#25d0;目的人都是利用业余时间做的，又或者是在攻读大学学位或博士学位时做的。他们中的许多人即使想全职投入项目的工作，但现实也无法让他们做到。我们资助了一些项目核心研究人员，让他们能够完全把精力投入到这个项目中。

当然，我们也是在非常确定这个人ઝ是对社区至关重要的情况下才这么做。这些人要么是在创造社区方面发ભ挥了重要作用，要么他们能够将社员聚集在一起，总î有一部分人在组织里不可或缺，扮演着粘合剂的角色。对于这些人，我们会去尽力地支持他们。

极客公园ઘ：StabilÔityAI 在社区里扮演怎样的角色？

Tom Mason：我认为ટ关键是，我们与社区里的其他成员并无区别。Ε作为一家企业，我઺们只是社区中的一员。我们并没有掌控它，我们只是一个贡献者。

极客公园：你们希望自己的模型能够影响 10 亿∝人，这会怎样Ε发生？

Tom Mason：Íજ一个令人激动的事实是，我们正在用大量不同的语言来训练模型。现在并没有大规模的多语言生成模ˆ型，但多语言数据集出现后就不一样了。

当下大家对于这项技术的φ认知并不多。我们看到模型覆盖范围的统计数据，它在全球的覆盖范围依然非常小。所以在未来的一两年里，我Ù们将用不同的语ú言来训练模型，并让 Stable Diffusion 兼容更多语言。我们希望可以与全球的合作伙伴一起，对我们而言与不同国家的机构合作非常重要。我们可以一起用不同语言训练这些模型。

这并不需要把技术重新开发一遍，这实际上是对现有程序的重新应用。既然我们拥有了这些架构，我们就应该快速地将它们推广出去。૊我们希望将整个模型培ણ训的过程和知识都分享出去，让各个国家的合作伙Φ伴和供应商都能掌握。这样，在未来 12 个月内，图像生成或许在全球各地还会再一次掀起浪潮，视频和音频领域也是如此。10 亿这个数字可能还远远不够，但这是我们当前的目标。

*头&#25b3;图来源લ：&#25bc;视觉中国

本文为极客∩公园原创文章，转载请联系极客君微信 geⓛekpar♧kGO

⋅Ã

&#263f;

极ਜ਼客一问

你如何看待 S઒tabilityAϑIδ？

&#263d;Â

&#263f;

ઍ

੏Χ

‘

“掌”握↔科技鲜闻（微信搜索tec௄hs૊ina或扫描左侧二维码关注）

新σ≈浪科ú技

新浪科技为你带来•最憨新鲜的ⓙ科技资讯

ß☎

苹果઱汇

ੇ

苹∇果汇为你&#ffe1;带来最新鲜的苹果产品新闻

ૡ

新ૠ浪众测¿

新ð酷‚产品第一时间免费试૪玩

新&#25b2;浪探⊥索

提供&#263d;最新的科”学家新闻，精彩的震撼χ图片

新浪科技意见反馈留ੑ言Ψ板▨

财经news

AIGC 最大独角兽：下一个目标是席卷 10 亿用户|AI|极客公园|开源社区_新浪科技_新浪网

关于财经

相关文章

发表评论取消回复

AIGC 最大独角兽：下一个目标是席卷 10 亿用户|AI|极客公园|开源社区_新浪科技_新浪网

关于 财经

相关文章

发表评论 取消回复

关于财经

发表评论取消回复