三次元的文本到图像AI成了：单GPU不到一分钟出货

发布日期：2022-12-23 07:11:08

2022年12月23日 87 查看

机器之心&#263c;报道

੥

　编辑：泽南、杜伟

ਰ文本到 3D઻ 模型生成的速度一下提升了 600 倍，代码也已开源。Ù

文本生成图像的 AI 最近已经火到了圈外，不论是 DALL-E 2、DeepAI 还是 Stable Diffusion，人人都在调用 AI 算法搞绘画ⓕ艺术，研究对 AI 讲的「咒语」。不断进化的技术推动了文生图生态的蓬勃发展，甚至还催ⓒ生出了独角兽创业公司 Stability AI。

技术发展的脚∏步并没有停止，下个突破可能是 3D 模型生成了：本周，OpenAI 开源的 3D 模⊄型生成器 Point-E 引发了 AéI 圈的新一轮热潮，刚摆上 GitHub 一天就获得了 800 多个 star。

根据与开源内容一并发布的论文介绍，Point-E 可以在单块 ઐNvidia V1&#25b3;00 GPU 上在一到两分钟内生成 3D 模型。相比之下，现有系统（如谷歌的 DreamFusion）通常需要数小时和多块 GPU。

论文《Point¥-E: A System for Generating 3D Point Clouds from ÎComplex Promp੨ts》：

论文链૨☞接：https:੓//arxiv.org/abs/2212.08751

项目链接：https://github.cયom/openai/℘pળoint-e

Point-E 不输出传⌉统意义上的 3D 图像，它会生成点云，或空间中代表 3D 形状的离散数据点ੈ集。Point-E 中的 E 是「效率」的缩写，表示其比以前的 3D 对象生成方法更快ι。不过从计算的角度来看，点云更容易合成，但它们无法捕获对象的细粒度形状或纹理 —— 这是目前 Point-E 的一个关键限制。

为了解ૌ决这一问题，OpenAI 团队训练了一个额外的ï人工智能系统来将♫ Point-E 的点云转换为网格。

ⓙÜ

▦

Poinςt-E 架构及运行原理♦>

在独立的网格生成模型之外，Point-E¤ 主要由两个模型组成：文本到图像模型和图像到 3D 模型。文本到图像模型类似于 OpenAI 自家的 DALL-E 2 和 Stable Diffusion 等生成模型系统，在标记图像上进À行训练以理解单词和视觉概念之间的关联。在图像生成之后，图像到 3D 模型被输入一组与 3D 对象配对的图像，训练出在两&#256f;者之间有效转换的能力。

当人们给出一个文本提示 —— 例如，「一&#266a;个可≤ 3D 打印的齿轮，一个直径为 3 英寸、厚度为半英寸的齿轮」时，AI 会π生成符合描述的内容：

Point-E 通过 30 亿参数的 GLIDE 模型生成综合视图渲ε染，内容被馈送到图像到 3D 模型，通û过一系列扩散模型运行生成的图像，以创建初始图像的 3D RGB 点云 —— 先生成粗略的 1024 点云模型，然后生成更精细的 4096 ਰ点云模型。

Point-E 的点云扩散模型架构。图⊗像通过一个冻结的、预训练的 CLIP 模型输入，输æ出网格作૨为标记输入到 transformer 中。

ય

OpenAI 研究人员表示，在经过「数百万 3D 对象和相关元数据的数据集上训练模型后，Point-E 拥有了生成匹配文本提示的彩色点云的能力。Point-E 的问题和目前的生成模型一样，图像到 3D 转换过程中有时无法理解文本叙述的内容，导致生成的形状与文本提示不匹配。尽管如此，根据 OpenAI 团队的说法，它仍然比以前Ï€的最先进技术快几个数量级◘。

OpenAI 在论文中表示，「虽然 Point-E 在评估中表现得比 SOTA 方法差，ਜ਼但它只用了后者一小部分的时间就可以生成样本。这使得 Point-E 对某些应用程序更实用，或者可以利用效率ৄ获„得更高质量的 3D 对象。」

应用前Α景及版权问题∋

也许你会问，Point-E 具体有哪些应用呢？OpenAI 研究人员指出，Point-E 的点云可用于制作真实世界的ⓛ对象，比如通过 3৻D 打印制作。再加上额外的网格转换模型，系统在完善后可以用于游戏和动画开发工作流Œ程。

OpenAI 可能是最¤新一家涉足 3D 对象生成器领域的公▦司，但它并不是第一家。今年早些时候，谷歌就发布了 DreamFusion，它是谷歌 2021 年推出的生成式 3D 系统 Dream Fields 的扩展版本。É

虽然当前所有目光都集中在 2D 艺术生成器上，但模型合成 AI 可能是下一个重大的行业颠覆者。现代电影、视频游戏、VR 和 AR 的 CGI 效果、空间探索中的测绘任务、古迹遗址保护项目以及 Meûta 等科技公司的元宇宙愿景都需要高性能的 3D 建模能力。在传统行业中，建筑公司也会使੣用 3D 模型演示建筑物和景观，工程师会利用模型设计新设备、车辆和结构等░。

不过，制作 3D 模型通常需要一段时间，从几小时到几天不等。如果有一天解决了这一问×题，像 Point-E 这样的 AI 可以改变很⇑多，并让 ΤOpenAI 获得可观的利润。

潜在的问题是可能会产生知识产权纠纷。3D 模型有很大的市场，੓包括 CGStudio 和 CreativeMarket 在内的几个在线市场允许艺术家销售他们创建的内容。如果 Point-E 流行起来并投放到市场，模型艺术家们可能会抗议Ð，并拿出现代生成式 AI 严重依赖其自身训练数据的证据，ਯ比如 Point-E 中有现成的 3D 模型。

与 DALL-E 2 一样，Point-E 不承认也没有引用任何可能影响其代代发展的艺术家的作品。OpenAI 没ⓟ有明确地说明这一问题，Point-E 论文及相应 GitHub 项µ目Τ中也都没有提到版权问题。

最后，OpenAI 研究人员预计 Point-E 还面临着一些挑战，例如训练数据存在的偏差以及对可能用于创建「危险对象」的模型缺乏保护措施。因此∅，OpenAI 谨慎地将 Point-E 描述为◙一个起点，并µ希望激励文本到 3D 合成领域进一步发展。

不过按照 AI 作画发展的速度，我þ们或许很੩快就会看见下一轮技术Ì爆发了。

º参考¾内容☺：

https://www.engadget.com/openai-releases-point-e-dall-&#263b;e-3d-text-mo&#ffe1;deling-2સ10007892.html

https://techcrunch.com/2022/12/20/openai-relea࠷ses-point-e-an-ફai-that-generates-3d-models/⊃

&#25a0;<

≥转载શ请联系本公众号获得授◙权

投࠽稿或寻求报道：content@jiⓡqizhixੋin.com

“掌”握科技鲜闻（微信搜索teૄchsinÄa或扫描左ì侧二维码关注）

新浪⊗&#266a;科ઞ技

新浪科技为你带来最新鲜੢的¥科Σ技资讯

♠

઻苹果Ψ汇

苹果汇为你带来最新鲜的∃苹果产品∅新μ闻

新浪&#263c;众਩૪测

新酷产"品第一时间੓免ⓠ费试玩

新ਊ浪υ探⇓索

提供最新Å的科&#25a1;学家新闻，精੡彩的震撼图片

ï新浪科技意见ⓩ反馈留੧言板

财经news

三次元的文本到图像AI成了：单GPU不到一分钟出货

关于财经

相关文章

发表评论取消回复

三次元的文本到图像AI成了：单GPU不到一分钟出货

关于 财经

相关文章

哔哩哔哩公布2022年度弹幕：优雅|B站_新浪科技_新浪网

米哈游《原神》将于明日停服一天

米哈游回应“解散CEO蔡浩宇带队产品”：系内部业务调整|米哈游_新浪科技_新浪网

米哈游登记原神3.0版本著作权|米哈游_新浪科技_新浪网

米哈游虚拟偶像鹿鸣开启首次直播 大伟哥吹的牛实现了？|直播

发表评论 取消回复

关于财经

米哈游虚拟偶像鹿鸣开启首次直播大伟哥吹的牛实现了？|直播

发表评论取消回复