文章转ઠ载来源:હ奇幻空间
文|杜晨&nbਯsણp; 编辑|VickyXÞe;iao
Ç
ⓛΖ 来源:硅星人
ⓜ原标题👿:《模型开源还强大?神秘公司成了吊打巨头和学阀的AI ‡“第三极”》
AI૦ ×生成图片,最近超级火的一项尖端ત技术。
火到什么程度,以至于已⊄经有公司开ભ始“套个壳¾”就出道了……
本周有消息曝出,一家创业公司 WriteSonic “剽窃”了著名模型 StaΤble DiffuÌsion,做了一个生成♡图片的产品 Photosonic AI。
这还没完,这家公司居然把该产品堂而皇之地发到了产品社区 Produ‚ct Hunt 上面,甚至一度冲到了第二的位置……
Stable Diffusion 完全免费开源,所有代码都在 GitHuℜb 上公开,任何人都可以拷贝使用——前提是需要遵循原项目采用的 ੨CreativeML Open RAIL-M 许可证。
然而原项目贡献者 Louis Castriécato 却ણ发现,WriteSonic 并没有注明使用该许可证,在 Photosonic AI 的任何地方也没有标注技术来源。
他对 WriteSoniૡc 喊话:“希望你们在 VC⌈ š面前没有假装这个东西是你们自己做的。”
目前事−情还没有完全闹开,不过 ïProduct Hunt 上已经有不少人提出了质疑。™截至本文发出,WriteSonic 创始人尚未做出回应。
∴其实,Stable Diffusion 也是一周前才正式发布公开版☜——这次抄袭事件,反倒映射出这项技术到底有多火、Stable Diffusion ñ有多受欢迎。
最近硅星人多次报道过 AI 图片生成技术,提到过 DALL·E、Midjourney、DALੈL·E mini(现用名 Craiyon)、ImageĄe;n、TikTok AI绿幕等知è名产品。
实际上,Stable Diffusion 有着强大的生成能力和广੨泛的 使用可能性,▦模型可以直接在消费级显卡上运行,生成速度也相当之快。而其免费开放的本质,更是能够让 AI 图片生成模型不再作为少数业内人士的玩物。
在强者如云、巨头纷纷入局的 AI 图片生成领域,Stable Diffusion 背后的બ“神秘”机构 Stability AI,也像是“世外高僧”一般的存在ⓔ。它♥的创始人没有那么出名,创办故事和融资细节也不是公开信息。再加上免费开源 Stable Diffusion 的慈善行为,更让人增加了对这家神秘 AI 科研机构的兴趣。
ϑ
今天,我们就来深入了解一下 Stable Diffu⇐sion 和 Stability AⓓI,这支在 AI 领域异军突起的“第三种”力量。
† 消费显卡,秒速生成,完全开′源
Stable Diffusion 是一个Ζ文字转图片的生成ੈ模型。可以只用几秒钟时间就生成比同类技术分辨率、清晰度更高,更具“真实性”¡或“艺术性”的图片结果。
项目开发领导者有两位,分别是 AI 视频剪辑技术创业公司 Runway 的ε Patrick Esser,和慕尼黑大学机ä器视觉学习组的 Robin Romabach。这个¨项目的技术基础主要来自于这两位开发者之前在计算机视觉大会 CVPR22 上合作发表的潜伏扩散模型 (Latent Diffusion Model) 研究。
另外,项目也得到了一些外部开发社区,以及 Stability AI 机构生成技术团队的支持,并且从 DALL·E 2、Imagen 等巨头模型项目当中获得和整合了一些经验参考。™项目发布的时候有专门声明对这些“竞品”项目的∩感谢。
在训练方面,模型采用了4000台 A100 显卡集群,用了一个月时间。训练数据来自大规模AI开放网络项目旗下的一个注重“美感”的数√据子集 LAION-Aesthetics,包括近5Ó9亿条图片-文字平行数据。
ι虽然训练过程的算力要求特别高,Stable Diffusion使用起来还是ª相当亲民的:可以在普通显卡上运行,即使▤显存不到10GB,仍可以在几秒钟内生成高分辨率的图像结果。
模型专门面向消费级计算设备所做的优化,意味着±更多入门级研究者、内容创作者,以及普通公众用户,都可以更加频繁接触和使用 Stable Diffuèsion,感受 A℘I 内容生成技术的最尖端能力,为他们的工作和生活带来极大的便利和乐趣。
在8月初,团队先是进行了一个大范围的公测,结果反响非常热烈,受到大批研究者和测试用户的欢迎。પ于是,团队很快就在上周一正式公开发布了 Stable Diffusion 模型。只要遵循¬ OpenRAIL-M 许可证的规定,并且不用于非法和非道德的场景,任何人都可以对该模型进行商业或非³商业使用、改造和再发布。
Stable Diffusion 并不是 AI 内容创作、AI 艺术领域的第一个模型ⓑ,很多人(包括前É几周的硅星人)都曾以为它只是一个跟随者χ而已。
੭ 然Υ而‾并不是这样!
首先,和其它开放程度相似的项目(如ćf; Craiyon、ⓤDisco Diffusion 等)相比,Stable Diffusion 的生成结果更为写实,完全不亚于 DALL·E、šImagen 等巨头开发的超大模型的结果。
其它同类模型在风格上往往会选择一种,比如之前વ我们写过的 TikTok AI绿幕模型,风格就明显更偏向油画。而 Midjourney 更像现代抽象艺术作品。谷歌 Imagen 具有明∏显的写实+渲染动画风格,DALL·E mini 则是一股”梗图”风。৻
并且,Stableća; Diffusion 的完全开放,以及在商业/非商业使用上超高的自由度,已经让它成为了一个“离群者” (outlલier),和 DALL·E、Imaએgen 等封闭/半封闭产品之间,已经形成了一道巨大的鸿沟。
Π
任何人都可以不花钱,δ拷贝一份 Stable Diffusion 的代码,按照自己喜欢的方式进行研究,并且用于处理自己需要的文ø字生成图片相关任务,甚至开发独立的应用或服务。
事实上自从 Stab♣ility AI 正式公开发લ布模型以来,已经有相当多人用它完成了自己的艺术创作,开发出各式各样的 demo、产品,以及非常有趣的小项目👽了。
比如下面这个由用户 Anthony Cao 开发的设计软件 Figma ∝插件,就是借助 S table Diffusion 的能力,用一句话就可以生成用户界面元素。
ⓙ
用户 Xander Steenbrugge b3;更厉害了:他进行了大量的尝试,最终锁定了੬36条连续的文字输入提示,成功调教了 Stable Diffusion 模型,输出了下面这样一个非常令人震撼的视频。他将视频取名为《穿越时空的旅行》。
上周我们还介绍过著名 AI 学术ઠ大佬 Andrej Karpathy。他从特斯拉 AI 总监的职位离职之后,在自己的 YouTube 上开了一堂Ċb;两个多小时的机器学习 Python 入门课。有趣的是,除了这堂课之外,其实他的账号上所有的视频都是他用 Stable Diffusion 生成的。(当时硅星人还猜想他的下一站会不会就是加入这个项્目组了。)
就连“竞品” Midjourney 都℘整合了ਪ Stable Diffusion 开发了一个功能,让用ટ户可以同时用两个模型整合来生成图片:
就这样,Stable Diffusio⊂n 实现了“开源”和 “高质量结果” 的两全其美,而这在硅星人看来正是它最受关注的关键原因。特别是开源的属性,不仅打开了新的一扇 AI 艺术创作的大门,更重要的是这扇门比以往的任何门都更宽ભ,门槛都更低。
在公开版本发布的同时,S⊃tability AI 也上线了一个新ê的工具网站,Ð名为 DreamStudio Lite。
这个‘工具可以帮助更多普通用户和ਊ创意玩家, 更加方便地使用 Stable Diffusion 模型。在网页下方有一个文本框,用户可以直接在里面输入生成所用的提示。在网页右边的工具栏还可以调节图片的大小、扩散模型步骤数量、生成图片的数量等等。(见下图)
顾名思义,现在的 DreamStudio Lite 还只是一个轻量化的版本。Staઘbility AI 团队正在加紧开发Ê高级功能,包括ψ使用设备显卡、动画支持、迭代生成、插值修复等。
Stable Diffusion 让创作这件事Ä不再成为具有高级创意训练的人专属的游戏,可以让更多人从中ડ受益。从这个角度来看,力推这一模型的开发和开源的背后组织 Stability૮ AI 厥功至伟。
࠷ 然而很多人并不熟悉这家此前名不Ζ见经传的☏神秘机构。
延续 OpenAI 火种,成为“第三å种力Û量”◐
在大约10年前,深度学习 ∂AI 的浪潮刚刚起步的时候,研究员们一边亲眼目睹潮流的到来,一边ϒ却异常尴尬苦闷。
当时的算Γ力和资金限制都非常严重,研究员基本只有两种选择:要么停留在学术界,但是基本没有任何算力可用;ⓔ要么跳槽☼到大公司,签一堆 NDA,并且在一个大公司的产品团队的环境里工作,很不自由,做出来的东西也是给公司用,而不是贡献社会。
而 OpenAI 的出现,在学术界和工业界之外创造了“第三种”可能性:既有学术界相对轻松自由的环境,又੫有巨头公↔司近乎无限的现金和充足的算力,并且以推动技术边界的扩展,造福社会为核心ਲ਼目的。
— 然而大约两年前,OpßenAI 内部积累的问题突然爆发。当时实行的非营利模式难以为继,机构也终于成立了营利部门。也是在那段时间,一波大神级核心研究员,由于无法接受这一转型,愤然离职。
后来的 OpenAI 还是推ષ出了包括 GPT-3、♧DALL·E 等知名作品,但名声早已大不如前。特别是 DALL·E 二代,明明是当时最领先的 AI 图片生成技术之一,在网上的影响力却不如 DALL·E mini,一个完全无关的个人开👽发者,所做的业余开源项目。
ੇ 对于 OpenAI 的窘境β,“超级富豪” Emad Mostaque 看在眼里,疼在心³里。
此人身价究竟几何,并没有特别清楚详尽的资料。已经公开的信息b3;显示,他有至少20年的投资基金工作经历ã,曾经在多家技术和基金公司担任工程师、战略分析师、首席投®资官等职位。
在累积了巨额š财富之Ξ后,对于利用自己的技术和资金来开展慈善和推动社会平等、ૣ技术普及等事业,这位英国人的兴趣越来越高。
他在2019年创办了一家采用技术降低手机套餐成本费用的公司,新冠袭来后⇓又ψ出资并亲自主导在斯坦福大学组建了一个非营利性质的大数据平台项目,与联合国开展合作,旨在⊂辅助各国政府制定防疫政策。
而在2020年创办的 Stability ⇐AI,则是他的“慈善Í”事业的最新篇章。根据并不充分的资料,这家机构的早期绝大部分资金都来自 Mosશtaque 本人。
从这个角度来看,他的身份,确实有点像马斯克之于 ’Ope࠽nAI。
他决定自己接过使命,成立一家和 OpenAI 早‾期的非商业模式差不太多,但开放程度࠹更高的Ù机构。
શ
总而言之,就是要比÷ OpenAI 更👽 “open”。
Κ
Stability AI 官网  º;
通过☜ Stability AI,Mostaque 希望能够延续 OpÝenAI 缔造并发扬光大的 AI 科研“第će;三种力量”,同时避免重蹈其覆辙。
这家新机构也确实在贯彻开放、公益的 OpenAI 早期科研思路:œ它的第一个对外亮相的产品/技术,就是免费、开源、几乎没有任何商业味道的 Stabϒle DiffŒusion 模型。
¿ Mostaque 曾经表示,目前大约八成的 AI 研究资金全都流向了下一代技术,而这些技术从构思到开发á,再到测试和发੪布的整个过程里,往往都是高度封闭的。
一个最典型的案♣例就是谷歌«。
作为硅谷大公司里面投身 AI 基础科研最早,投资额最大的公司,谷歌近几∠年开发的 PaLM、LaMDA、Imagen 等模型的封闭性越来越强,使用门槛相当之高,几乎没有开放给公众的可能性。该公司的 AI' 道德委员会,则被一些前委员、公司前员工以及˜第三方研究人士指责为“没用”,反而成为公司内部 AI 研究部门非道德问题的“遮羞布”。
Mostaque 就ν在想,算力、资金,ä和公众参与这三个问题,能否一同解决?“这里一定有更好的÷办法。”
⌊ 幸运的是,他和团队成功做到了这一点ૠ。
有一位网友甚至将 Mostaque 形容为AI 科研领域的 Ý;“Gigachad”(超级猛▦男):“他为人类未来做出的贡献,比其他顶级 AI 公司加起ćf;来还要多。”
AI技术分析师 Alberto Rome½ro 则指出,Stability AI 的工作之重要性在于:人们不想看到其他人如何用最੬先进的技术创造出厉η害的艺术作品,他们真正想要的是能够自己上手尝试。
而 Stability AI 不光把代码和模型权重放了出来,甚至还更进一步,开发了一个相当友好的无代码、“开袋即食”的网站(DreamStudio LiteÑ),让Ψ那些不Ζ想也不会写代码的人都能够使用。
借助 Mostaqb3;ue 之前做新冠大数据项目时积累的人脉,Sઐtabilit³y AI 目前已经和联合国达成了合作,成为了国家间、学校间和跨国公司之间 AI 技术研发合作的桥梁。
最初,整个团队还是在 Discord 聊天应用上运行的——目前很大程度上仍然如此。但今天的 St⊂abilb3;ity AI,似乎已经超越了 OpenAI 的范畴和意义,在包Þe;括学术和工业界的整个 AI 研究和应用领域都受到了巨大的欢迎。通过 Stable Diffusion,更多人体会到了 AI 图片生成技术的强大和美好。最尖端的 AI 模型,不再是少数人独享的玩具,更多用户都能够享受和利用这项技术。
Stability AI 的口号是 “AI☏ by ∂ૠthe people, for the people.”
્
它能એ做到吗?ય
ⓒ
24小‰时滚动播报最新的财经资讯和视频,更多粉丝福利&#ffe1;扫描二维码关注(sµinafinance)
新浪ⓐ财ਫ经意见α反馈留言板
▦
All Rights Reserved ਪ新&#ffe1;浪公司 版权所有