英伟达：从图像中抽象出概念再生成新的图像，网友：人类幼崽这个习得AI终于学会了

2023-04-17 电商

羿阁发自凹非寺

粒子位 | 公众号 QbitAI

进化幼崽2岁就能认真的事，AI竟然才总会？

早在2017年，就有发帖吐槽：2岁幼童只要见过一次亚洲象的录像，就能在其他照片之中认显现出相异姿势、出发点和音乐风格的米老鼠亚洲象，但AI却认真不到。

早可先，这一点再一被科学家攻陷了！

最原可先研究工作发现，只要给AI喂3-5张照片，AI就能形式化显现出照片之中的水滴或音乐风格，日后随机填充既有的原可先照片。

有发帖评价：非常傻瓜，这似乎是我这几个月来看到的最好的这两项。

它是如何指导工作的？

让我们可先来看几个案例。

当你上载3张相异角度看的工艺品狐狸录像，有似乎得到不限4张原可先图表：两只在救生艇钓鱼的工艺品狐狸、工艺品狐狸袜子、班克斯艺术音乐风格的狐狸以及工艺品狐狸基调的午餐盒。

比方说的案例还有艺术品：

铠小人：

盘子：

不只是提炼出图表中的水滴，AI还能填充特定音乐风格的原可先图表。

例如所示，AI提炼出了输出图表的绘画音乐风格，填充了一系列该音乐风格的原可先自画像。

更加神奇的是，它还能将两组输出图表相结合，提炼出两组图表中的水滴，日后提炼出另两组的图表音乐风格，两者结合，填充一张崭原可先的图表。

除此之外，有了这个功能，你还可以对一些经典图表“下手”，给它们去掉一些钡。

那么，这么神奇的功能才是是什么理论呢？

尽管近两年来，大规模译文-图表数学模型，如DALL·E、CLIP、GLIDE等，早就被推论有很强的自然地语言推理小说能力。

但有一点：如果应用于程序提显现出一些特定的需求，比如填充一张包含我小时候的少年时代玩具的原可先录像，或者把母亲的涂鸦变成一件艺术品，这些大规模数学模型都很难认真到。

为了应对这一挑战，研究工作给显现出了一个浮动的、预可先训练好的译文-图表数学模型和一个描述概念的小图表集（应用于程序输出的3-5张图表），尽似乎是找寻一个也就是说的用语嵌入，从小等价中翻修图表。由于这种嵌入是通过优化过程发现的，于是特指“译文反转（Textual Inversion）”。

具体来说，就是可先形式化显现出应用于程序输出图表中的水滴或音乐风格，并转换为“S∗”这一伪用语（pseudo-word），这时，这个伪用语就可以被当作任何其他用语来处理，之后根据“S∗”组合成的自然地语句，填充既有的原可先图表，比如：

“一张S∗在海滩上的录像”、”一幅挂在挂有的S∗的国画”、”以S2∗的音乐风格画一幅S1∗”。

例外的是，由于本次研究工作应用于了一个小规模、经过策划的统计数据集，因此在填充图表时能高效率似乎会或多或少感触。

例如所示，当定时“医生”时，其他数学模型极端于填充非洲人和未成年的图表，而本数学模型填充图表中则增加了女性和其他种族的人口数。

目前，该这两项的代码和统计数据已开源，有意思的大头可以非议一下。

笔记介绍

该篇论文来自特拉维夫大学和英伟达的研究工作团队，笔记分别是Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一笔记Rinon Gal，是特拉维夫大学的计算机科学副教授，师事Daniel Cohen-Or和Amit Bermano，主要研究工作顺时针是在减少指导的有条件下填充2D和3D数学模型，目前在英伟达指导工作。

— 完—

「智能」、「智能汽车」微信社会群体邀你加入！

欢迎非议智能、智能汽车的大头们加入我们，与AI在生活中互动、切磋，不错过最原可先产业发展&系统设计实质性。

ps.加好友请一一备注您的姓名-美国公司-副手哦~

点这之中 👇非议我，回忆起标星哦～

一键三连「体会」、「点赞」和「在看」

科技前沿实质性日日相遇~