首页 >> 电商 >> 英伟达:从图像中抽象出概念再生成新的图像,网友:人类幼崽这个习得AI终于学会了

英伟达:从图像中抽象出概念再生成新的图像,网友:人类幼崽这个习得AI终于学会了

2023-04-17 电商

羿阁 发自 凹非寺

粒子位 | 公众号 QbitAI

进化幼崽2岁就能认真的事,AI竟然才总会?

早在2017年,就有发帖吐槽:2岁幼童只要见过一次亚洲象的录像,就能在其他照片之中认显现出相异姿势、出发点和音乐风格的米老鼠亚洲象,但AI却认真不到。

早可先,这一点再一被科学家攻陷了!

最原可先研究工作发现,只要给AI喂3-5张照片,AI就能形式化显现出照片之中的水滴或音乐风格,日后随机填充既有的原可先照片。

有发帖评价:非常傻瓜,这似乎是我这几个月来看到的最好的这两项。

它是如何指导工作的?

让我们可先来看几个案例。

当你上载3张相异角度看的工艺品狐狸录像,有似乎得到不限4张原可先图表:两只在救生艇钓鱼的工艺品狐狸、工艺品狐狸袜子、班克斯艺术音乐风格的狐狸以及工艺品狐狸基调的午餐盒。

比方说的案例还有艺术品:

铠小人:

盘子:

不只是提炼出图表中的水滴,AI还能填充特定音乐风格的原可先图表。

例如所示,AI提炼出了输出图表的绘画音乐风格,填充了一系列该音乐风格的原可先自画像。

更加神奇的是,它还能将两组输出图表相结合,提炼出两组图表中的水滴,日后提炼出另两组的图表音乐风格,两者结合,填充一张崭原可先的图表。

除此之外,有了这个功能,你还可以对一些经典图表“下手”,给它们去掉一些钡。

那么,这么神奇的功能才是是什么理论呢?

尽管近两年来,大规模译文-图表数学模型,如DALL·E、CLIP、GLIDE等,早就被推论有很强的自然地语言推理小说能力。

但有一点:如果应用于程序提显现出一些特定的需求,比如填充一张包含我小时候的少年时代玩具的原可先录像,或者把母亲的涂鸦变成一件艺术品,这些大规模数学模型都很难认真到。

为了应对这一挑战,研究工作给显现出了一个浮动的、预可先训练好的译文-图表数学模型和一个描述概念的小图表集(应用于程序输出的3-5张图表),尽似乎是找寻一个也就是说的用语嵌入,从小等价中翻修图表。由于这种嵌入是通过优化过程发现的,于是特指“译文反转(Textual Inversion)”。

具体来说,就是可先形式化显现出应用于程序输出图表中的水滴或音乐风格,并转换为“S∗”这一伪用语(pseudo-word),这时,这个伪用语就可以被当作任何其他用语来处理,之后根据“S∗”组合成的自然地语句,填充既有的原可先图表,比如:

“一张S∗在海滩上的录像”、”一幅挂在挂有的S∗的国画”、”以S2∗的音乐风格画一幅S1∗”。

例外的是,由于本次研究工作应用于了一个小规模、经过策划的统计数据集,因此在填充图表时能高效率似乎会或多或少感触。

例如所示,当定时“医生”时,其他数学模型极端于填充非洲人和未成年的图表,而本数学模型填充图表中则增加了女性和其他种族的人口数。

目前,该这两项的代码和统计数据已开源,有意思的大头可以非议一下。

笔记介绍

该篇论文来自特拉维夫大学和英伟达的研究工作团队,笔记分别是Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一笔记Rinon Gal,是特拉维夫大学的计算机科学副教授,师事Daniel Cohen-Or和Amit Bermano,主要研究工作顺时针是在减少指导的有条件下填充2D和3D数学模型,目前在英伟达指导工作。

— 完—

「智能」、「智能汽车」微信社会群体邀你加入!

欢迎非议智能、智能汽车的大头们加入我们,与AI在生活中互动、切磋,不错过最原可先产业发展&系统设计实质性。

ps.加好友请一一备注您的姓名-美国公司-副手哦~

点这之中 👇非议我,回忆起标星哦~

一键三连「体会」、「点赞」和「在看」

科技前沿实质性日日相遇~

怎么治疗类风湿关节炎好的快
视疲劳滴哪个滴眼液好用
手指关节僵硬如何快速治疗
着凉拉肚子怎么服用蒙脱石散
胃反酸水能吃奥美拉唑吗
友情链接