欧洲杯足彩官网-星空体育网站入口官网手机版 > > 正文

港大阿里「视觉ai任意门」,一键向场景中无缝传送物体|算法|阿里巴巴集团|视觉ai任意门-欧洲杯足彩官网

分享至
克雷西 发自 凹非寺
量子位 | 公众号 qbitai

点两下鼠标,就能把物体无缝「传送」到照片场景中,光线角度和透视也能自动适应。

阿里和港大的这个ai版「任意门」,实现了零样本的图像嵌入。

有了它,网购衣服也可以直接看上身效果了。



因为功能和任意门十分相似,所以研发团队给它起的名字就叫anydoor。

anydoor一次能够传送多个物体。



不仅如此,它还能移动图像里的已有物品。



有网友看了之后赞叹到,或许接下来就会进化到(把物体传入到)视频了。



零样本生成逼真效果

相对于已有的类似模型,anydoor具有零样本操作能力,无需针对具体物品调整模型。



除了这些需要进行参数调节的模型之外,anydoor相对于其他reference类模型也更为准确。

实际上,其他的reference类模型只能做到保持语义一致性。

通俗地说,如果要传送的物体是一只猫,其他模型只能保证结果中也有一只猫,但相似度无法保证。



我们不妨把anydoor的效果放大看看,是不是看不出什么破绽?





用户评价的结果也证实,anydoor在质量和准确度方面表现均优于现有模型(满分4分)。

而对于已有图像中物体的移动、换位,甚至改变姿态,anydoor也能出色完成。



那么,anydoor是如何实现这些功能的呢?

工作原理



要想实现物体的传送,首先就要对其进行提取。

不过在将包含目标物体的图像送入提取器之前,anydoor首先会对其进行背景消除。

然后,anydoor会进行自监督式的物体提取并转换成token。

这一步使用的编码器是以目前最好的自监督模型dino-v2为基础设计的。

为了适应角度和光线的变化,除了提取物品的整体特征,还需要额外提取细节信息。

这一步中,为了避免过度约束,团队设计了一种用高频图表示特征信息的方式。



将目标图像与sobel算子等高通滤波器进行卷积,可以得到含高频详情的图像。

同时,anydoor利用hadamard对图像中的rgb色彩信息进行提取。

结合这些信息和过滤边缘信息的遮罩,得到了只含高频细节的hf-map。



最后一步就是将这些信息进行注入。

利用获取到的token,anydoor通过文生图模型对图像进行合成。

具体来说,anydoor使用的是带有controlnet的stable diffusion。

anydoor的工作流程大致就是这样。而在训练方面,也有一些特殊的策略。


△anydoor使用的训练数据集

尽管anydoor针对的是静态图像,但有一部分用于训练的数据是从视频当中提取出来的。



对于同一物体,视频当中可以提取出包含不同背景的图像。

将物体与背景分离后标注配对,就形成了anydoor的训练数据。

不过虽然视频数据有利于学习,但还存在质量问题需要解决。

于是团队设计了自适应时间步采样策略,在不同时刻分别采集变化和细节信息。

通过消融实验结果可以看出,随着这些策略的加入,clip和dino评分均逐渐升高。



团队简介

论文的第一作者是香港大学博士生陈汐(xi chen),他曾经是阿里巴巴集团算法工程师。

陈汐的导师hengshuang zhao是本文的通讯作者,研究领域包括机器视觉、机器学习等。

此外,阿里方面还有来自达摩院、菜鸟集团的研究人员也参与了这一项目。

论文地址:
https://arxiv.org/abs/2307.09481

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

notice: the content above (including the pictures and videos if any) is uploaded and posted by a user of netease hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人工智能吗
2023-12-06 14:51:40
小椰子专栏
2023-12-06 13:07:03
老李数码
2023-12-06 19:42:57
曦财说
2023-12-06 16:42:13

普京在中东风光无限,转头发现中国闷声办大事,北京是真沉得住气

千里持剑
2023-12-07 16:13:01
朝晖前哨
2023-12-07 10:55:02
搜达足球
2023-06-12 08:19:36
深情柠檬
2023-12-07 13:14:39
趣味萌宠的日常
2023-12-07 15:22:05
广东省高级人民法院
2023-12-07 11:23:10
天津广播
2023-12-07 16:13:47
小咪侃娱圈
2023-12-07 16:43:08
上观新闻
2023-12-06 15:30:27
体育赛事名场面
2023-12-07 14:10:38

河北亿万富翁寻子事件大反转,我还是低估了解清帅!

脆皮
2023-12-07 16:15:45

3年5500万!快船为哈登开出羞辱合同!名记:这已经足够有诚意了

大湿聊球
2023-12-07 17:06:39
澎湃新闻
2023-12-07 09:24:28
文章侃娱乐
2023-12-07 15:59:04
小白读财经
2023-12-06 18:41:06
上观新闻
2023-12-06 12:41:17
2023-12-07 20:08:49
量子位
追踪人工智能动态
8768文章数 174756关注度
往期回顾 全部

万众期待的gemini大模型:比gpt-4强,但强的不多?

李金柱被开除党籍:其任内占用土地违建超4000亩球场

李金柱被开除党籍:其任内占用土地违建超4000亩球场

独行侠新老板:那个"操控世界"的犹太人

不叫"朱丽倩"!刘德华首次纠正太太名字

中植后还有多少"富人收割机"在暴雷路上

预售50万起/轴距超3米 问界m9预计12月26日上市

态度原创

没点大病,别去泰国鬼楼

带着纳糖跟山口堂弟一家见面,高高兴兴出去玩,喜娜跟哥哥亲近

《超战女武神》限量测试招募即将开启!

乌克兰前议员在莫斯科州被杀 媒体:乌方策划

网站地图