宁德生活圈

网站首页 互联网 > 正文

目标识别数据集建立了世界上最好的视觉模型

2021-09-21 12:40:57 互联网 来源:
导读 计算机视觉模型已经学会准确识别照片中的对象,从而使一些对象在某些数据集上的表现优于人类。然而,当现实世界中相同的物体检测器变得松懈

计算机视觉模型已经学会准确识别照片中的对象,从而使一些对象在某些数据集上的表现优于人类。然而,当现实世界中相同的物体检测器变得松懈时,它们的性能将明显下降,这将给自动驾驶车辆和其他使用机器视觉对安全至关重要的系统带来可靠性问题。

为了弥补这一性能差距,由CSAIL和IBM研究人员组成的团队着手创建一个非常不同的对象识别数据集。它叫ObjectNet,是ImageNet上的一个玩法,ImageNet是一个众包的照片数据库,负责触发现代人工智能的繁荣。

与ImageNet有从Flickr和其他社交媒体网站拍摄的照片不同,ObjectNet有付费自由职业者拍摄的照片。显示对象向侧面倾斜,以奇数角度拍摄,并在凌乱的房间中显示。在ObjectNet上测试领先对象检测模型时,其准确率从ImageNet上的97%下降到50-55%。

CSAIL研究科学家鲍里斯卡茨说:“我们创建这个数据集是为了告诉人们,物体识别仍然是一个难题。”“我们需要更好、更智能的算法。”卡茨和他的同事将在神经科介绍ObjectNet及其结果。

深度学习是推动AI最新发展的技术。它使用人工“神经元”层在大量原始数据中寻找模式。经过数百到数千个例子的训练,它学会了在照片中选择椅子。然而,即使是拥有数百万张图像的数据集,也无法在每个可能的方向和设置上显示每个对象,当模型在现实生活中遇到这些对象时,就会出现问题。

对象不同于传统图像数据集的另一个重要方面是:它不包含训练图像。大多数数据集被分成用于训练模型和测试其性能的数据。但训练集通常与测试集略有相似,这实际上使模型在测试时达到了隐身的巅峰。

乍一看,拥有1400万张图片的ImageNet看起来很庞大。但是,如果不包括训练集,它的大小与ObjectNet相当(50,000张照片)。

CSAIL和CBMM的研究合著者Andrei Barbu说:“如果我们想知道算法在现实世界中的表现,我们应该在无偏见和前所未有的图像上进行测试。”。

试图捕捉现实世界对象复杂性的数据集。

很少有人会考虑和朋友分享ObjectNet的照片,这是重点。研究人员从亚马逊机械土耳其公司雇佣了自由职业者,为数百件随机放置的家居用品拍照。工人们收到了应用程序上的照片分配,并附有动画说明,告诉他们如何定向分配的对象,从哪个角度拍摄,以及是否将对象放在厨房、浴室、卧室或客厅。

他们想消除三种常见的偏见:正面朝上、以标志性位置展示的物体和高度相关的设置,比如厨房里的堆叠碗碟。

花了三年时间构思数据集并设计了一个可以标准化数据收集过程的应用程序。研究合著者、麻省理工学院电气工程和计算机科学系的研究生大卫梅奥(David Mayo)说:“找出如何以控制各种偏差的方式收集数据是非常棘手的。”“我们还必须进行实验,以确保我们的说明清晰明了,确保工人确切知道他们想要什么。”

又花了一年时间收集实际数据。最后,所有自由职业者提交的照片有一半因为不符合研究者的要求而被丢弃。为了提供帮助,一些工人在他们的物品上贴上标签,把它们放在白色背景上,或者试图提高分配给他们的照片的美观度。

很多照片是在美国境外拍摄的,所以有些物体可能看起来很奇怪。成熟的橘子是绿色的,香蕉大小不一,衣服的形状和质地也不一样。

对象和图像网:主要对象识别模型的比较。

当研究人员在ObjectNet上测试最新的计算机视觉模型时,他们发现ImageNet的性能下降了40-45个百分点。研究人员说,结果表明,物体探测器仍然很难理解物体是三维的,可以旋转并移动到新的环境。研究合著者、IBM研究员丹古特弗伦德(Dan Gutfreund)说:“这些概念并没有被构建到现代物体探测器的架构中。”

为了证明ObjectNet很难准确查看和定位对象,研究人员允许模型训练ObjectNet一半的数据,然后测试另一半。在同一个数据集上进行训练和测试通常可以提高性能,但是这里的模型只是略有提升,这说明物体检测器还没有完全理解现实世界中物体的存在。

从2012年开始,计算机视觉模型逐渐完善,当时名为AlexNet的物体检测器在年度ImageNet大赛中击败了竞争对手。随着数据集变得越来越大,性能也得到提高。

然而,研究人员警告说,设计一个更大版本的ObjectNet并增加其视角和方向不一定会带来更好的结果。对象的目的。

是激励研究人员提出下一波革命性技术,就像ImageNet挑战最初的启动一样。

卡兹说:“人们为这些检测器提供了大量数据,但是收益却在减少。” “您不能从任何角度和每种情况下查看对象。我们希望,这个新的数据集将产生强大的计算机视觉,而在现实世界中不会出现令人惊讶的故障。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

免责声明: 本文由用户上传,如有侵权请联系删除!


标签: