谷歌用AI检测透明对象,实现玻璃上生成AR可视化效果-Kaiyun·yunkai(中国)官方网站·IOS/手机版APP下载/APP
(映维网2020年02月14日)诸如RGB-D摄像头和LIDAR等光学3D距离传感器已在机器人技术中获得广泛应用,并正在为从无人驾驶汽车到自动操纵器的一系列应用于分解非常丰富精确的环境3D同构。然而,诸如玻璃容器这样的半透明对象不会导致便宜传感器的恐慌。这是因为光学3D传感器是由假设所有表面皆为朗伯(Lambertian)的算法驱动,即它们在所有方向平均分配地反射光线,从而在所有视角下产生均匀分布的表面亮度。
但是,半透明对象违背了这一假设,因为它们的表面既反射又反射光线。所以,来自半透明对象的大多数深度数据一般为违宪,或包括不能预测的噪点。科技快报光学3D传感器一般来说无法检测半透明对象。例如,玻璃瓶没经常出现在英特尔实感D415 RGB-D摄像头捕捉的3D深度图像之中(上方静态图);下方动图:根据深度图像和点云方法建构的3D可视化科技快报反对机器更佳地感官半透明表面,这不仅可以提升安全性,而且需要在非结构化应用于中打开一系列全新的交互,如可以处置厨具或分类塑料以展开重复使用利用的机器人,导航系统室内环境,或在玻璃桌面分解AR可视化效果等等。
科技快报为了解决问题这个问题,谷歌与Synthesis AI和哥伦比亚大学的研究人员合作开发了取名为ClearGrasp的机器学习算法。据介绍,它需要根据RGB-D图像估算半透明对象的准确3D数据。
这主要归功于一个大规模制备数据集(谷歌日前某种程度展开了公开发表)。ClearGrasp可以因应所有标准RGB-D摄像头,然后用于深度自学来精确地修复半透明对象的深度,并一般化为训练期间不可见的全新对象。作为对比,以前的方法必须事前解读半透明对象,并且一般来说必须融合背景灯光的同构和摄像头方位。
在这项研究中,谷歌同时展示了将ClearGrasp构建到掉落和摆放式机器人的控制系统中。谷歌回应,他们注意到半透明塑料对象的捕捉成功率有了明显提升。
科技快报科技快报1. 半透明对象的可用数据集科技快报要训练有效地的深度自学模型(如用作视觉的ImageNet或用作BERT的Wikipedia),你必须大量的数据。ClearGrasp也不值得注意。失望的是,我们缺少半透明对象的3D数据集。
诸如Matterport3D或ScanNet这样的现有3D数据集会忽视半透明表面,因为它们必须便宜且耗时的标记过程。科技快报为解决问题此问题,研发团队自行建构了半透明对象的大规模数据集,其中包括50000多个具备适当表面法线(回应表面曲率),拆分蒙版,边缘和深度的图片真实感图形,并可用作训练各种2D和3D检测任务。每个图像最多包括五个半透明对象,而它们要么坐落于平缓的地平面之上或手提袋之内,并且具备有所不同的背景和灯光。
科技快报研究人员同时划入了包括286张真实世界图像的测试集,而它们具备适当的ground truth深度。对于真实世界图像,团队将场景中的每个半透明对象更换为具备完全相同姿态的绘制对象。图像是在各种有所不同的室内灯光条件下并用于各种布料和贴面背景捕捉,并且包括散播在场景周围的不半透明对象。它们既还包括制备训练集中于不存在的未知对象,又包括新的对象。
科技快报2. 挑战科技快报通过半透明对象看见的变形背景视图不会误解典型的深度估算方法,但不存在似乎对象形状的线索。半透明表面不会经常出现镜面反射,并在光线充裕的环境中表明为亮点。由于这种视觉提醒在RGB图像中十分显著,并且主要不受对象形状的影响,所以卷积神经网络可以利用光线来推断出准确的表面法线,然后再行将其用作深度估算。
科技快报大多数机器学习算法都尝试必要根据单眼RGB图像估算深度。但即便是人类,单眼深度估算都是一项艰难的任务。
我们在估算平缓背景表面的深度时会仔细观察到较小的误差,这加剧了摆放于其上的半透明对象的深度估计误差。所以,研究人员指出与其必要估算所有几何图形的深度,不如修正来自RGB-D 3D摄像头的初始深度估计值,这将容许他们用于非半透明表面的深度来确认半透明表面的深度。科技快报3. ClearGrasp算法科技快报ClearGrasp用于3个神经网络:一个用作估算表面法线的网络,一个用作遮盖边界(深度不倒数)的网络,网卓新闻网,另一个用作遮挡半透明对象的网络。感测器用作移除归属于半透明对象的所有像素,以便需要填满准确的深度。
然后团队用于了全局优化模块,用于预测的表面找到来引领修复的形状,以及用于预测的遮盖边界来维持有所不同对象之间的分离出来。
本文关键词:Kaiyun·yunkai(中国)官方网站,Kaiyun·yunkai(中国)官方网站·IOS/手机版APP下载/APP
本文来源:Kaiyun·yunkai(中国)官方网站-www.hoymk.com