哈哈(haha)体育

哈哈体育.(HAHA)十年运营,信誉无忧

返回新闻中心

? ? ?

手艺能力

以原创手艺系统为基本，，，，，，SenseCore商汤AI大装置为焦点基座，，，，，，结构多领域、多偏向前沿研究，，，，，，快速买通AI在各个笔直场景中的应用，，，，，，向行业赋能。。。。。。

申请试用

相识所有案例

相识所有产品效劳

商汤研究

商汤研究始终坚持原创，，，，，，一直突破立异。。。。。。具有人工智能领域深挚的学术积累，，，，，，具备健全的人才作育机制，，，，，，已与海内外五十余所一流高校和科研院所建设了深度相助关系，，，，，，并与众多行业同仁同心共建AI生态圈。。。。。。

申请试用

相识所有案例

相识所有产品效劳

商汤大装置AI云 SenseCore

建设高效率、低本钱、规�；；；；；� AI 云基础设施，，，，，，打造专业的深度学习平台及算法模子系统，，，，，，引领AI立异，，，，，，助力工业界及学术界探索 AI 界线。。。。。。

申请试用

相识所有案例

相识所有产品效劳

商汤日日新大模子 SenseNova

商汤日日新大模子 SenseNova，，，，，，可以提供自然语言处置惩罚、图片天生、自动化数据标注、自界说模子训练等多种大模子及能力。。。。。。

申请试用

相识所有案例

相识所有产品效劳

水星智能移动终端平台 SenseME

哈哈(haha)体育SenseME 水星智能移动终端平台提供包括SDK、AI传感器和ISP芯片等全套产品，，，，，，能够支持诸多物联网装备，，，，，，以增进感知智能和内容增强

申请试用

相识所有案例

相识所有产品效劳

火星混淆现实平台 SenseMARS

SenseMARS平台通过对物理天下的数字重修、虚拟化身和软件智能体，，，，，，创立全新的陶醉式和交互式的元宇宙体验

申请试用

相识所有案例

相识所有产品效劳

晶识智能零售平台 SenseGalaxy

基于商汤SKU商品识别大模子，，，，，，用AI赋能智能结算、库存盘货、纯净度审核等营业场景并快速拓展至智慧商流与智慧物流领域。。。。。。

申请试用

相识所有案例

相识所有产品效劳

焦点手艺: 以原创手艺系统为基本，，，，，，SenseCore商汤AI大装置为焦点基座，，，，，，结构多领域、多偏向前沿研究，，，，，，
快速买通AI在各个笔直场景中的应用，，，，，，向行业赋能。。。。。。

< 返回论文解读

CVPR 2021｜有的放矢，，，，，，用图像支解与像素投票找到预界说的地标点

2022-02-22

视觉定位这一使命的目的是凭证图像盘算出相机的六自由度位姿，，，，，，即三自由度的位置和三自由度的旋转。。。。。。现在主流的视觉定位要领有两种，，，，，，即基于 SfM 的视觉定位要领和基于场景坐标回归的要领。。。。。。

虽然基于场景坐标回归的要领在小型静态场景中的视觉定位方面已经体现出优异的性能，，，，，，但它仍然会回归出许多较差质量的场景坐标，，，，，，这会给准确的相机位姿预计带来影响。。。。。。为相识决这个问题，，，，，，我们提出了一种新颖的视觉定位框架 VS-Net，，，，，，并在多个公共数据集上举行了测试，，，，，，性能优于之前的场景坐标回归要领和一些代表性的基于 SfM 的视觉定位要领。。。。。。

VS-Net: Voting and Segmentation for Visual Localization

Zhaoyang Huang1,2* Han Zhou1* Yijin Li1 Bangbang Yang1 Yan Xu2 Xiaowei Zhou1 Hujun Bao1 Guofeng Zhang1? Hongsheng Li2,3

1State Key Lab of CAD&CG, Zhejiang University? 2CUHK-SenseTime Joint Laboratory, The Chinese University of Hong Kong 3School of CTS, Xidian University

Part 1 论文简介

虽然基于场景坐标回归的要领在小型静态场景中的视觉定位方面已经体现出优异的性能，，，，，，但它仍然会回归出许多较差质量的场景坐标，，，，，，这会给准确的相机位姿预计带来影响。。。。。。为相识决这个问题，，，，，，我们提出了一种新颖的视觉定位框架，，，，，，该框架凭证场景制订一系列可学习的特定场景地标，，，，，，并通过这些地标在盘问图像和 3D 地图之间建设 2D 到 3D 的对应关系。。。。。。在地标天生阶段，，，，，，目的场景的 3D 外貌被匀称支解成小块，，，，，，并将每个小块的中心视为场景特定的地标。。。。。。为了鲁棒而准确地恢复特定场景的地标，，，，，，我们提出了一种同时展望支解与像素投票的网络 VS-Net，，，，，，通过使用该网络的支解分支将二维图像中的像素支解为差别的地标块，，，，，，并使用像素投票分支预计每个块在二维图像内的地标位置。。。。。。由于场景中的地标数目可能多达5千甚至更多，，，，，，使用常用的交织熵损失训练具有云云多类别的支解网络而言盘算与显存本钱过高。。。。。。为此，，，，，，我们进一步提出了一种新的基于原型的三元组损失函数与在线负样本挖掘战略，，，，，，能够有用地监视训练具有大宗标签的语义支解网络。。。。。。总的来说，，，，，，该事情的主要孝顺如下：

提出通过场景定制化地标来举行视觉定位，，，，，，并提出通过投票与支解（voting-by-segmentation）来定位图像中的场景地标，，，，，，从而使得相机位姿预计能更精准鲁棒。。。。。。

由于场景地标数目过大（即图像支解是标签数目过大），，，，，，我们提出了基于原型的三元组损失（prototype-based triplet loss）来解决标签数目很大情形下的图像支解问题。。。。。。据我们所知，，，，，，我们是第一个解决标签数目很大情形下的图像支解问题。。。。。。在640x480区分率，，，，，，5千个标签种别设置下的图像支解使命中，，，，，，我们提出的损失只需要古板的交织熵损失算力和显存消耗的约0.1%（26.7MFLOPS v.s. 36.9GFLOPS；；；；；3.08MB v.s. 5.7GB）。。。。。。

Part 2 相关事情

1. 基于SfM（Structure-from-Motion）的视觉定位要领

古板的视觉定位框架通过 SfM 手艺构建地图，，，，，，使用通用特征检测器和形貌符。。。。。。给定一个盘问图像，，，，，，他们提取相同的 2D 特征并通过形貌符将它们匹配到地图中的 3D 特征。。。。。。特征检测器和特征形貌符的关系在这个框架中很是主要，，，，，，由于它同时影响了地图质量和盘问图像中 2D-3D 对应关系的匹配水平，，，，，，这决议了定位的准确性。。。。。。在基于 SfM 的视觉定位系统中，，，，，，地图中的 3D 特征点是凭证多个相对应的2D点通过三角丈量法重修。。。。。。这些地图中的 3D 特征点会很是缭乱（如图1(a)所示），，，，，，由于一个现实场景中的 3D 点往往会被多个差别的3D 特征点来表达，，，，，，这是由于建图时图像的视角转变较大而使得 2D 特征未能匹配乐成，，，，，，这种质量不高的地图会影响视觉定位效果。。。。。。

图1 SfM构建地图与深度传感器构建地图较量

2. 基于场景坐标回归（Scene Coordinate Regression）的视觉定位要领

随着深度学习的生长，，，，，，训练特定场景的神经网络对地图举行编码并使用它对该场景的图像举行定位定位成为另一种视觉定位计划。。。。。。场景坐标回归的视觉定位要领通过训练一个神经网络来展望图像每个像素的场景坐标来构建 2D-3D 对应关系，，，，，，然后使用经典的 RANSAC-PnP 要领来盘算相机位姿。。。。。。该计划能够使用没有特征数据库可是越发准确的三维地图（如图1(b)是一个使用深度传感重视修的浓密地图），，，，，，并在中小型场景中取得了优异效果。。。。。。然而通过该要领构建的 2D-3D 对应关系仍然不敷准确且外点比例较高（如图2(b)所示）。。。。。。与之相比，，，，，，我们提出的 VS-Net 会获得希罕可是更准确鲁棒的 2D-3D 对应（如图2(c)所示），，，，，，这同时增添了定位的精度和鲁棒性。。。。。。

图 2 2D-3D 对应关系的重投影误差较量

Part 3 要领形貌

图 3 VS-Ne视觉定位框架

场景坐标回归要领较量适合小规模场景的视觉定位使命，，，，，，一样平常为每个像素都建设输入盘问图像和场景的 3D 外貌点的 2D-3D 对应关系（即场景坐标）。。。。。。然而，，，，，，很大一部分像素展望的对应三维场景坐标有很高的重投影误差，，，，，，这增添了定位失败的可能性并降低后续 RANSAC-PnP 算法的定位精度。。。。。。针对这些问题，，，，，，我们提出使用 VS-Net 来识别一系列场景定制化的地标（图 3）并建设它们与 3D 地图的对应关系以实现准确定位。。。。。。场景定制化的地标是从场景的 3D 外貌直接界说的一组希罕的三维点。。。。。。我们对场景的 3D 外貌举行匀称支解，，，，，，获得一组面片（patches），，，，，，并挑选每个面片的几何中心作为场景定制化地标。。。。。。给定差别视角的训练图像，，，，，，我们可以投影这些天生的场景地标及其面片到图像平面以识别它们在图像中的对应像素。。。。。。通过这种方法，，，，，，我们可以为所有训练图像天生对应的地标信息。。。。。。

在训练阶段，，，，，，我们使用类似语义支解的像素级支解来展望属于每个在推理阶段，，，，，，给定一个新的输入图像，，，，，，我们从 VS-Net 获得地标支解图和地标位置投票图。。。。。。然后可以基于地标支解和位置投票图建设 2D 到 3D 地标对应关系。。。。。。与只能通过筛选场景坐标回归要领中 2D 到 3D 对应异常值的 RANSAC-PnP 算法差别，，，，，，我们提出的要领中的地标若是没有足够高的投票置信度，，，，，，就会被直接放弃，，，，，，这就阻止了从定位禁绝确的地标中预计相机的位置（图2）。。。。。。别的，，，，，，建设在场景坐标要领上的对应关系很容易受到不稳固展望的影响，，，，，，而在哈哈(haha)体育要领中，，，，，，受稍微滋扰的投票不会影响投票地标位置的准确性，，，，，，由于它们会被面片内 RANSAC 盘算交点算法过滤掉。。。。。。像素对应的三维地标 ID。。。。。。同时我们增添地标二维位置定位分支，，，，，，通过输出指向地标二维投影的偏向向量，，，，，，使每个像素认真预计其响应地标的二维位置。。。。。。

场景唯一地标天生：

n} ∈R3 被选为场景唯一地标举行定位。。。。。。由于 Supervoxel 爆发巨细相似的块，，，，，，天生的地标大多匀称地散布在三维外貌上，，，，，，这可以从差别的角度提供足够的地标，，，，，，因此有利于定位鲁棒性。。。。。。

给定训练图像和场景的相机姿势，，，，，，三维场景特定的地标 {q1, . . . ,qn}，，，，，，以及它们相关的三维块可以被投影到二维图像上。。。。。。关于每幅图像，，，，，，我们可以天生一个地标支解图 S∈ZH×W 和一个地标位置投票图 d∈RH×W×2。。。。。。关于基于块的地标支解，，，，，，坐标 pi= (ui, vi)的像素被分派到由三维块的投影决议的地标标签（ID）。。。。。。若是一个像素对应的区域没有被投影面笼罩，，，，，，如天空或远处的物体，，，，，，则给它分派一个配景标签0，，，，，，体现这个像素对视觉定位无效。。。。。。

关于地标位置投票，，，，，，我们首先通过凭证相机内在矩阵 K 和相机姿态参数 C 投影三维地标来盘算地标 qj 的投影二维位置 lj=P(qj, K, C)∈R2。。。。。。属于地标 j 的的每个像素认真展望指向 j 的二维投影的二维偏向向量 di∈R2，，，，，，即

其中 di 是一个归一化的二维向量，，，，，，体现地标 j 的偏向。。。。。。

在界说了真实地标支解图和真实偏向投票图后，，，，，，我们可以监视所提出的 VS-Net 展望这两个图。。。。。。经由训练，，，，，，VS-Net 可以展望盘问图像的支解图和投票图，，，，，，我们可以据此建设准确的二维到三维的对应关系，，，，，，以实现稳健的视觉定位。。。。。。

基于原型的在线学习三元监视投票支解网络：

古板的语义支解使命一样平常接纳交织熵损失来监视所有展望像素的完整分类

古板的语义支解使命一样平常接纳交织熵损失来监视所有展望像素的完整分类 One-Hot 向量。。。。。。然而，，，，，，哈哈(haha)体育地标支解需要输出具有大宗种别（地标）的支解图，，，，，，以有用地识别每个场景唯一地标。。。。。。通例语义支解中的逐像素交织熵损失和通例的三元组损失在此时都不可用。。。。。。

为相识决这个问题，，，，，，我们提出了一种新的基于原型的三元组支解损失函数和在线负采样战略来监视有大宗类的语义支解。。。。。。它维护和更新一组可学习的类原型嵌入，，，，，，每一个嵌入都代表一个语义类，，，，，，即 Pj 体现第 j 个类的嵌入。。。。。。直观地说，，，，，，第 j 类的嵌入应该靠近 Pj，，，，，，并远离其他类的原型。。。。。。我们提出的损失是基于具有在线负采样战略的三元组损失设计的。。。。。。

图 4 在线负采样战略

给定 VS-Net 的图像支解分支输出的逐像素特征图E和类的原型集 P，，，，，，首先我们对各个特征和原型举行 L2 规范化，，，，，，然后使用基于特征原型的三元组损失对其举行优化，，，，，，以使每个像素的特征更靠近它对应的类的特征原型而远离其他类的特征原型。。。。。。关于正负采样，，，，，，我们设计了两种采样战略，，，，，，一种是把目今展望的特征图中所有具有相同 landmark id 的 embedding 每一维取均值作为哈哈(haha)体育 anchor 特征向量，，，，，，然后从 prototype set 中选择正负样本监视网络训练，，，，，，也就是图4(a) 的采样方法。。。。。。但这样选择的负样本可能不敷充分，，，，，，为了在不显著增添盘算量的同时包管负样本的多样性，，，，，，我们对每个像素盘算k个最相近的负样本，，，，，，也就是图4(b) 所绘制的采样方法。。。。。。

其中的：

体现像素向量和类原型向量之间的余弦相似度，，，，，，m 代表三元组损失的边际，，，，，，P_(i+) 体现与像素 i 相对应的 ground-truth（正）类原型向量，，，，，，P_(i-) 体现非对应的（负）类原型向量的采样。。。。。。

关于每个像素，，，，，，怎样在上述基于原型的三元组损失中确定其负类原型向量 Pi- 对最终性能有至关主要的影响，，，，，，随机抽样负类会使训练过于简朴。。。。。。给定输入图像，，，，，，我们视察到运动地标的数目（即图像中属于地标的至少一个像素）是有限的。。。。。。别的，，，，，，属于统一地标块的像素在特征空间上相互靠近，，，，，，并且会共享相似的负原型，，，，，，由于它们具有相似的向量。。。。。。因此，，，，，，我们建议为每个运动地标挖掘代表性负类，，，，，，每个像素随机采样来自挖掘类集的负类以形成代表三元组。。。。。。

详细来说，，，，，，给定一个有地标索引（种别）i+ 的像素 i，，，，，，我们首先检索输入图像中与地标 i+ 相关的所有像素向量，，，，，，并取其平均值以获适当图像中地标的平均类向量值 Mi+。。。。。。然后使用平均类向量从原型嵌入集中检索 k 个最近邻负原型 Pi。。。。。。�？？？？？梢越庋� kNN 负原型以为是硬负样本。。。。。。三元组损失使用像素 i 的从 kNN 负向原型集中匀称采样的简单负原型向量 Pi-（公式 (2) ）。。。。。。

基于偏向向量的投票网络：

给定从上面先容的支解解码器天生的支解图，，，，，，输入图像中的每个像素要么被分派一个地标标签，，，，，，要么是一个无效的标签，，，，，，用于体现太远的物体或区域（例如：天空）。。。。。。我们使用了另一个投票解码器，，，，，，用于确定给定图像中地标的投影 2D 位置。。。。。。解码器每个像素输出一个 2D 偏向向量，，，，，，指向其响应地标的 2D 位置。。。。。。投票解码器使用以下损失监视，，，，，，

其中1体现 L1 范数，，，，，，其中的和划分体现像素 i 的 ground-truth 的投票偏向和展望的投票偏向。。。。。。

训练与定位：

整体损失 L_overall 是地标支解损失和地标偏向投票损失的组合，，，，，，

其中 λ 对损失项的孝顺举行加权。。。。。。

在定位阶段，，，，，，我们将地标支解图中展望具有相同地标标签的像素组合在一起，，，，，，我们通过盘算展望投票图中地标偏向投票的交集来预计其对应的地标位置，，，，，，称为投票-支解算法。。。。。。

详细的，，，，，，给定支解图，，，，，，我们首先过滤掉像素隔宿小于阈值 Ts 的地标块，，，，，，由于太小的地标其指向的 2D 地标位置通常也是不稳固的。。。。。。使用向量求交模子从 RANSAC 盘算出地标的 2D 位置的初始预计，，，，，，该模子通过盘算两个随机采样的定向投票的交织并选择具有最多的假设来天生多个地标位置假设内部投票。。。。。。然后，，，，，，位置通过迭代 EM 算法进一步细化。。。。。。在 E 办法中，，，，，，我们从目今周围圆形区域中网络地标 j 的内部投票向量。。。。。。在 M 步中，，，，，，我们接纳了 Antonio 等人先容的最小二乘法。。。。。。凭证圆形区域中的投票盘算更新的地标位置。。。。。。在迭代历程中，，，，，，一个没有获得足够定向投票支持的投票地标，，，，，，批注投票一致性低，，，，，，将被舍弃。。。。。。

Part 4 试验效果

我们在 Microsoft 7-Scenes 和 Cambridge Landmarks 两个数据集上与基于 SfM 和基于场景坐标回归的视觉定位要领举行了较量。。。。。。如表1所示，，，，，，我们提出的基于定制化地标的视觉定位计划在所有场景中都取得了最好的精度，，，，，，并在一些场景中（好比 GreatCourt 与 Office）显著优于其他要领。。。。。。

表 1 视觉定位精度较量。。。。。。我们通过相机平移误差与相机旋转误差的中位数来较量定位精度

我们也对一些较量有挑战的盘问图像举行了视觉定位效果的较量。。。。。。对给定的盘问图像，，，，，，我们用定位系统盘算出相机位姿之后，，，，，，将重修的 3D 模子投影到对应的相机位姿中。。。。。。通过比照盘问图像与重投影天生的图像我们可以定性的较量视觉定位的效果。。。。。。如图5所示，，，，，，只管有较量极端的动态物体遮挡图5(a) 和卑劣的光照条件图5(b)，，，，，，我们仍然能较量好地预计相机位姿。。。。。。

图 5对有挑战性图像的视觉定位

Reference:

[1]Sameer Agarwal, Yasutaka Furukawa, Noah Snavely, Ian Simon, Brian Curless, Steven M Seitz, and Richard Szeliski. Building rome in a day. Communications of the ACM, 54(10):105–112, 2011.

[2]Franklin Antonio. Faster line segment intersection. In Graphics Gems III (IBM Version), pages 199–202. Elsevier, 1992.

[3]Relja Arandjelovic, Petr Gronat, Akihiko Torii, Tomas Pajdla, and Josef Sivic. Netvlad: Cnn architecture for weakly supervised place recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5297–5307, 2016.

[4]Clemens Arth, Daniel Wagner, Manfred Klopschitz, Arnold Irschara, and Dieter Schmalstieg. Wide area localization on mobile phones. In 2009 8th ieee international symposium on mixed and augmented reality, pages 73–82. IEEE, 2009.

[5]Nicolas Aziere and Sinisa Todorovic. Ensemble deep manifold similarity learning using hard proxies. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7299–7307, 2019.

[6]Herbert Bay, Tinne Tuytelaars, and Luc Van Gool. SURF: Speeded up robust features. In Proceedings of the European conference on computer vision, pages 404–417. Springer, 2006.

[7]Eric Brachmann, Alexander Krull, Sebastian Nowozin, Jamie Shotton, Frank Michel, Stefan Gumhold, and Carsten Rother. Dsac-differentiable ransac for camera localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6684–6692, 2017.

[8]Eric Brachmann and Carsten Rother. Learning less is more6d camera localization via 3d surface regression. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4654–4662, 2018.

[9]Eric Brachmann and Carsten Rother. Expert sample consensus applied to camera re-localization. In Proceedings of the IEEE International Conference on Computer Vision, pages 7525–7534, 2019.

[10]Samarth Brahmbhatt, Jinwei Gu, Kihwan Kim, James Hays, and Jan Kautz. Geometry-aware learning of maps for camera localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2616– 2625, 2018.

[11]Ignas Budvytis, Marvin Teichmann, Tomas Vojir, and Roberto Cipolla. Large scale joint semantic re-localisation and scene understanding via globally unique instance coordinate regression. arXiv preprint arXiv:1909.10239, 2019.

[12]Federico Camposeco, Andrea Cohen, Marc Pollefeys, and Torsten Sattler. Hybrid scene compression for visual localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7653–7662, 2019.

[13]Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. CoRR, abs/1706.05587, 2017.

[14]Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE transactions on pattern analysis and machine intelligence, 40(4):834–848, 2017.

[15]Daniel DeTone, Tomasz Malisiewicz, and Andrew Rabinovich. Superpoint: Self-supervised interest point detection and description. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 224–236, 2018.

[16]Michael Donoser and Dieter Schmalstieg. Discriminative feature-to-point matching in image-based localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 516–523, 2014.

[17]Mihai Dusmanu, Ignacio Rocco, Tomas Pajdla, Marc Polle- ? feys, Josef Sivic, Akihiko Torii, and Torsten Sattler. D2-net: A trainable CNN for joint description and detection of local features. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019, Long Beach, CA, USA, June 16-20, 2019, pages 8092–8101, 2019.

[18]Martin A Fischler and Robert C Bolles. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24(6):381–395, 1981.

[19]Yixiao Ge, Haibo Wang, Feng Zhu, Rui Zhao, and Hongsheng Li. Self-supervising fine-grained region similarities for large-scale image localization. arXiv preprint arXiv:2006.03926, 2020.

[20]Yisheng He, Wei Sun, Haibin Huang, Jianran Liu, Haoqiang Fan, and Jian Sun. Pvn3d: A deep point-wise 3d keypoints voting network for 6dof pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11632–11641, 2020.

[21]Zhaoyang Huang, Yan Xu, Jianping Shi, Xiaowei Zhou, Hujun Bao, and Guofeng Zhang. Prior guided dropout for robust visual localization in dynamic environments. In Proceedings of the IEEE International Conference on Computer Vision, pages 2791–2800, 2019.

[22]Marco Imperoli and Alberto Pretto. Active detection and localization of textureless objects in cluttered environments. arXiv preprint arXiv:1603.07022, 2016.

[23]Alex Kendall and Roberto Cipolla. Geometric loss functions for camera pose regression with deep learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5974–5983, 2017.

[24]Alex Kendall, Matthew Grimes, and Roberto Cipolla. Posenet: A convolutional network for real-time 6-dof camera relocalization. In Proceedings of the IEEE international conference on computer vision, pages 2938–2946, 2015.

[25]Xiaotian Li, Shuzhe Wang, Yi Zhao, Jakob Verbeek, and Juho Kannala. Hierarchical scene coordinate classification and regression for visual localization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11983–11992, 2020.

[26]Yunpeng Li, Noah Snavely, and Daniel P Huttenlocher. Location recognition using prioritized feature matching. In European conference on computer vision, pages 791–804. Springer, 2010.

[27]Yutian Lin, Lingxi Xie, Yu Wu, Chenggang Yan, and Qi Tian. Unsupervised person re-identification via softened 6109 similarity learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3390–3399, 2020.

[28]Yuan Liu, Zehong Shen, Zhixuan Lin, Sida Peng, Hujun Bao, and Xiaowei Zhou. Gift: Learning transformation-invariant dense visual descriptors via group cnns. In Advances in Neural Information Processing Systems, pages 6990–7001, 2019.

[29]Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3431–3440, 2015.

[30]David G Lowe. Distinctive image features from scaleinvariant keypoints. International journal of computer vision, 60(2):91–110, 2004.

[31]Jean-Michel Morel and Guoshen Yu. Asift: A new framework for fully affine invariant image comparison. SIAM journal on imaging sciences, 2(2):438–469, 2009.

[32]Yair Movshovitz-Attias, Alexander Toshev, Thomas K Leung, Sergey Ioffe, and Saurabh Singh. No fuss distance metric learning using proxies. In Proceedings of the IEEE International Conference on Computer Vision, pages 360–368, 2017.

[33]Richard A Newcombe, Shahram Izadi, Otmar Hilliges, David Molyneaux, David Kim, Andrew J Davison, Pushmeet Kohli, Jamie Shotton, Steve Hodges, and Andrew W Fitzgibbon. Kinectfusion: Real-time dense surface mapping and tracking. In ISMAR, volume 11, pages 127–136, 2011.

[34]Markus Oberweger, Mahdi Rad, and Vincent Lepetit. Making deep heatmaps robust to partial occlusions for 3d object pose estimation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 119–134, 2018.

[35]Yuki Ono, Eduard Trulls, Pascal Fua, and Kwang Moo Yi. Lf-net: learning local features from images. In Advances in neural information processing systems, pages 6234–6244, 2018.

[36]Jeremie Papon, Alexey Abramov, Markus Schoeler, and Florentin Worg ¨ otter. Voxel cloud connectivity segmentation - ¨ supervoxels for point clouds. In Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, Portland, Oregon, June 22-27 2013.

[37]Georgios Pavlakos, Xiaowei Zhou, Aaron Chan, Konstantinos G Derpanis, and Kostas Daniilidis. 6-dof object pose from semantic keypoints. In 2017 IEEE international conference on robotics and automation (ICRA), pages 2011–2018. IEEE, 2017.

[38]Sida Peng, Yuan Liu, Qixing Huang, Xiaowei Zhou, and Hujun Bao. Pvnet: Pixel-wise voting network for 6dof pose estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4561–4570, 2019.

[39]Qi Qian, Lei Shang, Baigui Sun, Juhua Hu, Hao Li, and Rong Jin. Softtriple loss: Deep metric learning without triplet sampling. In Proceedings of the IEEE International Conference on Computer Vision, pages 6450–6458, 2019.

[40]Tong Qin, Peiliang Li, and Shaojie Shen. Vins-mono: A robust and versatile monocular visual-inertial state estimator. IEEE Transactions on Robotics, 34(4):1004–1020, 2018.

[41]Jerome Revaud, Cesar De Souza, Martin Humenberger, and Philippe Weinzaepfel. R2d2: Reliable and repeatable detector and descriptor. In Advances in Neural Information Processing Systems, pages 12405–12415, 2019.

[42]Olaf Ronneberger, Philipp Fischer, and Thomas Brox. Unet: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241. Springer, 2015.

[43]Ethan Rublee, Vincent Rabaud, Kurt Konolige, and Gary Bradski. ORB: An efficient alternative to SIFT or SURF. In Proceedings of the IEEE international conference on Computer Vision (ICCV), pages 2564–2571. IEEE, 2011.

[44]Paul-Edouard Sarlin, Cesar Cadena, Roland Siegwart, and Marcin Dymczyk. From coarse to fine: Robust hierarchical localization at large scale. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12716–12725, 2019.

[45]Torsten Sattler, Bastian Leibe, and Leif Kobbelt. Improving image-based localization by active correspondence search. In European conference on computer vision, pages 752–765. Springer, 2012.

[46]Johannes L Schonberger and Jan-Michael Frahm. Structurefrom-motion revisited. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4104–4113, 2016.

[47]Johannes Lutz Schonberger, Enliang Zheng, Marc Pollefeys, ¨ and Jan-Michael Frahm. Pixelwise view selection for unstructured multi-view stereo. In European Conference on Computer Vision (ECCV), 2016.

[48]Florian Schroff, Dmitry Kalenichenko, and James Philbin. Facenet: A unified embedding for face recognition and clustering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 815–823, 2015.

[49]Jamie Shotton, Ben Glocker, Christopher Zach, Shahram Izadi, Antonio Criminisi, and Andrew Fitzgibbon. Scene coordinate regression forests for camera relocalization in rgb-d images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2930–2937, 2013.

[50]Chen Song, Jiaru Song, and Qixing Huang. Hybridpose: 6d object pose estimation under hybrid representations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 431–440, 2020.

[51]Julien Valentin, Matthias Nie?ner, Jamie Shotton, Andrew Fitzgibbon, Shahram Izadi, and Philip HS Torr. Exploiting uncertainty in regression forests for accurate camera relocalization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4400–4408, 2015.

[52]Bing Wang, Changhao Chen, Chris Xiaoxuan Lu, Peijun Zhao, Niki Trigoni, and Andrew Markham. Atloc: Attention guided camera localization. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 10393– 10401, 2020.

[53]Qianqian Wang, Xiaowei Zhou, Bharath Hariharan, and Noah Snavely. Learning feature descriptors using camera pose supervision. arXiv preprint arXiv:2004.13324, 2020.

[54]Philippe Weinzaepfel, Gabriela Csurka, Yohann Cabon, and Martin Humenberger. Visual localization by learning objects-of-interest dense match regression. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5634–5643, 2019.

[55]Changchang Wu et al. Visualsfm: A visual structure from motion system. 2011.

[56]Chao-Yuan Wu, R Manmatha, Alexander J Smola, and Philipp Krahenbuhl. Sampling matters in deep embedding learning. In Proceedings of the IEEE International Conference on Computer Vision, pages 2840–2848, 2017.

[57]Tong Xiao, Shuang Li, Bochao Wang, Liang Lin, and Xiaogang Wang. Joint detection and identification feature learning for person search. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3415–3424, 2017.

[58]Yan Xu, Zhaoyang Huang, Kwan-Yee Lin, Xinge Zhu, Jianping Shi, Hujun Bao, Guofeng Zhang, and Hongsheng Li. Selfvoxelo: Self-supervised lidar odometry with voxel-based deep neural networks. Conference on Robot Learning, 2020.

[59]Fei Xue, Xin Wu, Shaojun Cai, and Junqiu Wang. Learning multi-view camera relocalization with graph neural networks. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 11372–11381. IEEE, 2020.

[60]Fisher Yu and Vladlen Koltun. Multi-scale context aggregation by dilated convolutions. In 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings, 2016.

[61]Bernhard Zeisl, Torsten Sattler, and Marc Pollefeys. Camera pose voting for large-scale image-based localization. In Proceedings of the IEEE International Conference on Computer Vision, pages 2704–2712, 2015.

[62]Guofeng Zhang, Zilong Dong, Jiaya Jia, Tien-Tsin Wong, and Hujun Bao. Efficient non-consecutive feature tracking for structure-from-motion. In European Conference on Computer Vision, pages 422–435. Springer, 2010.

[63]Liang Zheng, Yujia Huang, Huchuan Lu, and Yi Yang. Poseinvariant embedding for deep person re-identification. IEEE Transactions on Image Processing, 28(9):4500–4509, 2019.

[64]Zilong Zhong, Zhong Qiu Lin, Rene Bidart, Xiaodan Hu, Ibrahim Ben Daya, Zhifeng Li, Wei-Shi Zheng, Jonathan Li, and Alexander Wong. Squeeze-and-attention networks for semantic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13065–13074, 2020.

[65]Zhun Zhong, Liang Zheng, Zhiming Luo, Shaozi Li, and Yi Yang. Learning to adapt invariance in memory for person reidentification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.

[66]Lei Zhou, Zixin Luo, Tianwei Shen, Jiahui Zhang, Mingmin Zhen, Yao Yao, Tian Fang, and Long Quan. Kfnet: Learning temporal camera relocalization using kalman filtering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4919–4928, 2020.

[67] Siyu Zhu, Tianwei Shen, Lei Zhou, Runze Zhang, Jinglu Wang, Tian Fang, and Long Quan. Parallel structure from motion from local increment to global averaging. arXiv preprint arXiv:1702.08601, 2017.

您尚未完善信息

完善信息后，，，，，，即可下载资料

完善信息跳过，，，，，，继续浏览

您尚未登录

您还未登录，，，，，，登录方可继续

登录跳过，，，，，，继续浏览

请选择您以为需要刷新的地方：

导航欠好用，，，，，，不利便找到感兴趣的内容
产品先容信息不敷周全
产品先容信息禁止易懂
页面翻开速率烦懑，，，，，，页面浏览不流通/有卡顿
页面不敷雅观
售后效劳欠好找，，，，，，体验欠好

跳过下一个

您是否能够抵达本次网站的会见目的？？？？？？

是
否
仍在举行中

下一个

您对商汤官网的知足度怎样？？？？？？

1
2
3
4
5
6
7
8
9
10

很是不知足很是知足

提交

已收到您对商汤官网的评价和建议！

谢谢您的耐心反响~

关闭

产品试用

填写此简朴表格，，，，，，我们将尽快联系您！

把您的需求发给我们相识所有产品

商务相助

400 900 5986

周一至周五 9:00-12:00，，，，，，13:00-18:00

business@sensetime.com

相助同伴招募

成为相助同伴

您还未登录，，，，，，登录方可继续

登录跳过，，，，，，继续浏览

您尚未完善信息

完善信息后，，，，，，即可下载资料

完善信息跳过，，，，，，继续浏览

商务相助

400 900 5986
( 周一至周五 9:00-12:00, 13:00-18:00 )
business@sensetime.com
媒体相同: pr@sensetime.com
投资者关系联络: ir@sensetime.com

社交媒体

微信公众号

【网站地图】【sitemap】