编码机

三重损失网络学习位置嵌入让位置数据

发布时间:2024/9/1 14:11:46   
选自Sentiance机器之心编译参与:Panda数据科学公司Sentiance近日刊文介绍了新机器学习算法平台,该平台能以自监督的方式学习位置数据并从中提取见解。机器之心对该文章进行了编译介绍。引言我们Sentiance开发了一款能接收加速度计、陀螺仪和位置信息等智能手机传感器数据并从中提取出行为见解的平台。我们的人工智能平台能学习用户的模式,并能预测和解释事情发生的原因和时间,这让我们的客户能够在正确的时间以合适的方式指导他们的用户。场地映射算法(venuemappingalgorithm)是我们的平台的一个重要组件。场地映射算法的目标是根据来自智能手机位置子系统的往往不准确的位置测量数据,搞清楚你将要到达的场地。图1:左图:场地映射的意思是估计用户实际正在前往的临近场地;右图:人类直觉能帮助我们快速排除不太可能的场地,比如一位用户正去往海滩时不太可能去救生站。尽管场地映射总体上是一大难题,而且也是我们未来一篇博客文章的主要内容,但基于该地区周围地理情况的人类直觉却能轻松简单地处理。如图1所示,假设一位用户正前往圣莫尼卡海滩。只需看一眼周围的地理情况,我们就知道该用户实际正前往求生站的概率可能相当小。事实上,只需要看一眼这个区域的地图,人类往往就能快速排除不太可能的场地并构建一个实际情况的预先信念。这个场地位于工业区、公园、靠近海滩、市中心还是公路旁边?为了让我们的场地映射算法具备同样的直觉意识,我们开发了一种基于深度学习的解决方案,其可训练用于编码地理空间关系和描述位置周围情况的语义相似度的模型。图2是这一概念的图示。图2:给定位置周围的区域会被栅格化(rasterized),然后被传递给一个深度神经网络。这个网络用作编码器,输出一个能获取输入位置的高层语义的嵌入。编码器会将位置转换成分布式的表征,这类似于Word2Vec[1]对自然语言所做的工作。这些嵌入位于一个度量空间中,因此遵循代数规则。比如,我们可以使用词嵌入推理词的相似度和类比关系。我们甚至可以直接在嵌入空间中执行「国王-男人+女人=女王」这样的算术运算。在接下来的几段中,我们将会讨论我们如何设计了一种解决方案,可学习将位置坐标映射到度量空间中,这让我们可以执行一些类似于词嵌入的操作,如图3所示。图3:我们提出的解决方案可直接优化度量空间,这样就能使用基本的算术运算探索该嵌入空间了。图像瓦片生成栅格化GIS数据给定一个位置坐标和一个半径,我们可以查询我们的GIS数据库以获取大量地理信息。我们的GIS数据库是一个存储在一个PostGis数据库中的OpenStreetMap的本地副本。PostGis是一个很方便的PostgreSQL扩展,增加了对空间运算符、类型和索引的支持。比如,我们可以使用一组查询轻松检查一个定位附近是否有河流、这里离最近的火车站有多远,这个位置附近是否存在道路。此外,实际道路本身可以以折线的形式被提取出来,同时火车站建筑的外形轮廓可被提取成一个多边形对象。但是,我们不清楚如何将这样大量的非结构化数据有效地提供给神经网络进一步处理。考虑到我们训练神经网络的目标是理解距离、包含、遮挡和相离等形状和空间关系,所以我们决定在将位置的周边情况送入编码器之前首先将其栅格化处理成固定尺寸的图像。幸运的是,我们正好有能做到这一点的有效工具。我们将Mapnik及其Python捆绑包与一个定制版本的OpenStreetmap-Carto样式表组合到了一起,得到了一个快速栅格化器(rasterizer),我们可以将其用于生成图像瓦片(imagetile),如图4所示。Mapnik:

转载请注明:http://www.aideyishus.com/lktp/6737.html
------分隔线----------------------------