Facebook新AI技术通用产品识别的计算机视觉系统_技术

　　(来源综合自VentureBeat等)

　　Facebook首席执行官马克·扎克伯格宣布推出Facebook Shops。

　　Facebook Shops将为企业建立单一在线商店，以让客户直接连接到Facebook和Instagram上。

“我们的长期愿景是建立一个多功能的Al生活方式助手，它可以准确搜索和排名数十亿种产品，同时根据个人口味进行个性化。”

　　“同一系统将使在线购物具有社交性，就像现实生活中和朋友一起购物一样。再进一步，它将推进视觉搜索，以使您的现实环境就可以支持虚拟购物。

　　如果您看到喜欢的东西（衣服，家具，电子产品等等），您可以为它拍张照片，系统会找到确切的商品，以及从那时到那里立即购买的几个类似商品，并提供购物建议。”

　　这听起来有点像科幻电影《少数派报告》中的场景：

　　阿汤哥在街上走，视网膜被自动扫描、提取身份信息，得知他喜欢喝吉尼斯黑啤，于是便开始对他投放吉尼斯广告：“嘿，吉尼斯就在你身后！”

不论在现实中的任何地方，都能看到个性化商品投放

　　想要实现这个魔幻场景，要归功于Facebook新开发的三个AI系统。

　　第一个是通用计算机视觉系统GrokNet，目标是在图片或视频中识别所有的产品，实现“一切皆可购买”。

　　它在七个数据集中进行了训练，其中包含数百万个用户发布、购买和出售的产品图像，从SUV到细高跟鞋、再到各种形状的桌子，无所不包。

　　第二个可以通过处理某个产品的2D视频而创建其3D视图，并且还能带来强大的AR试穿。

　　第三个被称为实例蒙版投影，可以从图像中自动分割识别服装产品。

通用产品识别的计算机视觉系统：GrokNet

　　为了实现这一愿景，Facebook正在部署一种新的通用计算机视觉系统，称为GrokNet。设计这种新产品识别模型的目的是使“几乎所有照片都可以用于购物”。

　　GrokNet目前为Facebook的点对点购物平台Marketplace中的买卖双方提供功能。当卖家将照片上传到Marketplace时，系统会自动列出相应属性，例如商品的颜色或材料。

Facebook表示，GrokNet可以检测出数十亿张照片中的精确、相似（通过相关属性）或一同出现的产品，且在Marketplace上执行搜索和过滤的效率至少是类似算法的两倍。

　　例如，与Facebook基于文本的归因系统（只能识别33％）相比，它能够识别90％的家庭和花园列表。

　　作为有限测试的一部分，除了在Marketplace卖家列出商品之前从图像生成颜色和材料的标签外，它还用于在页面管理员上传照片时在Facebook Pages上标记产品。

看来，以后在Facebook上被自动标记的，不只是你朋友的脸。

　　Facebook表示，在培训GrokNet的过程中，它使用了具有挑战性角度的真实卖方照片以及目录样式的价差。

　　为了使所有国家，语言，年龄，大小和文化尽可能地具有包容性，它抽样了不同体型，肤色，位置，社会经济阶层，年龄和姿势的示例。

　　Facebook开发了一种使用GrokNet作为反馈循环自动生成其他标识符的技术，而不是使用会花很多时间的产品标识符来手动注释每个图像，因为产品标识符已经使用了很长时间。

　　利用对象检测器，该方法可以识别图像中可能产品周围的框，然后将框与已知产品列表进行匹配，以将匹配项保持在相似度阈值内。结果的匹配将被添加到训练集中。

　　

Facebook的GrokNet架构

　　Facebook还利用了每个培训数据集都具有固有难度的情况。较简单的任务不需要那么多图像或注释，而较困难的任务则需要更多图像或注释。

　　公司工程师通过将大部分培训分配给具有挑战性的集，而每批只分配少量图像给简单的图像，从而同时提高了GrokNet在不同任务上的准确性。

　　产品化的GrokNet具有83个损失函数（即，将变量的事件映射到表示与事件相关的某些成本的数字的函数），可以预测给定图像的一系列属性，包括其类别，属性和可能的搜索查询。

　　它仅使用256位来表示每个产品，就产生了类似于指纹的嵌入，可用于诸如产品识别，视觉搜索，视觉上相似的产品推荐，排名，个性化，价格建议和规范化等任务。

　　Facebook表示，将来，它将把GrokNet用来为Marketplace的店面赋能，以便客户可以更轻松地找到产品，了解这些产品的穿着方式并获得相关的配件建议。

　　“这种通用模型使我们能够利用更多的信息源，从而提高了准确性，并且胜过了单一的垂直关注模型。”

　　基于SLAM技术的3D重建和AR试用/试穿

　　第二个AI模型为Facebook的3D视图功能提供了支持，该功能现已通过测试，在iOS的Marketplace上提供。

　　基于2月份推出的Facebook3D照片工具，这个模型对手机实时视频进行后期处理，以创建可旋转并向上移动至360度的交互式伪3D表示。

　　Facebook使用一种称为同步本地化和映射（SLAM）的方法进行重建，该方法可以在跟踪代理人（智能手机）位置的同时创建和更新未知环境或对象的地图。

　　智能手机的姿态在3D空间中重建，其路径通过检测异常间隙的系统进行平滑处理，并将每个姿态映射到校正不连续性的坐标空间中。

　　为了保持一致性，将平滑的相机路径映射回原始空间，从而重新引入了不连续性并确保了物体的可识别性。

　　Facebook的SLAM技术还结合了对帧的观察以获得稀疏的点云，该点云由任何给定捕获场景中最突出的特征组成。

　　这个云充当了相机姿势的指导，这些姿势与最能代表3D对象的视点相对应；图像以某种方式失真，看起来像是从视点拍摄的。

　　启发式离群值检测器会发现可能引入失真的关键点，并将其丢弃，而相似性约束使重构的无特征部分变得更加僵硬，而散焦区域看起来更加自然。

　　除了3D重建之外，Facebook表示将很快利用其Spark AR平台结帐功能，使客户能够看到物品在各个地方的外观。

　　已经有Nyx，Nars和Ray-Ban等品牌在Facebook Ads和Instagram中使用它来增强现实的“试穿”体验。

该公司计划支持试穿各种物品，包括家居装饰。和家具-包括商店在内的各种应用程序和服务，Facebook的功能使企业可以通过网络直接进行销售。

　　自动分割识别服装产品：实例蒙版投影

　　为了使诸如Marketplace之类的服务能够在图像中自动隔离服装产品，Facebook开发了一种细分技术，该技术声称与几种基准相比，它可以实现最先进的性能。

　　这项技术被称为“实例蒙版投影”（Instance Mask ProjecTIon），可以发现腕带、项链、裙子和毛衣等在不均匀的光线下拍摄或部分被遮盖的物品，甚至可以以不同的姿势出现在衬衫和夹克等其他物品下。

　　

Instance Mask ProjecTIon可以检测整个服装产品并大致预测其形状。该预测用作改进每个像素的估计的指南，允许合并来自检测的全局信息。预测的实例图被投影到一个功能图中，用作语义分割的输入。

　　据Facebook称，这种设计更便于进行服装分析（涉及复杂的分层、大的变形和非凸体）以及街道场景分割（重叠实例和小对象）。

　　下一步：AI时尚助手！

　　Facebook表示，其目标是有一天将这些不同的方法结合到一个系统中，即时提供与个人口味和风格相匹配的产品推荐。

　　它设想了一个助手，该助手可以通过分析一个人的衣橱中的图像来学习喜好，例如，让人可以尝试收藏并出售其他人可以预览的服装。

　　为此，Facebook表示，其研究人员正在制作一个“智能数字壁橱”的原型，该壁橱不仅根据计划的活动或天气提供服装建议，而且还根据个人产品和美学提供时尚灵感。

　　Facebook预计最终将需要新的系统来适应不断变化的趋势和偏好，理想情况下，该系统将从对潜在所需产品的图像的反馈中学习。

　　它最近在Fashion ++方面取得了进展，它使用AI来提供个性化的穿搭建议，比如添加皮带或半折衬衫。

　　但该公司表示，在真正的预测性时尚助手成为可能之前，必须在语言理解和个性化体验方面取得进步。

　　可能，AI充分渗透进现实，开启社交无缝购物、智能穿搭助手的那一天，离我们真的不远了。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2574264.html

Facebook新AI技术通用产品识别的计算机视觉系统

发表评论

评论列表（0条）

Facebook新AI技术 通用产品识别的计算机视觉系统

发表评论

评论列表（0条）

Facebook新AI技术通用产品识别的计算机视觉系统