Facebook新AI技术 通用产品识别的计算机视觉系统

Facebook新AI技术 通用产品识别的计算机视觉系统,第1张

  (来源综合自VentureBeat等)

  Facebook首席执行官马克·扎克伯格宣布推出Facebook Shops。

  Facebook Shops将为企业建立单一在线商店,以让客户直接连接到Facebook和Instagram上。

“我们的长期愿景是建立一个多功能的Al生活方式助手,它可以准确搜索和排名数十亿种产品,同时根据个人口味进行个性化。”

  “同一系统将使在线购物具有社交性,就像现实生活中和朋友一起购物一样。再进一步,它将推进视觉搜索,以使您的现实环境就可以支持虚拟购物。

  如果您看到喜欢的东西(衣服,家具,电子产品等等),您可以为它拍张照片,系统会找到确切的商品,以及从那时到那里立即购买的几个类似商品,并提供购物建议。”

  这听起来有点像科幻电影《少数派报告》中的场景:

  阿汤哥在街上走,视网膜被自动扫描、提取身份信息,得知他喜欢喝吉尼斯黑啤,于是便开始对他投放吉尼斯广告:“嘿,吉尼斯就在你身后!”

不论在现实中的任何地方,都能看到个性化商品投放

  想要实现这个魔幻场景,要归功于Facebook新开发的三个AI系统。

  第一个是通用计算机视觉系统GrokNet,目标是在图片或视频中识别所有的产品,实现“一切皆可购买”。

  它在七个数据集中进行了训练,其中包含数百万个用户发布、购买和出售的产品图像,从SUV到细高跟鞋、再到各种形状的桌子,无所不包。

  第二个可以通过处理某个产品的2D视频而创建其3D视图,并且还能带来强大的AR试穿。

  第三个被称为实例蒙版投影,可以从图像中自动分割识别服装产品。


通用产品识别的计算机视觉系统:GrokNet

  为了实现这一愿景,Facebook正在部署一种新的通用计算机视觉系统,称为GrokNet。设计这种新产品识别模型的目的是使“几乎所有照片都可以用于购物”。

  GrokNet目前为Facebook的点对点购物平台Marketplace中的买卖双方提供功能。当卖家将照片上传到Marketplace时,系统会自动列出相应属性,例如商品的颜色或材料。


Facebook表示,GrokNet可以检测出数十亿张照片中的精确、相似(通过相关属性)或一同出现的产品,且在Marketplace上执行搜索和过滤的效率至少是类似算法的两倍。

  例如,与Facebook基于文本的归因系统(只能识别33%)相比,它能够识别90%的家庭和花园列表。

  作为有限测试的一部分,除了在Marketplace卖家列出商品之前从图像生成颜色和材料的标签外,它还用于在页面管理员上传照片时在Facebook Pages上标记产品。


看来,以后在Facebook上被自动标记的,不只是你朋友的脸。

  Facebook表示,在培训GrokNet的过程中,它使用了具有挑战性角度的真实卖方照片以及目录样式的价差。

  为了使所有国家,语言,年龄,大小和文化尽可能地具有包容性,它抽样了不同体型,肤色,位置,社会经济阶层,年龄和姿势的示例。

  Facebook开发了一种使用GrokNet作为反馈循环自动生成其他标识符的技术,而不是使用会花很多时间的产品标识符来手动注释每个图像,因为产品标识符已经使用了很长时间。

  利用对象检测器,该方法可以识别图像中可能产品周围的框,然后将框与已知产品列表进行匹配,以将匹配项保持在相似度阈值内。结果的匹配将被添加到训练集中。

  

Facebook的GrokNet架构

  Facebook还利用了每个培训数据集都具有固有难度的情况。较简单的任务不需要那么多图像或注释,而较困难的任务则需要更多图像或注释。

  公司工程师通过将大部分培训分配给具有挑战性的集,而每批只分配少量图像给简单的图像,从而同时提高了GrokNet在不同任务上的准确性。

  产品化的GrokNet具有83个损失函数(即,将变量的事件映射到表示与事件相关的某些成本的数字的函数),可以预测给定图像的一系列属性,包括其类别,属性和可能的搜索查询。

  它仅使用256位来表示每个产品,就产生了类似于指纹的嵌入,可用于诸如产品识别,视觉搜索,视觉上相似的产品推荐,排名,个性化,价格建议和规范化等任务。

  Facebook表示,将来,它将把GrokNet用来为Marketplace的店面赋能,以便客户可以更轻松地找到产品,了解这些产品的穿着方式并获得相关的配件建议。

  “这种通用模型使我们能够利用更多的信息源,从而提高了准确性,并且胜过了单一的垂直关注模型。”

  基于SLAM技术的3D重建和AR试用/试穿

  第二个AI模型为Facebook的3D视图功能提供了支持,该功能现已通过测试,在iOS的Marketplace上提供。

  基于2月份推出的Facebook3D照片工具,这个模型对手机实时视频进行后期处理,以创建可旋转并向上移动至360度的交互式伪3D表示。

  Facebook使用一种称为同步本地化和映射(SLAM)的方法进行重建,该方法可以在跟踪代理人(智能手机)位置的同时创建和更新未知环境或对象的地图。

  智能手机的姿态在3D空间中重建,其路径通过检测异常间隙的系统进行平滑处理,并将每个姿态映射到校正不连续性的坐标空间中。

  为了保持一致性,将平滑的相机路径映射回原始空间,从而重新引入了不连续性并确保了物体的可识别性。

  Facebook的SLAM技术还结合了对帧的观察以获得稀疏的点云,该点云由任何给定捕获场景中最突出的特征组成。

  这个云充当了相机姿势的指导,这些姿势与最能代表3D对象的视点相对应;图像以某种方式失真,看起来像是从视点拍摄的。

  启发式离群值检测器会发现可能引入失真的关键点,并将其丢弃,而相似性约束使重构的无特征部分变得更加僵硬,而散焦区域看起来更加自然。

  除了3D重建之外,Facebook表示将很快利用其Spark AR平台结帐功能,使客户能够看到物品在各个地方的外观。

  已经有Nyx,Nars和Ray-Ban等品牌在Facebook Ads和Instagram中使用它来增强现实的“试穿”体验。

该公司计划支持试穿各种物品,包括家居装饰。和家具-包括商店在内的各种应用程序和服务,Facebook的功能使企业可以通过网络直接进行销售。

  自动分割识别服装产品:实例蒙版投影

  为了使诸如Marketplace之类的服务能够在图像中自动隔离服装产品,Facebook开发了一种细分技术,该技术声称与几种基准相比,它可以实现最先进的性能。

  这项技术被称为“实例蒙版投影”(Instance Mask ProjecTIon),可以发现腕带、项链、裙子和毛衣等在不均匀的光线下拍摄或部分被遮盖的物品,甚至可以以不同的姿势出现在衬衫和夹克等其他物品下。

  

Instance Mask ProjecTIon可以检测整个服装产品并大致预测其形状。该预测用作改进每个像素的估计的指南,允许合并来自检测的全局信息。预测的实例图被投影到一个功能图中,用作语义分割的输入。

  据Facebook称,这种设计更便于进行服装分析(涉及复杂的分层、大的变形和非凸体)以及街道场景分割(重叠实例和小对象)。

  下一步:AI时尚助手!

  Facebook表示,其目标是有一天将这些不同的方法结合到一个系统中,即时提供与个人口味和风格相匹配的产品推荐。

  它设想了一个助手,该助手可以通过分析一个人的衣橱中的图像来学习喜好,例如,让人可以尝试收藏并出售其他人可以预览的服装。

  为此,Facebook表示,其研究人员正在制作一个“智能数字壁橱”的原型,该壁橱不仅根据计划的活动或天气提供服装建议,而且还根据个人产品和美学提供时尚灵感。

  Facebook预计最终将需要新的系统来适应不断变化的趋势和偏好,理想情况下,该系统将从对潜在所需产品的图像的反馈中学习。

  它最近在Fashion ++方面取得了进展,它使用AI来提供个性化的穿搭建议,比如添加皮带或半折衬衫。

  但该公司表示,在真正的预测性时尚助手成为可能之前,必须在语言理解和个性化体验方面取得进步。

  可能,AI充分渗透进现实,开启社交无缝购物、智能穿搭助手的那一天,离我们真的不远了。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/2574264.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-07
下一篇 2022-08-07

发表评论

登录后才能评论

评论列表(0条)

保存