有一个难题必须解决:自动分类。做好人性化商品强烈推荐,商品梳理是第一站。类别是一种更基本的排序。每个人都要把每一件商品归入一个实用的类别,商品的总数是巨大的。这个全过程需要自动化技术,就是商品自动分类的问题。
让我们热身,做一些分类问题:
【苹果iPhone6(A1586)16GB金色移动联通电信4G手机】
【第一滴血】这么容易,是一部“手机”
《snidel*S最新日系百褶裙搭配王小军双层紧身宽松高腰裤,超短裙和裙裤现货交易实拍视频》
【支配者分类】Hmmm...应该是“长裙”。要分这一对,一定要用脑子。
【华为适配器手机充电线9V/2A快充USB充电插头带线】
【归类为麻】这个是“充电头”,还有一个难度系数有点大的。
“福建特产纯金冠黑糖苦中带甜200g内含极品梅肉,酸甜可口”
[没人能阻止]这个...就是个棒棒糖,木头的超级变态多了去了。
“梅里达勇士公爵500550600650700挑战者350车顶行李架后储物架”
【超级变态分类】光凭关键词想就已经不够用了。收集资料后,知道这是一个“自行车配件”。呵呵,谁会呢?!
“天语手机比iphone好用的案例”
【已经无敌】这个...
你看,解决这个问题并不像看起来那么简单。每一个商品话题都要包含100%的基本品类信息,并不容易。我们做什么呢
分类1.0
第一代产品研发的分类技术比较简单,根据匹配表特征库来解决。
匹配表是一个简单的环境变量,存储对应关系(关键字、类别):
“在手机上”->:手机
【牛仔裤】->:牛仔裤
…….
特征字典是匹配表的全新升级(匹配表plus?),维护(关键字组合,分类)的对应关系:
“苹果iPhone6”——>;手机
【麻棉紧身修身踝运动裤】->:休闲裤
【美利达nba勇士王子行李架收纳架】->:自行车配件
…….
这一整套样本数据信息完全是手工整理的,分类1.0的程序流程也很简单。它的工作原理……,“看起来”非常可靠。首先,分类1.0的一切都是在人类数据信息的基础上创造的。如果样本梳理得好,分类的结果就可以了。如果梳理不好,也行。其次,人的生命力相对有限。要想标规模,就要维持一个规模运营团队。最终,不梳理产品特性,人们无法分享,bug总数失控。
随着数据信息指标值和数据的提升,这个系统软件早已不堪重负。
分类2.0
所以我们开发了一个新的系统——分类2.0。2.0分类集成了商品信息的特征,防止了特征库对分类的影响。此外,它还可以高效率地保证在线分类的日常任务。(2.0类我来我们公司是一个顶级技术工程师写的。哎呦,回想起来,那段时间简直就是怀旧...)
分类2.0的技术要点
1.应用分词算法解决商品标题信息内容的词性标注问题,将词性标注的结果作为商品的特征标签,用标签描述商品。
2.担心无意义的标签,保存能合理描述商品的标签。
3.使用互信息计算训练集数据信息中每个类别与该类别中商品的所有标签之间的相关性。
4.在预测分析一个新商品的类型时,计算该商品在每个类别中所有标签的相关值,将该类别中所有标签相关值之和作为该商品在该类别中的得分。
5.得分最大的类型是商品的分类。
根据实际的商品解决方案来阐明这一步骤:
1.根据商品库对商品进行词性标注&担心无意义词
比如灰黑色iPhoneiPhone新上市,词性标注&结果是:iphone,手机,灰黑色。
2.使用互信息计算每个分类和其中的标签之间的相关性:
互信息计算方法:
I(x,y)=log(p(x|y))-log(p(x))
其中包括:
p(x)表示X出现在所有商品中的概率。
p(x|y)表示X出现在y型中的条件概率。
下表显示了10种商品的类型和词性。
在手机上检测实例商品的商品集中度和类别交互信息。
a)概率分析
p(iphone)=0.1
p(灰黑色)=0.4
p(手机上)=0.2
p(在p(iphone|手机)上)=0.25
p(手机上|手机上)=0.5
p(灰黑|手机上)=0.25
b)互信息测量
I(iPhone)=log(P(iPhone|mobile))-log(P(iPhone))=-1.38632.3026=0.9163
I(手机上,手机上)=log(p(手机上|手机上))-log(p(手机上))=-0.69311.6094=0.9163
I(灰黑,手机上)=log(p(灰黑|手机上))-log(p(灰黑))=-1.38630.9163=-0.47
c)以此类推,我们可以计算三种类型中iphone、手机、灰黑关键词的条件概率和互信息。
下表显示了每种类型中关键字的交互信息。
3.计算每个分类中1的样本商品的相关性。
类(手机上)=0.91630.9163-0.6932=1.1394
类(在计算机上)=0.00.00.2231=0.2231
类别=0.000.2231=0.2231
4.从3可以看出,示例商品被归类为“手机”类型。
大家用这个分类2.0系统软件对所有商品进行处理,随着训练集的不断扩大,准确率和均方差都会在90%以上;另外,运营团队也解放了,不用每天去识别哪些匹配的表。
这就是优化算法的能量!一个好的优化算法可以大大提高主生产力。根据优化算法改进产品步骤,你必须有很强的基础。否则就像文章开头的漫画里说的,不太好的优化算法发布后,实际效果很可能会倒退。总之,优化算法的科研,就像一门基础学科一样,需要长期的资金投入,一旦全面开花,提升将是巨大的。
拓宽阅读文章:欢迎分享,转载请注明来源:内存溢出
评论列表(0条)