用于LogisticRegression的Spark MLLib TFIDF实现

用于LogisticRegression的Spark MLLib TFIDF实现,第1张

用于LogisticRegression的Spark MLLib TFIDF实现

IDFModel.transform()
如您所见,接受
JavaRDD
RDD
Vector
。在单个上计算模型没有任何意义
Vector
,所以这不是您想要的吗?

我假设您正在使用Java,因此您想将此应用到

JavaRDD<LabeledPoint>
LabeledPoint
包含
Vector
标签。IDF不是分类器或回归器,因此不需要标签。您可以
map
一堆
LabeledPoint
来提取它们
Vector

但是你已经有了一个

JavaRDD<Vector>
以上。TF-
IDF仅仅是一种基于语料库中的词频将词映射到实值特征的方法。它还不输出标签。也许您的意思是想从TF-IDF衍生的特征向量以及其他一些已有的标签中开发分类器?

也许这可以解决问题,但否则,您必须极大地阐明您正在尝试使用TF-IDF实现的目标。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5600771.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存