IDFModel.transform()如您所见,接受
JavaRDD或
RDD的
Vector。在单个上计算模型没有任何意义
Vector,所以这不是您想要的吗?
我假设您正在使用Java,因此您想将此应用到
JavaRDD<LabeledPoint>。
LabeledPoint包含
Vector和标签。IDF不是分类器或回归器,因此不需要标签。您可以
map一堆
LabeledPoint来提取它们
Vector。
但是你已经有了一个
JavaRDD<Vector>以上。TF-
IDF仅仅是一种基于语料库中的词频将词映射到实值特征的方法。它还不输出标签。也许您的意思是想从TF-IDF衍生的特征向量以及其他一些已有的标签中开发分类器?
也许这可以解决问题,但否则,您必须极大地阐明您正在尝试使用TF-IDF实现的目标。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)