“文本分类”和“句子分类”之间没有形式上的区别。毕竟,句子是一种文本。但是总的来说,当人们谈论文本分类时,恕我直言,他们指的是更大的文本单元,例如文章,评论或演讲。将政治人物的讲话归类为民主人士或共和党人比对推文进行分类要容易得多。当每个实例中有很多文本时,您无需为每个训练实例压缩所有可以提供给您的信息,并且只需一句话就可以将其转化为朴素贝叶斯模型。
基本上,如果您将现成的weka分类器放在大量的句子中,则可能无法获得所需的性能数字。您可能必须使用POS标签,语法分析树,单词顺序,ngram等来扩充句子中的数据。还要获取任何相关的元数据,例如创建时间,创建位置,句子作者的属性等。显然,所有这些都取决于您到底要尝试什么分类..可以为您工作的功能必须直观地解决当前的问题。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)