文本分类分类算法[封闭]

文本分类分类算法[封闭],第1张

概述我的目标是[半]自动将文本分配给不同的类别.每个类别都有一组用户定义的类别和一组文本.理想的算法应该能够从人类定义的分类中学习,然后自动对新的文本进行分类. 任何人都可以提出这样一种算法,或者可以实现ше的.NET库? 这样做不是微不足道的.显然,您可以建立一个将某些关键字映射到类别的字典.只要找到一个关键字就会建议一个特定的类别. 然而,在自然语言文本中,关键字通常不会以其形式出现.您需要一些形 我的目标是[半]自动将文本分配给不同的类别.每个类别都有一组用户定义的类别和一组文本.理想的算法应该能够从人类定义的分类中学习,然后自动对新的文本进行分类.
任何人都可以提出这样一种算法,或者可以实现ше的.NET库?解决方法 这样做不是微不足道的.显然,您可以建立一个将某些关键字映射到类别的字典.只要找到一个关键字就会建议一个特定的类别.

然而,在自然语言文本中,关键字通常不会以其形式出现.您需要一些形态学工具才能找到词根,并将其用于词典.

但是有些人可能会写下如下:“这篇文章不是关于…”.这将引入对语法和语义分析的需求.

然后,您会发现某些关键字可以在几个类别中使用:“乐队”可用于音乐,Technics甚至手工艺品.因此,您需要一种本体论和统计学或其他方法来衡量类别选择的概率,如果不确定.

一些关键词可能不容易适应本体:数学家更接近程序员或园丁?但是,您在问题中表示,这些类别是由男性构建的,因此也可以帮助构建本体.

看看computational linguistics这里和Wikipedia进行进一步的研究.

现在,您的文本来源越窄,结构越多,词汇越小,问题变得越容易.

再一些关键词进一步研究:形态学,语法分析,语义学,本体论,计算语言学,索引,关键词

总结

以上是内存溢出为你收集整理的文本分类/分类算法[封闭]全部内容,希望文章能够帮你解决文本分类/分类算法[封闭]所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1098679.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-28
下一篇 2022-05-28

发表评论

登录后才能评论

评论列表(0条)

保存