研究监督学习技术是一件好事。多项研究表明,将多项朴素贝叶斯分类器用于垃圾邮件过滤非常成功。如果它适用于垃圾邮件过滤,则应使用SMS过滤。您需要的是一个庞大的示例垃圾短信文本数据集,并使用它来训练分类器。
同样,研究支持向量机可能会有所帮助;尽管在垃圾邮件过滤中使用较少;是一种更强大的技术。
另外,仅对原始文本进行算法训练可能不是最好的方法。Mehran
Sahami于1998年进行的一项研究发现,当他们将其他启发式方法考虑在内时,它们便取得了卓越的性能(例如,是否将电子邮件发送到邮件列表?是从以“
.edu”结尾的域名发送的电子邮件) ,“。com”,“。org”?电子邮件中是否包含多个标点符号(“ !!!”)?,依此类推)。
但是首先从朴素贝叶斯多项式分类器开始。根据个人经验,它非常易于实现,易于使用,并且培训时间也很短。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)