基于网页内容聚类

基于网页内容聚类,第1张

基于网页内容的聚类系统设计
  • 根据给出的一组网页地址,然后对指定的网页按内容聚成3类
  • 网页地址如下所示 1 http://blog.sina.com.cn/s/blog_59d698c90102zfct.html 2 http://blog.sina.com.cn/s/blog_9c2fe26f0102z3ja.html?tj=fina 3 http://blog.sina.com.cn/s/blog_6479dc5b0102ymb3.html 4 http://blog.sina.com.cn/s/blog_59d698c90102zfd2.html 5 http://blog.sina.com.cn/s/blog_59d698c90102zfcl.html 6 http://blog.sina.com.cn/s/blog_14fdd56530102yknf.html?tj=tiyu 7 http://blog.sina.com.cn/s/blog_62dc4e590102zot3.html?tj=fina 8 http://blog.sina.com.cn/s/blog_1506181220102z9x9.html?tj=fina 9 http://blog.sina.com.cn/s/blog_683c082b0102z3qc.html

** 实现步骤 1、抓取指定网址的源码; 2、解析网页文章内容; 3、对文章内容进行分词,并转换成向量表示(词袋法或TF.IDF); 4、选取合适的距离公式和聚类算法进行聚类,要求聚成3类。(可以用欧式距离或余弦距离等。聚类方法可以考虑用K-means方法等。)

具体要求

基于网页内容聚类

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/1006657.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-22
下一篇 2022-05-22

发表评论

登录后才能评论

评论列表(0条)

保存