搜索内容

有一个问题?

如果您有任何疑问,可以在下面询问或输入您要寻找的!

网页标签清洗

技术聚客 未结 0 1772
沙漏在下雨
沙漏在下雨 2021-03-08 10:03

希望大佬能指点一二,小弟不胜感激
关于网页标签的清洗,在计算网页相似度的时候,哪些标签是可以过滤的,在这段代码生成的结果中

class Structure(HTMLParser): ''' pass ''' def extract(self, html): self.tmp = [] tag = ['script','style'] result = [] self.tagstack = [] self.feed(html) for a in self.tmp: if a.split('/')[-1] not in tag: result.append(a) return result def handle_starttag(self, tag, attrs): self.tagstack.append(tag) def handle_endtag(self, tag): self.tagstack.pop() def handle_data(self, data): t = '' if data.strip(): for tag in self.tagstack: t = t + '/' + tag self.tmp.append(t)

这是某个网页通过这段代码生成的

用这个网页生成的结果举例,过滤/span/p结尾的标签,如果是其他的网页是不是也可以这么过滤,如果不是的话该怎么过滤,是不是还得考虑标签属性?
补充:计算的是网页结构相似度,不考虑正文相似度

回答
  • 消灭零回复
提交回复