shell如何获取html页面的title和description里的内容

shell如何获取html页面的title和description里的内容,第1张

假设你的html页面文件为test.html:

下列命令获取title的内容

cat test.html | tr [TITLE] [title] | grep '<test>.*</title>' | sed 's/<title>\(.*\)<\/title>/\1/g'

description的语法我看不大明白,所以不知道怎么提取。

只简单测试了一下,LZ可以试试。

import sys

from lxml import etree

reload(sys)

sys.setdefaultencoding("utf8")

import requests

r = requests.get('http://best.pconline.com.cn/')

html = r.text

xmlhtml = etree.HTML(html)

content = xmlhtml.xpath('//div[starts-with(@id,"topic")]/div[1]/a[2]/text()')

urllist = xmlhtml.xpath('//div[starts-with(@id,"topic")]/div[1]/a[2]/@href')

lastime = xmlhtml.xpath('//div[starts-with(@id,"topic")]/div[2]/div[2]/span[2]/text()')

data_text = [ text for text in content ]

data_url = [ url for url in urllist ]

data_time = [ t.strip() for t in lastime ]

for i in xrange(0, len(data_text), 1):

print "%s, %s, %s" % (data_text[i], data_url[i], data_time[i])


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5895388.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-07
下一篇 2023-03-07

发表评论

登录后才能评论

评论列表(0条)

保存