python提取html内容的方法。如下参考:
1.首先,打开Python来定义字符串,在定义的字符串后面加上中括号,然后在要提取的字符位置输入zhidao。
2.点击运行程序,可以看到系统打印出的第一个字符在我们定义的字符串中,因为字符串是空格,空格占据了位置。
3.这里可以看到字符显示在程序运行界面的底部,根据我们指定的内容输出,这里写的版本是0输出的第一个字符。
4.还可以一次打印多个字符。如图所示,用冒号分隔字符串的开头,并将其写入方括号中以显示多个字符。
5.这里的输入位置是0到5,你可以发现,与我们的字符串内容相比,字符的相应位置被打印出来,而字符的另一个位置则完全不显示。
6.如果字符串比较大,大于内容的权重,从下面的数字比较方便,也可以直接输出倒数的字符。
7.这时直接用负号来表示这是倒数的位置,它使用起来也特别方便。
mport urllib.requestimport re
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
html = html.decode('GBK')
return html
def getMeg(html):
reg = re.compile(r'******')
meglist = re.findall(reg,html)
for meg in meglist:
with open('out.txt',mode='a',encoding='utf-8') as file:
file.write('%s\n' % meg)
if __name__ == "__main__":
html = getHtml(url)
getMeg(html)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)