Python+实例解析Web页面元素提取

Python+实例解析Web页面元素提取,第1张

概述本文章介绍python实例解析——Web页面元素提取提取网页:http:/gchina.com.cn/#encoding=utf-8#步骤一:读取保存在本地的html文件#步骤二:解析并提取其中的图片链接#步骤三:输出并提取结果到屏幕#步骤四:保存提取结果为文件#1读取文件内容,结果转换为分行列

本文章介绍python实例解析——Web页面元素提取

提取网页:http://ngchina.com.cn/

# enCoding=utf-8# 步骤一:读取保存在本地的HTML文件# 步骤二:解析并提取其中的图片链接# 步骤三:输出并提取结果到屏幕# 步骤四:保存提取结果为文件# 1读取文件内容,结果转换为分行列表def getHTMLlines(HTMLpath):	f=open(HTMLpath,"r",enCoding='utf-8')	ls=f.readlines()	f.close()	return ls# 2解析文件提取URLdef extractimagesUrls(HTMLList):	urls=[]	for line in HTMLList:		if 'img' in line:			url=line.split('src=')[-1].split('"')[1]			if 'http' in url:				urls.append(url)	return urls# 3获取的链接输出到屏幕上def showResults(urls):	count=0	for url in urls:		print('第{:2}个URL:{}'.format(count,url))		count+=1# 4保存到结果到文件def saveResults(filepath,urls):	f=open(filepath,"w")	for url in urls:		f.write(url+"\n")	f.close()# 主函数def main():	inputfile='ngchina.HTML'	outputfile='ngchina.txt'	HTMLlines=getHTMLlines(inputfile)	imagesUrls=extractimagesUrls(HTMLlines)	showResults(imagesUrls)	saveResults(outputfile,imagesUrls)# 执行main()

该实例完成了简单的HTML解析和提取功能

对于更加复杂的建议使用HTML解析库

比如beautifulsoup4第三方库

总结

以上是内存溢出为你收集整理的Python+实例解析Web页面元素提取全部内容,希望文章能够帮你解决Python+实例解析Web页面元素提取所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1188547.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存