本文章介绍python实例解析——Web页面元素提取
提取网页:http://ngchina.com.cn/
# enCoding=utf-8# 步骤一:读取保存在本地的HTML文件# 步骤二:解析并提取其中的图片链接# 步骤三:输出并提取结果到屏幕# 步骤四:保存提取结果为文件# 1读取文件内容,结果转换为分行列表def getHTMLlines(HTMLpath): f=open(HTMLpath,"r",enCoding='utf-8') ls=f.readlines() f.close() return ls# 2解析文件提取URLdef extractimagesUrls(HTMLList): urls=[] for line in HTMLList: if 'img' in line: url=line.split('src=')[-1].split('"')[1] if 'http' in url: urls.append(url) return urls# 3获取的链接输出到屏幕上def showResults(urls): count=0 for url in urls: print('第{:2}个URL:{}'.format(count,url)) count+=1# 4保存到结果到文件def saveResults(filepath,urls): f=open(filepath,"w") for url in urls: f.write(url+"\n") f.close()# 主函数def main(): inputfile='ngchina.HTML' outputfile='ngchina.txt' HTMLlines=getHTMLlines(inputfile) imagesUrls=extractimagesUrls(HTMLlines) showResults(imagesUrls) saveResults(outputfile,imagesUrls)# 执行main()
总结该实例完成了简单的HTML解析和提取功能
对于更加复杂的建议使用HTML解析库
比如beautifulsoup4第三方库
以上是内存溢出为你收集整理的Python+实例解析Web页面元素提取全部内容,希望文章能够帮你解决Python+实例解析Web页面元素提取所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)