抓取知乎日报内容在本地另存为txt文档

抓取知乎日报内容在本地另存为txt文档,第1张

概述抓取知乎日报内容在本地另存为txt文档

下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。

内存溢出小编现在分享给大家,也给大家做个参考。

#filename:getZhihu.pyimport re,osimport urllib2from bs4 import BeautifulSoupimport sysimport timereload(sys)sys.setdefaultencoding("utf-8")def getHTML(url):    header={'User-Agent' : 'Mozilla/5.0 (windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 firefox/14.0.1','Referer' : '******'}    request=urllib2.Request(url,None,header)    response=urllib2.urlopen(request)    text=response.read()    return textdef mkDir():    date=time.strftime('%Y-%m-%d',time.localtime(time.time()))    os.mkdir(str(date))    def saveText(text):    date=time.strftime('%Y-%m-%d',time.localtime(time.time()))    dir_name="/home/wang/documents/py/Zhihu/"+date    soup=BeautifulSoup(text)#    i=1#    for i in soup.h2:#        i=i+1    if soup.h2.get_text()=='':        filename=dir_name+"/ad.txt"        fp=file(filename,'w')        content=soup.find('div',"content")        content=content.get_text()        fp.write(content)        fp.close()#    elif i > 1:#        filename=dir_name+"/kIDing.txt"#        contents=soup.findAll('div',"content")+soup.findAll("div","question")#        contents=contents.get_text()#        fp=file(filename,'w')#        fp.write(contents)#        fp.close()    else:        filename=dir_name+"/"+soup.h2.get_text()+".txt"        fp=file(filename,"content")        content=content.get_text()        fp.write(content)        fp.close()    #   print content #testdef getUrl(url):    HTML=getHTML(url)     #   print HTML    soup=BeautifulSoup(HTML)    urls_page=soup.find('div',"post-body")#   print urls_page    urls=re.findall('"((http)://.*?)"',str(urls_page))    return urls def main():    mkDir()    page="http://zhihudaily.ahorn.me"    urls=getUrl(page)    for url in urls:        text=getHTML(url[0])        saveText(text)if __name__=="__main__":    main()

以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

总结

以上是内存溢出为你收集整理的抓取知乎日报内容在本地另存为txt文档全部内容,希望文章能够帮你解决抓取知乎日报内容在本地另存为txt文档所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1198731.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存