下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。
内存溢出小编现在分享给大家,也给大家做个参考。
#filename:getZhihu.pyimport re,osimport urllib2from bs4 import BeautifulSoupimport sysimport timereload(sys)sys.setdefaultencoding("utf-8")def getHTML(url): header={'User-Agent' : 'Mozilla/5.0 (windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 firefox/14.0.1','Referer' : '******'} request=urllib2.Request(url,None,header) response=urllib2.urlopen(request) text=response.read() return textdef mkDir(): date=time.strftime('%Y-%m-%d',time.localtime(time.time())) os.mkdir(str(date)) def saveText(text): date=time.strftime('%Y-%m-%d',time.localtime(time.time())) dir_name="/home/wang/documents/py/Zhihu/"+date soup=BeautifulSoup(text)# i=1# for i in soup.h2:# i=i+1 if soup.h2.get_text()=='': filename=dir_name+"/ad.txt" fp=file(filename,'w') content=soup.find('div',"content") content=content.get_text() fp.write(content) fp.close()# elif i > 1:# filename=dir_name+"/kIDing.txt"# contents=soup.findAll('div',"content")+soup.findAll("div","question")# contents=contents.get_text()# fp=file(filename,'w')# fp.write(contents)# fp.close() else: filename=dir_name+"/"+soup.h2.get_text()+".txt" fp=file(filename,"content") content=content.get_text() fp.write(content) fp.close() # print content #testdef getUrl(url): HTML=getHTML(url) # print HTML soup=BeautifulSoup(HTML) urls_page=soup.find('div',"post-body")# print urls_page urls=re.findall('"((http)://.*?)"',str(urls_page)) return urls def main(): mkDir() page="http://zhihudaily.ahorn.me" urls=getUrl(page) for url in urls: text=getHTML(url[0]) saveText(text)if __name__=="__main__": main()
以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
总结以上是内存溢出为你收集整理的抓取知乎日报内容在本地另存为txt文档全部内容,希望文章能够帮你解决抓取知乎日报内容在本地另存为txt文档所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)