Python实现登录人人网并抓取新鲜事的方法

Python实现登录人人网并抓取新鲜事的方法,第1张

概述Python实现登录人人网并抓取新鲜事的方法

下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。

内存溢出小编现在分享给大家,也给大家做个参考。

from sgmllib import SGMLParserimport sys,urllib2,urllib,cookielibclass spIDer(SGMLParser):  def __init__(self,email,password):    SGMLParser.__init__(self)    self.h3=False    self.h3_is_ready=False    self.div=False    self.h3_and_div=False    self.a=False    self.depth=0    self.names=""    self.dic={}      self.email=email    self.password=password    self.domain='renren.com'    try:      cookie=cookielib.cookieJar()      cookieProc=urllib2.httpcookieProcessor(cookie)    except:      raise    else:      opener=urllib2.build_opener(cookieProc)      urllib2.install_opener(opener)      def login(self):    url='http://www.renren.com/PLogin.do'    postdata={         'email':self.email,'password':self.password,'domain':self.domain          }    req=urllib2.Request(              url,urllib.urlencode(postdata)                    )    self.file=urllib2.urlopen(req).read()    #print self.file  def start_h3(self,attrs):    self.h3 = True  def end_h3(self):    self.h3=False    self.h3_is_ready=True  def start_a(self,attrs):    if self.h3 or self.div:      self.a=True  def end_a(self):    self.a=False  def start_div(self,attrs):    if self.h3_is_ready == False:      return    if self.div==True:      self.depth += 1    for k,v in attrs:      if k == 'class' and v == 'content':        self.div=True;        self.h3_and_div=True  #h3 and div is connected  def end_div(self):    if self.depth == 0:      self.div=False      self.h3_and_div=False      self.h3_is_ready=False      self.names=""    if self.div == True:      self.depth-=1  def handle_data(self,text):    #record the name    if self.h3 and self.a:      self.names+=text    #record says    if self.h3 and (self.a==False):      if not text:pass      else: self.dic.setdefault(self.names,[]).append(text)      return    if self.h3_and_div:      self.dic.setdefault(self.names,[]).append(text)  def show(self):    type = sys.getfilesystemenCoding()    for key in self.dic:      print ( (''.join(key)).replace(' ','')).decode('utf-8').encode(type),\         ( (''.join(self.dic[key])).replace(' ','')).decode('utf-8').encode(type)renrenspIDer=spIDer('your email','your password')renrenspIDer.login()renrenspIDer.Feed(renrenspIDer.file)renrenspIDer.show()

以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

总结

以上是内存溢出为你收集整理的Python实现登录人人网并抓取新鲜事的方法全部内容,希望文章能够帮你解决Python实现登录人人网并抓取新鲜事的方法所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1199221.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存