下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。
内存溢出小编现在分享给大家,也给大家做个参考。
#!/usr/bin/python# -*- Coding:utf-8 -*-import reimport osimport urllib,urllib2,cookielibimport shutilfrom BeautifulSoup import BeautifulSoup # ---- utils ----def normalize_url(url): return "http://" + url if cmp(url[0:7],"http://") != 0 else urldef safeDir(dir): return dir.replace('/','')# ---- variable ----homepagePrefix = "http://60dxw.comww1.baisex.me/forum-47-"homepageSuffix = ".HTML"threadPrefix = "http://60dxw.comww1.baisex.me/"homedir = "baixingge"# ---- login ----cookie = urllib2.httpcookieProcessor(cookielib.cookieJar())opener = urllib2.build_opener(cookie)# ---- file ----if (os.path.exists(homedir) == False): os.mkdir(homedir)os.chdir(homedir)# ---- crawl ----for page in range(1,25): pageUrl = '{0}{1}{2}'.format(homepagePrefix,page,homepageSuffix) # ---- mkdir ---- if (os.path.exists(str(page)) == False): os.mkdir(str(page)) os.chdir(str(page)) print pageUrl # ---- download ---- HTML_body = urllib.urlopen(pageUrl).read() soup = BeautifulSoup(HTML_body) # ---- extract ---- threaddUrls = [] urlRaws = soup.findAll('th',attrs = {'class' : ['new','common']}) urlPattern = re.compile(r'href="([^"]*)"') TitlePattern = re.compile(r'>([^<]*)</a>') for urlRaw in urlRaws: h = urlPattern.search(str(urlRaw)) t = TitlePattern.search(str(urlRaw)) threadUrl = h.group(1) threadTitle = t.group(1) if (os.path.exists(threadTitle) == False): os.mkdir(safeDir(threadTitle)) else: continue os.chdir(safeDir(threadTitle)) page_url = threadPrefix + threadUrl print "---->{0}".format(page_url) print "---->{0}".format(safeDir(threadTitle)) page_body = urllib.urlopen(page_url).read() page_soup = BeautifulSoup(page_body) imgPattern = re.compile(r'img src="([^"]*)" onload') i = imgPattern.findall(str(page_soup)) index = 0 for img in i: print "-------->{0}".format(img) imgSuffix = img[img.rindex('.'):] imgname = "{0}{1}".format(str(index),imgSuffix) urllib.urlretrIEve(img,imgname,None) index += 1 os.chdir("../") os.chdir("../")
以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
总结以上是内存溢出为你收集整理的python抓取图片示例全部内容,希望文章能够帮你解决python抓取图片示例所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)