python抓取图片示例

python抓取图片示例,第1张

概述python抓取图片示例

下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。

内存溢出小编现在分享给大家,也给大家做个参考。

#!/usr/bin/python# -*- Coding:utf-8 -*-import reimport osimport urllib,urllib2,cookielibimport shutilfrom BeautifulSoup import BeautifulSoup # ---- utils ----def normalize_url(url):    return "http://" + url if cmp(url[0:7],"http://") != 0 else urldef safeDir(dir):    return dir.replace('/','')# ---- variable ----homepagePrefix = "http://60dxw.comww1.baisex.me/forum-47-"homepageSuffix = ".HTML"threadPrefix = "http://60dxw.comww1.baisex.me/"homedir = "baixingge"# ---- login ----cookie = urllib2.httpcookieProcessor(cookielib.cookieJar())opener = urllib2.build_opener(cookie)# ---- file ----if (os.path.exists(homedir) == False):    os.mkdir(homedir)os.chdir(homedir)# ---- crawl ----for page in range(1,25):    pageUrl = '{0}{1}{2}'.format(homepagePrefix,page,homepageSuffix)    # ---- mkdir ----    if (os.path.exists(str(page)) == False):        os.mkdir(str(page))    os.chdir(str(page))    print pageUrl    # ---- download ----    HTML_body = urllib.urlopen(pageUrl).read()    soup = BeautifulSoup(HTML_body)    # ---- extract ----    threaddUrls = []    urlRaws = soup.findAll('th',attrs = {'class' : ['new','common']})    urlPattern = re.compile(r'href="([^"]*)"')    TitlePattern = re.compile(r'>([^<]*)</a>')    for urlRaw in urlRaws:         h = urlPattern.search(str(urlRaw))        t = TitlePattern.search(str(urlRaw))        threadUrl = h.group(1)        threadTitle = t.group(1)        if (os.path.exists(threadTitle) == False):            os.mkdir(safeDir(threadTitle))        else:            continue        os.chdir(safeDir(threadTitle))        page_url = threadPrefix + threadUrl        print "---->{0}".format(page_url)        print "---->{0}".format(safeDir(threadTitle))        page_body = urllib.urlopen(page_url).read()        page_soup = BeautifulSoup(page_body)        imgPattern = re.compile(r'img src="([^"]*)" onload')        i = imgPattern.findall(str(page_soup))        index = 0        for img in i:            print "-------->{0}".format(img)            imgSuffix = img[img.rindex('.'):]            imgname = "{0}{1}".format(str(index),imgSuffix)            urllib.urlretrIEve(img,imgname,None)            index += 1        os.chdir("../")    os.chdir("../")

以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

总结

以上是内存溢出为你收集整理的python抓取图片示例全部内容,希望文章能够帮你解决python抓取图片示例所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1199203.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存