怎么使用python获取网站的子链接

怎么使用python获取网站的子链接,第1张

可以使用urllib

import urllib

response=urlliburlopen("网站地址")

page=responseread()

pos=pagefind("<a href=\"")

while ~pos:

page=page[pos+9:]

lim=pagefind('\"')

print "You've found a link:%s"%page[:lim]

pos=pagefind("<a href=\"")

import requests

from lxml import html

# 创建 session 对象。这个对象会保存所有的登录会话请求。

session_requests = requestssession()

# 提取在登录时所使用的 csrf 标记

login_url = ">

首先你这个代码在我这里运行是ok的。

Expires: Tue, 27 Jan 2015 03:56:41 GMT

Date: Tue, 27 Jan 2015 03:55:21 GMT

Server: nginx

Content-Type: text/html; charset=GBK

Vary: Accept-Encoding,User-Agent,Accept

Cache-Control: max-age=80

X-Via: 11 czdx88:8105 (Cdn Cache Server V20), 11 dagang20:0 (Cdn Cache Server V20)

Connection: close

这个应该是请求错误,有多个可能:

1。你没有连接到网络上,无法访问这个地址

2。你使用了代理

3 你一段时间内访问的太频繁,被对方的服务器拉入了黑名单。

你可以按照自己的情况排查一下。

如果解决了您的问题请采纳!

如果未解决请继续追问!

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 

类似于使用程序模拟IE浏览器的功能,把URL作为>

在Python中,我们使用urllib2这个组件来抓取网页。

urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。

它以urlopen函数的形式提供了一个非常简单的接口。

最简单的urllib2的应用代码只需要四行。

我们新建一个文件urllib2_test01py来感受一下urllib2的作用:

import urllib2

response = urllib2urlopen('>

按下F5可以看到运行的结果:

我们可以打开百度主页,右击,选择查看源代码(火狐OR谷歌浏览器均可),会发现也是完全一样的内容

也就是说,上面这四行代码将我们访问百度时浏览器收到的代码们全部打印了出来。

这就是一个最简单的urllib2的例子。

除了">

>

客户端提出请求,服务端提供应答。

urllib2用一个Request对象来映射你提出的>

在它最简单的使用形式中你将用你要请求的地址创建一个Request对象,

通过调用urlopen并传入Request对象,将返回一个相关请求response对象,

这个应答对象如同一个文件对象,所以你可以在Response中调用read()。

我们新建一个文件urllib2_test02py来感受一下:

import urllib2 

req = urllib2Request('>

可以看到输出的内容和test01是一样的。

urllib2使用相同的接口处理所有的URL头。例如你可以像下面那样创建一个ftp请求。

req = urllib2Request('ftp://examplecom/')

在>

1发送data表单数据

这个内容相信做过Web端的都不会陌生,

有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本,或其他WEB应用程序挂接)。

在>

这个通常在你提交一个HTML表单时由你的浏览器来做。

并不是所有的POSTs都来源于表单,你能够使用POST提交任意的数据到你自己的程序。

一般的HTML表单,data需要编码成标准形式。然后做为data参数传到Request对象。

编码工作使用urllib的函数而非urllib2。

我们新建一个文件urllib2_test03py来感受一下:

import urllib 

import urllib2 

url = '>

如果没有传送data参数,urllib2使用GET方式的请求。

GET和POST请求的不同之处是POST请求通常有"副作用",

它们会由于某种途径改变系统状态(例如提交成堆垃圾到你的门口)。

Data同样可以通过在Get请求的URL本身上面编码来传送。

import urllib2 

import urllib

data = {}

data['name'] = 'WHY' 

data['location'] = 'SDU' 

data['language'] = 'Python'

url_values = urlliburlencode(data) 

print url_values

name=Somebody+Here&language=Python&location=Northampton 

url = '>

这样就实现了Data数据的Get传送。

2设置Headers到>

有一些站点不喜欢被程序(非人为访问)访问,或者发送不同版本的内容到不同的浏览器。

默认的urllib2把自己作为“Python-urllib/xy”(x和y是Python主版本和次版本号,例如Python-urllib/27),

这个身份可能会让站点迷惑,或者干脆不工作。

浏览器确认自己身份是通过User-Agent头,当你创建了一个请求对象,你可以给他一个包含头数据的字典。

下面的例子发送跟上面一样的内容,但把自身模拟成Internet Explorer。

(多谢大家的提醒,现在这个Demo已经不可用了,不过原理还是那样的)。

import urllib 

import urllib2 

url = '>

以上就是python利用urllib2通过指定的URL抓取网页内容的全部内容,非常简单吧,希望对大家能有所帮助。

思路如下:

使用urllib2库,打开页面,获取页面内容,再用正则表达式提取需要的数据就可以了。

下面给你个示例代码供参考,从百度贴吧抓取帖子内容,并保存在文件中。

# -- coding:utf-8 --

import urllib2

import re

url='

page=urllib2urlopen(url)read()decode('gbk')

none_re=recompile('<a href=>|</a>|<img>')

br_re=recompile('<br>')

title_re=recompile('<h1 class="core_title_txt  " title="()"')

content_re=recompile('<div id="post_content_\d" class="d_post_content j_d_post_content ">()</div>')

title=research(title_re,page)

title=titlegroup(1)replace('\\','')replace('/','')replace(':','')replace('','')replace('','')replace('"','')replace('>','')replace('<','')replace('|','')  

content=refindall(content_re,page)

with open('%stxt'%title,'w') as f:

    for i in content:

        i=resub(none_re, '', i)

        i=resub(br_re, '\n', i)        

        fwrite(iencode('utf-8')strip()+'\n')

抓取网页,就是通过程序去获取网页内容,你可以看看python的urllib和urllib2模块,这两个是python自带的,可以帮你把网页抓下来,后面的解析你看看bs4,它能帮你从网页中解析出你要的内容。

以上就是关于怎么使用python获取网站的子链接全部的内容,包括:怎么使用python获取网站的子链接、如何用 Python 爬取需要登录的网站、python获取网页信息等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9768740.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存