curl 支持文件的上传和下载,所以是综合传输工具,但按传统,习惯称curl为下载工具。
作为一款强力工具,curl支持包括HTTP、HTTPS、FTP等众多协议,还支持 GET、POST、cookies、认证、从指定偏移处下载部分文件、用户代理字符串、限速、文件大小、进度条等特征,还可以做网页处理流程和数据检索自动化。
在进行web后台程序开发测试过程中,常常会需要发送url进行测试,使用curl可以方便地模拟出符合需求的url命令
curl 语法:curl [options...] <url> # curl (选项) (参数)
示例1:curl -m 30 --retry 3 https://proxy.mimvp.com/ip.php // curl 爬取网页,获取本机外网ip
示例2:curl -m 30 --retry 3 -x https://120.77.176.179:8888 https://proxy.mimvp.com/ip.php // curl 通过代理IP爬取网页,获取本机外网ip
更多示例:https://proxy.mimvp.com/demo2.php (Shell curl wget)
使用curl发送GET请求:curl protocol://ip:port/url?args
curl https://proxy.mimvp.com/login?user=admin&passwd=12345678
使用curl发送POST请求: (推荐)
curl -d "key1=value1&key2=value2&key3=value3" protocol://ip:port/path
示例1:curl -d 'post_data=i_love_mimvp.com' https://proxy.mimvp.com/ip.php // 测试 post ,发送什么数据就返回什么数据,如 'i_love_mimvp.com'
示例2:curl -d "user=admin&passwd=12345678" https://proxy.mimvp.com/login // 测试 post ,模拟发送登录的用户名和密码
这种方法是参数直接在header里面的,如需将输出指定到文件可以通过重定向进行 *** 作.
curl -H "Content-Type:application/json" -X POST -d 'json data' URL
示例1:curl -H "Content-Type:application/json" -X POST -d '{"post_data":"i_love_mimvp.com"}' 'https://proxy.mimvp.com/ip.php'
示例2:curl -H "Content-Type:application/json" -X POST -d '{"user": "admin", "passwd":"12345678"}' https://proxy.mimvp.com/login
curl 应用实例
1. 文件下载
curl命令可以用来执行下载、发送各种HTTP请求,指定HTTP头部等 *** 作。
如果系统没有curl可以使用 yum install curl 安装,也可以下载安装。
curl是将下载文件输出到stdout,将进度信息输出到stderr,不显示进度信息使用 --silent 选项。
curl URL --silent
这条命令是将下载文件输出到终端,所有下载的数据都被写入到stdout。
使用选项-O将下载的数据写入到文件,必须使用文件的绝对地址:
curl http://man.linuxde.net/text.iso --silent -O
选项-o将下载数据写入到指定名称的文件中,并使用--progress显示进度条:(常用)
curl http://man.linuxde.net/test.iso
做法:传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。
然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。
python和linux两者间没什么关系,python是一门程序设计语言,linux是一个 *** 作系统,向上支持应用软件的运行,向下控制硬件,是软件和硬件的过渡层。Python语言可以在Linux系统下学习和开发。
比如,如果是想用Python开发网站(现今流行的、成熟的Python Web框架)就需要使用到Linux平台;如果想使用Python爬虫爬取数据,在Linux系统上也要更方便一些;还有就是想学习网络安全渗透测试,在Linux上编写Python自动化测试脚本也很有必要。
扩展资料:
可以通过python对linux进行 *** 作,利用python *** 纵linux的命令为:
1、import os
#返回 *** 作系统类型,值为posix,是linux *** 作系统,值为nt,是window *** 作系统
2、print os.name
#返回 *** 作系统的详细信息
3、print os.uname()
#系统的环境变量
4、print os.environ
print os.environ.get('PATH')
#判断是否为绝对路径(不会判断文件或者目录是否存在)
5、print os.path.isabs('/tmp/westos')
print os.path.isabs('hello')
#生成绝对路径
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)