本文,用python来创建一个最简单的网页。
1先定义一个函数,用来向网站服务器发送请求:defyingyong(environ,start_response):start_response('200OK',[('Content-Type','text/html')])return[b'<h1>HowAre!</h1>']要求网站在网页上显示粗体的HowAre!
2导入wsgi模块的子模块,用来创建服务器。fromwsgirefsimple_serverimportmake_server。
3创建服务器,IP为空,端口号为900。a=900>
4让服务器开始运行,并长时间运行。>
5再访问步骤一里面的链接,就得到如下网页。这说明服务器开始运行了。刷新这个网页,就相当于重复访问这个网页。每访问一次(刷新一次),都会向服务器发送请求,在python编译器里面会有所体现。
6关闭python编译器,服务器也就关闭了,这个网页会立刻崩溃。再打开python并运行这段代码,这个网页又会立刻恢复。完整代码如下:defyingyong(environ,start_response):start_response('200OK',[('Content-Type','text/html')])return[b'<h1>HowAre!</h1>']fromwsgirefsimple_serverimportmake_servera=900>
1、开始之前,请先用浏览器访问下面这个网页:l')])
return[b'<h1>HowAre!</h1>']
要求网站在网页上显示粗体的HowAre!
3、导入wsgi模块的子模块,用来创建服务器。
fromwsgirefsimple_serverimportmake_server
4、创建服务器,IP为空,端口号为900。
a=900
>
这个服务器将调用前面的函数yingyong。
5、让服务器开始运行,并长时间运行。
>
forever,让服务器永远运行,除非服务器被迫关闭。
服务器在哪里?就在python里面,关闭python编译器,就等于关闭了服务器。
6、再访问步骤一里面的链接,就得到如下网页,这说明服务器开始运行了。
7、刷新这个网页,就相当于重复访问这个网页,每访问一次(刷新一次),都会向服务器发送请求,在python编译器里面会有所体现。
8、关闭python编译器,服务器也就关闭了,这个网页会立刻崩溃。
再打开python并运行这段代码,这个网页又会立刻恢复。
完整代码如下:
defyingyong(environ,start_response):
start_response('200OK',[('Content-Type','text/html')])
return[b'<h1>HowAre!</h1>']
fromwsgirefsimple_serverimportmake_server
a=900
>
>不商用就不违法。
网络爬虫在大多数情况中都不违法,其实我们生活中几乎每天都在爬虫应用,如百度,你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外,如百度知道、百科等),所以网络爬虫作为一门技术,技术本身是不违法的,且在大多数情况下你都可以放心大胆的使用爬虫技术。当采集的站点有声明禁止爬虫采集或者转载商业化时,是违法的。
robotstxt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robotstxt是一个协议,而不是一个命令。robotstxt是搜索引擎中访问网站的时候要查看的第一个文件。robotstxt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)