2. 然后,分析网站架构,找到需要抓取的页面;
3. 接着,分析网页源代码,找到需要抓取的信息;
4. 最后,将获取到的信息存储到数据库中,方便以后使用。
请先在本地任何地方新建一个文件夹,命名随意,本文就以COPYWEB为例
(1)拷贝HTML文件
用chrome浏览器打开你喜欢的网站
右键点击,在d出菜单中选中查看框架的源代码(如图所示)
在COPYWEB文件夹中新建记事本,把文件改成
index.html,将d出的那些代码拷进这个HTML文件
到这一步,你试着双击一下这个index文件,你会发现,额,怎么内容都在,但是排版什么都乱七八糟,什么鬼。亲,勿摔鼠标,请往下看,加入CSS文件你就能看见你想要拥有的网站炫酷的外衣。
(2)扒CSS样式
在框架源代码中找到标签中关于CSS后缀的代码行,如图一行代表一个CSS文件
建立正确的CSS路径,路径看href,本例是css/base.css,代表需要在COPYWEB文件夹下新建CSS文件夹。
将代码放进CSS文件夹中。(1)将鼠标放在第一行的href链接上,单击右键,打开CSS文件,你见到一大堆代码,鼠标ctrl+A全部选中,ctrl+c拷贝下来。(2)在CSS文件夹中新建一个记事本,把文件名改为base.css,将拷贝下来的代码,粘贴进去,保存保存关闭。(3)以此类推,将第二第三行……第N行的CSS文件都这样新建保存进CSS文件夹,本例就有三个CSS文件,最终效果如下
这时,你双击网站就可以看到,哇,网站已经有点样子了。咦,怎么所有的图片都是空白一块?不要着急,接下来,我们来扒图片
(3)扒图片
建立图片路径。在图片上右键单击,选择审查元素,就会出现一个图片的地址链接。与CSS相同,看到这个路径是
在地址上右击,选择第一个在新标签中打开这张图片
在浏览器d出的新标签中,你变可以右击图片另存为,将图片保存下来。
(4)扒JS文件
同CSS文件一样的方法,不累述。
(5)相同方法扒其余页面。
其余页面,你会发现CSS和JS文件基本一样。只需要扒本页的相关图片即可。
不需要软件第一种方法:打开你的浏览器 ctrl + s 保存到本地 你就有了当前主页页面以及其他文件。
第二种方法:下载谷歌或者火狐浏览器然后打开你需要扒的网站,鼠标右键查看源代码,会查看到他的html复制到你新建的html上(这样只是获得了html文件),如果想获得当前网站的js文件或者css文件按一下F12,然后找到Network,然后刷新,你会看见很多加载的文件包括你想要的css文件,然后找到需要的文件点击右侧response你就能查看到你要文件里面的区域然后复制到你新建的css文件里就ok了。
第三种方法:下载谷歌或者火狐浏览器然后打开你需要扒的网站,鼠标右键查看源代码,然后找到html里的css引入的地方然后在他的网站末尾添加路径就能查看到他的css文件。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)