直接上需求和代码
首先是需要爬取的链接和网页:http://211.81.31.34/uhtbin/cgisirsi/x/0/0/57/49?user_id=LIBSCI_ENGI&password=LIBSC
登陆进去之后进入我的账号——借阅、预约及申请记录——借阅历史就可以看到所要爬取的内容
然后将借阅历史中的题名、著者、借阅日期、归还日期、索书号存入Mongodb数据库中,以上便是这次爬虫的需求。
下面开始:
各软件版本为:
- python 2.7.11
- MongoDb 3.2.1
- Pycharm 5.0.4
- MongoDb Management Studio 1.9.3
- 360极速浏览器 懒得查了
一、登陆模块
python中的登陆一般都是用urllib和urllib2这两个模块,首先我们要查看网页的源代码:
评论列表(0条)