抓取简单游全站数据

抓取简单游全站数据,第1张

概述抓取简单游全站数据

下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。

内存溢出小编现在分享给大家,也给大家做个参考。

#!/usr/bin/python# -*- Coding:utf-8 -*-from public import getHTML2from dbconfig_waigua import *from scrapy.selector import Selectorimport MysqLdb,MysqLdb.cursors,datetime,re,inspectclass getGames:	conn = None	db = None	def __init__(self):		self.conn = MysqLdb.connect(db=dbname,user=dbuser,passwd=dbpasswd,host=dbhost,charset="utf8",cursorclass = MysqLdb.cursors.DictCursor)		self.db = self.conn.cursor()	def saveGame(self,name):		self.db.execute('select ID from fz_games where name = %s',(name))		item = self.db.fetchone()		if not item:			self.db.execute('insert into fz_games (name,updated) values (%s,%s)',(name,datetime.datetime.Now().strftime("%Y-%m-%d %H:%M:%s"))) 			self.conn.commit()			return self.db.lastrowID		else:			return item['ID']	def savefuzhu(self,gametype,Title,info,updated):		self.db.execute('select ID from fz_games where name = %s',(gametype))		item = self.db.fetchone()		if item:			gameID = item['ID']		else:			self.db.execute('insert into fz_games (name,(gametype,datetime.datetime.Now().strftime("%Y-%m-%d %H:%M:%s"))) 			self.conn.commit()			gameID = self.db.lastrowID		self.db.execute('select ID from fz_name where name = %s',(Title))		item = self.db.fetchone()		if not item:			self.db.execute('insert into fz_name (gameID,name,updated) values (%s,%s,(gameID,updated))  			self.conn.commit()	#解析简单游脚本	def parsejdy(self,url):		HTML = unicode(getHTML2(url).read(),'gbk','ignore')		sel = Selector(text = HTML)		tmp = sel.xpath('//Meta[@name="keywords"]/@content').extract()[0]		arr = tmp.split(',')		gametype = arr[0]		Title = arr[1]		updated = sel.xpath('//div[@]/div[@][position()=2]/div[@]/text()').extract()[0]		info = sel.xpath('//div[@][position()=1]/text()').extract()[0]		print updated.strip().encode('utf-8'),gametype.strip().encode('utf-8'),Title.strip().encode('utf-8'),info.encode('utf-8')		return (gametype.strip(),Title.strip(),info.strip(),updated.strip())	def _getgameListjdy(self,url):		HTML = getHTML2(url).read()		sel = Selector(text = HTML)		items = sel.xpath('//a[contains(@href,"scripts")]/@href').extract()		for item in items:			item = self.parsejdy('http://www.jdyou.com/'+item[2:])			self.savefuzhu(item[0],item[1],item[2],item[3])	#简单游全站解析	def getgamefromjdy(self):		#得到全部游戏列表		HTML = unicode(getHTML2('http://www.jdyou.com/').read(),'ignore')		sel = Selector(text = HTML)		items = sel.xpath('//div[@]/a[contains(@href,"ScriptList")]/@href').extract()		for item in items:			try:				self._getgameListjdy('http://www.jdyou.com/'+item)			except:				passif __name__ == "__main__":	g = getGames()	g.getgamefromjdy()

以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

总结

以上是内存溢出为你收集整理的抓取简单游全站数据全部内容,希望文章能够帮你解决抓取简单游全站数据所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1198920.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存