对于只是读取某几个网站更新内容的爬虫完全没必要在python代码中实现增量的功能,直接在item中增加Url字段。 item['Url'] = responseurl 然后在数据端把储存url的column设置成unique。 之后在python代码中捕获数据库commit
这可以用Python实现。下面是一个参考脚本:
import os
import json
path = 'e:/a/'
for filename in oslistdir(path):
if filenameendswith('lua'):
with open(path + filename) as f:
lines = freadlines()
content = ""join(lines)replace("=", ":")replace("[", "")replace("]", "")replace(",", "")replace("{", "")replace("}", "")
content = contentsplit("\n")
data = {}
for line in content:
if linestrip() != "":
parts = linestrip()split(":")
key = parts[0]strip()
value = parts[1]strip()
if valueisdigit():
value = int(value)
data[key] = value
with open(path + filename[:-4] + 'json', 'w') as f:
fwrite(jsondumps({"TestCfg": data}))
注意:本脚本仅作为参考,没有对文件进行全面的错误处理,仅适用于样例文件的格式。请在使用时仔细阅读代码,根据您的实际情况做适当的修改。
以上就是关于爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题!全部的内容,包括:爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题!、求一个cmd或python脚本、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)