爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题!

爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题!,第1张

对于只是读取某几个网站更新内容的爬虫完全没必要在python代码中实现增量的功能,直接在item中增加Url字段。 item['Url'] = responseurl 然后在数据端把储存url的column设置成unique。 之后在python代码中捕获数据库commit

这可以用Python实现。下面是一个参考脚本:

import os

import json

path = 'e:/a/'

for filename in oslistdir(path):

if filenameendswith('lua'):

with open(path + filename) as f:

lines = freadlines()

content = ""join(lines)replace("=", ":")replace("[", "")replace("]", "")replace(",", "")replace("{", "")replace("}", "")

content = contentsplit("\n")

data = {}

for line in content:

if linestrip() != "":

parts = linestrip()split(":")

key = parts[0]strip()

value = parts[1]strip()

if valueisdigit():

value = int(value)

data[key] = value

with open(path + filename[:-4] + 'json', 'w') as f:

fwrite(jsondumps({"TestCfg": data}))

注意:本脚本仅作为参考,没有对文件进行全面的错误处理,仅适用于样例文件的格式。请在使用时仔细阅读代码,根据您的实际情况做适当的修改。

以上就是关于爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题!全部的内容,包括:爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题!、求一个cmd或python脚本、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/10105028.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存