如何在import.io中正确设置xpath以进行抓取

如何在import.io中正确设置xpath以进行抓取,第1张

概述我试图在Import.io中设置一个提取器,我很难让API发布.每次它告诉我它不能发布API并尝试使用xpaths.经过一些进一步的研究,我发现在craig列表页面上找到的标题链接的xpath保存在span标记中. 标签如下: span[@class='pl'] 我已尝试在import.io的xpath区域中为字段设置以下内容 //span[@class='pl'] 但无济于事.无论我似乎尝试什么 我试图在import.io中设置一个提取器,我很难让API发布.每次它告诉我它不能发布API并尝试使用xpaths.经过一些进一步的研究,我发现在craig列表页面上找到的标题链接的xpath保存在span标记中.
标签如下:

span[@class='pl']

我已尝试在import.io的xpath区域中为字段设置以下内容

//span[@class='pl']

但无济于事.无论我似乎尝试什么,我实际上无法获得API发布.虽然我能够将数据导出到数据集,但我真的希望得到一个API来发布.

我想知道是否有人使用import.io做了一些轻微的craigs列表?如果是这样,为了使API正确发布,有哪些步骤?

另外,作为附注,我已经阅读了一些关于Scrapy的文章,但我对python一无所知,如何安装它,并运行它,即使我找到了与这个问题直接相关的特定代码片段.任何人都对如何让import.io发布API有任何见解?

解决方法 因此,对于寻找这个问题答案的其他人来说,使用import.io设置用于在Craig列表上搜索标题的正确xpath的方法是将高级xpath覆盖设置为以下内容:

.//span[@class='pl']/.

现在我的问题是从Craig’s List返回403错误 – 意思是禁止的.

总结

以上是内存溢出为你收集整理的如何在import.io中正确设置xpath以进行抓取全部内容,希望文章能够帮你解决如何在import.io中正确设置xpath以进行抓取所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1069949.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-26
下一篇 2022-05-26

发表评论

登录后才能评论

评论列表(0条)

保存