如何在import.io中正确设置xpath以进行抓取

should • 2022-5-26 • html-js-css • 阅读 14

概述我试图在Import.io中设置一个提取器,我很难让API发布.每次它告诉我它不能发布API并尝试使用xpaths.经过一些进一步的研究,我发现在craig列表页面上找到的标题链接的xpath保存在span标记中. 标签如下： span[@class='pl'] 我已尝试在import.io的xpath区域中为字段设置以下内容 //span[@class='pl'] 但无济于事.无论我似乎尝试什么我试图在import.io中设置一个提取器,我很难让API发布.每次它告诉我它不能发布API并尝试使用xpaths.经过一些进一步的研究,我发现在craig列表页面上找到的标题链接的xpath保存在span标记中.
标签如下：

span[@class='pl']

我已尝试在import.io的xpath区域中为字段设置以下内容

//span[@class='pl']

但无济于事.无论我似乎尝试什么,我实际上无法获得API发布.虽然我能够将数据导出到数据集,但我真的希望得到一个API来发布.

我想知道是否有人使用import.io做了一些轻微的craigs列表？如果是这样,为了使API正确发布,有哪些步骤？

另外,作为附注,我已经阅读了一些关于Scrapy的文章,但我对python一无所知,如何安装它,并运行它,即使我找到了与这个问题直接相关的特定代码片段.任何人都对如何让import.io发布API有任何见解？

解决方法因此,对于寻找这个问题答案的其他人来说,使用import.io设置用于在Craig列表上搜索标题的正确xpath的方法是将高级xpath覆盖设置为以下内容：

.//span[@class='pl']/.

现在我的问题是从Craig’s List返回403错误 – 意思是禁止的.

总结

以上是内存溢出为你收集整理的如何在import.io中正确设置xpath以进行抓取全部内容，希望文章能够帮你解决如何在import.io中正确设置xpath以进行抓取所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/1069949.html

抓取设置

打赏

微信扫一扫

支付宝扫一扫

should 一级用户组

rdf – 将freebase MQL转换为SPARQL

上一篇 2022-05-26

Neo4j：在Web界面中提供cypher参数

下一篇 2022-05-26

发表评论

登录后才能评论

评论列表（0条）