python的json.loads如何处理带HTML的字符串?

python的json.loads如何处理带HTML的字符串?,第1张

json串中的双引号需要转义为【\"】:

str='''[{"level": 1,"value": ["<p>aaa\"b\"ccc</p>"]}]'''

用python提取html不全的原因:

现在的网站上面有很多的反爬措施,最常见的就是json异步加载,网页上面的数据是json代码加载出来的,所以爬取的html信息不全

具体示例如下:

浏览器显示的内容

实际上爬虫访问链接得到的内容:

更多Python知识,请关注:Python自学网!!

strLoan_LoanView = '''<script>

var Loan_LoanView={"business_id":"753510","lendersJson":"[348190,457619,1001141,1017913,1150545]"}

</script>'''

locJson = strLoan_LoanView.find("lendersJson")

locJsonContent = locJson + len( "lendersJson" )

locJsonListBegin = strLoan_LoanView[ locJsonContent: ].find( "[" ) + locJsonContent

locJsonListEnd = strLoan_LoanView[ locJsonListBegin: ].find( "]" ) + locJsonListBegin

lstRecord = []

lstRecord = strLoan_LoanView[ locJsonListBegin + 1:locJsonListEnd ].split( "," )

大概就是这样的逻辑吧。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/6155385.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-16
下一篇 2023-03-16

发表评论

登录后才能评论

评论列表(0条)

保存