python的json.loads如何处理带HTML的字符串？_随笔

json串中的双引号需要转义为【\"】:

str='''[{"level": 1,"value": ["<p>aaa\"b\"ccc</p>"]}]'''

用python提取html不全的原因：

现在的网站上面有很多的反爬措施，最常见的就是json异步加载，网页上面的数据是json代码加载出来的，所以爬取的html信息不全

具体示例如下：

浏览器显示的内容

实际上爬虫访问链接得到的内容：

更多Python知识，请关注：Python自学网！！

strLoan_LoanView = '''<script>

var Loan_LoanView={"business_id":"753510","lendersJson":"[348190,457619,1001141,1017913,1150545]"}

</script>'''

locJson = strLoan_LoanView.find("lendersJson")

locJsonContent = locJson + len( "lendersJson" )

locJsonListBegin = strLoan_LoanView[ locJsonContent: ].find( "[" ) + locJsonContent

locJsonListEnd = strLoan_LoanView[ locJsonListBegin: ].find( "]" ) + locJsonListBegin

lstRecord = []

lstRecord = strLoan_LoanView[ locJsonListBegin + 1:locJsonListEnd ].split( "," )

大概就是这样的逻辑吧。

欢迎分享，转载请注明来源：内存溢出

python的json.loads如何处理带HTML的字符串？