str='''[{"level": 1,"value": ["<p>aaa\"b\"ccc</p>"]}]'''
用python提取html不全的原因:
现在的网站上面有很多的反爬措施,最常见的就是json异步加载,网页上面的数据是json代码加载出来的,所以爬取的html信息不全
具体示例如下:
浏览器显示的内容
实际上爬虫访问链接得到的内容:
更多Python知识,请关注:Python自学网!!
strLoan_LoanView = '''<script>var Loan_LoanView={"business_id":"753510","lendersJson":"[348190,457619,1001141,1017913,1150545]"}
</script>'''
locJson = strLoan_LoanView.find("lendersJson")
locJsonContent = locJson + len( "lendersJson" )
locJsonListBegin = strLoan_LoanView[ locJsonContent: ].find( "[" ) + locJsonContent
locJsonListEnd = strLoan_LoanView[ locJsonListBegin: ].find( "]" ) + locJsonListBegin
lstRecord = []
lstRecord = strLoan_LoanView[ locJsonListBegin + 1:locJsonListEnd ].split( "," )
大概就是这样的逻辑吧。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)