每周星期四坚持分析一本好书,包括数据分析,股票财经,技术分析等书籍,
有很多好的书籍还没有时间去阅读,学习,有时间去研究研究
分享的书籍仅供学习,交流,不得用于商业用途,如果作者认为侵权可以联系我删除。
在这个信息化时代,信息非常的多,爬虫是我们获取数据的一个很好的手段,但是我们也要坚持爬虫的原则,不恶意爬虫,不爬虫非公开信息。
需要书籍关注微信公众号,数据分析与运用,回复爬虫项目开发与实践就可以了,需要程序回复
关注微信公众号,数据分析与运用,回复东方财富爬虫就可以
我们看一下这本书
我们看重要内容,包括常用爬虫库,和大规模爬虫库,数据解析等。
还有数据的存储,我学习还比较少,也在不断学习。
下面我写的东方财富7x24小时实时信息代码
程序代码:
#东方财富7x24小时实时新闻
import pandas as pd
import json
import jsonpath
from bs4 import BeautifulSoup
from lxml import etree
import requests
import PySimpleGUI as sg
import pyttsx3
n=sg.popup_get_file('输入是否选择阅读,0代表阅读,1代表不朗读')
#获取数据
url='https://newsapi.eastmoney.com/kuaixun/v1/getlist_102_ajaxResult_50_1_.html?r=0.5323048592577926&_=1651147023274'
#解析数据
res=requests.get(url=url)
res_text=res.text[15:]
df_text=json.loads(res_text)
df=pd.DataFrame(df_text['LivesList'])
df1=df[['url_unique','title','simtitle','digest','simdigest']]
df1.columns=['链接','标题','简单标题','内容','简单内容']
#选择输出方式
if n=='0':
for i in df1['内容']:
print(i)
pyttsx3.speak(i)
else:
print(df1)
下面为财联社7x24小时实时信息代码
#获取财联社实习信息
import requests
import pandas as pd
from bs4 import BeautifulSoup
from lxml import etree
import json
import jsonpath
import pyttsx3
import PySimpleGUI as sg
n=sg.popup_get_file('输入是否选择阅读,0代表阅读,1代表不朗读')
header={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
'Referer':'https://www.cls.cn/telegraph',
'Cookie':'HWWAFSESID=f1e339d250ffd1ae2b; HWWAFSESTIME=1651113906511; hasTelegraphRemind=on; hasTelegraphSound=on; vipNotificationState=on; Hm_lvt_fa5455bb5e9f0f260c32a1d45603ba3e=1650716469,1651113924; Hm_lpvt_fa5455bb5e9f0f260c32a1d45603ba3e=1651113934; hasTelegraphNotification=off'
}
url='https://www.cls.cn/nodeapi/refreshTelegraphList?app=CailianpressWeb&lastTime=1651130103&os=web&sv=7.7.5&sign=6868257718c66f050d2a1b4a9132fa0a'
res=requests.get(url=url,headers=header)
print(res.text)
res_text=json.loads(res.text)
df=pd.DataFrame(res_text['l'])
df1=df.T
df1_content=df1['content']
if n=='0':
for i in df1_content:
print(i)
pyttsx3.speak(i)
else:
print(df1_content)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)