2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】
视频地址:https://www.bilibili.com/video/BV1Xh411p7M9?spm_id_from=333.999.0.0
文字地址:https://www.bilibili.com/read/cv13353927?from=note
教学大纲:https://c.d2l.ai/stanford-cs329p/syllabus.html#deep-network-tuning
课程代码:https://c.d2l.ai/stanford-cs329p/_static/notebooks/cs329p_notebook_eda.slides.html#/12
数据集获取:
!wget https://c.d2l.ai/stanford-cs329p/_static/house_sales.ftr
data = pd.read_feather('house_sales.ftr')
data = pd.read_csv('house_sales.zip')
收获:
- csv文件存下来相对比较大,可以先压缩成一个zip或一个tar,主流的读取文件都可以从压缩文件中读取。建议存成压缩文件,在传输存储都会比较好,甚至还会比直接读取还要好(这个方法可用于文本)
- In[6] 中的 inplace的作用是,直接将要去掉的列给改写掉(直接对数进行修改),可以省些内存,但是这个只能跑一次
- from IPython import display display.set_matplotlib_formats('svg') svg格式,显示图片更清晰
- 箱型图:搞懂箱形图分析
- 协方差矩阵 分析 相关性
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)