Kaggle★ | 昊神整理比赛 |特征工程
检索目录 |
是什么参加kaggle竞赛是怎样一种体验 | 关于kaggle竞赛 | 如何参加 | kaggle比赛整理 | 比赛心得 | 百度 | 如何在kaggle上比赛 | 初学者五步指南 | kaggle比赛 | kaggle入门 | 一文介绍kaggle比赛 | 比赛时间 | 如何开始kaggle之旅 | 如何着手 |
失败记录 |
Kaggle学习-★链接Kaggle:
- ApacheCN 组织资源: ApacheCN 文档汇总 | 让开源界提前感受入关
- Kaggle 是一个流行的数据科学竞赛平台。
- GitHub 入门 *** 作指南 和 Kaggle 入门 *** 作指南,适合于学习过 MachineLearning(机器学习实战) 的小盆友
- Kaggle 已被 Google 收购,请参阅《谷歌收购 Kaggle 为什么会震动三界(AI、机器学习、数据科学界)》
Note:
- 号外号外 kaggle组队开始啦
- 比赛收集平台: https://github.com/iphysresearch/DataSciComp
- 关于 ApacheCN: 一边学习和整理,一边录制项目视频,希望能组建一个开源的公益团队对国内机器学习社区做一些贡献,同时也为装逼做准备!!
入门:
- apachecn的个人空间_哔哩哔哩_Bilibili
- Kaggle系列-数字识别
- Kaggle系列-泰坦尼克号
比赛直播:
- 视频: 2019ICME 抖音视频理解 top2 solution 分享及 数据比赛入门讲解
- 文档: icme2019-top2.pptx
- 昊神GitHub地址: https://github.com/Smilexuhc
- 昊神整理比赛系列: https://github.com/Smilexuhc/Data-Competition-TopSolution
官方教程:
机器学习入门:
- 1. 模型是怎样工作的
- 2. 数据探索
- 3. 你的第一个机器学习模型
- 4. 模型验证
- 5. 欠拟合与过拟合
- 6. 随机森林
- 7. 继续你的征程
补充:
- Embedding
- 【推荐】特征工程全过程: 使用sklearn做单机特征工程 - jasonfreak - 博客园
train loss 与 test loss 结果分析
- train loss 不断下降,test loss不断下降,说明网络仍在学习;
- train loss 不断下降,test loss趋于不变,说明网络过拟合;
- train loss 趋于不变,test loss不断下降,说明数据集100%有问题;
- train loss 趋于不变,test loss趋于不变,说明学习遇到瓶颈,需要减小学习率或批量数目;
- train loss 不断上升,test loss不断上升,说明网络结构设计不当,训练超参数设置不当,数据集经过清洗等问题。
机器学习比赛,奖金很高,业界承认分数。现在我们已经准备好尝试 Kaggle 竞赛了,这些竞赛分成以下几个类别。第1部分:课业比赛 InClass
课业比赛 InClass 是学校教授机器学习的老师留作业的地方,这里的竞赛有些会向public开放参赛,也有些仅仅是学校内部教学使用。
第2部分:入门比赛 Getting Started入门比赛 Getting Started 给萌新们一个试水的机会,没有奖金,但有非常多的前辈经验可供学习。很久以前Kaggle这个栏目名称是101的时候,比赛题目还很多,但是现在只保留了9个最经典的入门竞赛:手写数字识别、沉船事故幸存估计、脸部识别、Julia语言入门。
- 数字识别
- 泰坦尼克
- 房价预测
- nlp-情感分析
训练场 Playground里的题目以有趣为主,比如猫狗照片分类的问题。现在这个分类下的题目不算多,但是热度很高。
- 猫狗识别
研究型 Research 竞赛通常是机器学习前沿技术或者公益性质的题目。竞赛奖励可能是现金,也有一部分以会议邀请、发表论文的形式奖励。
第5部分:人才征募 Recruitment人才征募 Recruitment 竞赛是赞助企业寻求数据科学家、算法设计人才的渠道。只允许个人参赛,不接受团队报名。
第6部分: 大型组织比赛(大奖金) Featured推荐比赛 Featured 是瞄准商业问题带有奖金的公开竞赛。如果有幸赢得比赛,不但可以获得奖金,模型也可能会被竞赛赞助商应用到商业实践中呢。
- Mercari 价格推荐挑战
- Home Credit Default Risk
Masters(新) 限量参与比赛(受邀)
第8部分: 多评估标准赛 Analytics(新)Analytics(新) 选择最优评估标准来排名的比赛
天池
- 天池入门教程: O2O优惠券-使用新人赛
- 天池第一名: O2O优惠券-预测用户领取优惠劵后是否核销
其他部分:
- 数据集: 数据集,可直接用于机器学习。
- 核心思想: 在线编程。(猜测,基于 jupyter 实现)
- 论坛: 发帖回帖讨论的平台
- 学习 - 新: 最新发布的学习教程
- 招聘: 企业招聘数据科学家的位置
解决方案列表:
- 解决方案列表
如果解决方案太大,可以先放在这个列表中。以后再逐步整合到这个仓库。
机器学习算法:
常用算法选择
常用工具选择
解决问题的流程
- 链接场景和目标
- 链接评估准则
- 认识数据
- 数据预处理(清洗、调权)
- 特征工程
- 模型调参
- 模型状态分析
- 模型融合
数据预处理
- 数据清洗
- 去掉样本数据的异常数据。(比如连续型数据中的离群点)
- 去除缺失大量特征的数据
- 数据采样
- 下/上采样(假设正负样本比例1:100,把正样本的数量重复100次,这就叫上采样,也就是把比例小的样本放大。下采样同理,把比例大的数据抽取一部分,从而使比例变得接近于1;1)
- 保证样本均衡
- 工具 sql、pandas等
特征工程
特征处理
- 数值型:连续型数据离散化或者归一化、数据变化(log、指数、box-cox)
- 类别型:做编码,eg:one-hot编码,如果类别数据有缺失,把缺失也作为一个类别即可。
- 时间类:间隔化(距离某个节日多少天)、与其他特征(eg:次数)融合,变成一周登陆几次、离散化(eg:外卖,把时间分为【饭店、非饭店】)
- 文本类:N-gram、Bag-of-words、TF-IDF
- 统计型:与业务强关联
- 组合特征
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)