今年大二,因为对编程感兴趣入坑,算下来自学编程快要一年了,了解了关于计算机的很多方向,暑假偶然间了解到数据分析和挖掘,觉得挺有趣的就想深入学习以下,于是开始学习pandas,然后机器学习,并在天池上做了几个小项目。误打误撞了解到有泰迪杯这个比赛,本着以赛促学,积累经验为目的就去参加了。
主要分为以下四个点来说;
目录
1.队友选择方面
2.题目选择方面
3.比赛过程
4.解题思路
第一问
第二问
第三问
第四问
5.总结
1.队友选择方面
因为是第一参加也没经验,没有意识到队友的重要性,就随便找了一个没有经验的的队友,所以比赛过程就想当然的艰难。。。一个是没有磨合过,第二个是那位老哥总是以各种理由推脱失联,好在比赛时间比较长,还能弥补一点。不过我也不能怪那位老哥,毕竟没有他我本身也没有队友的哈哈哈哈。但是还是希望大家能有一个好队吧,不论结果,好的队友能给你一个愉悦的参赛过程。
2.题目选择方面那位老哥说选择c题,他说他做过,于是。。。我就选了,就是这么没主见。后来发现他根本不会,可是距离比赛开始时间已经只剩十五天了,自然语言处理入门果然没那么简单(实体识别学不会),于是我果断选择放弃,改选了b题,时序处理。额,其实我也没接触过时序问题,毕竟小白到不能再小白了,只能重头学起。
3.比赛过程可以说相当曲折了,没有经验,没人指导,没写过论文,没有建过模(我可真是三无产品)pandas才刚学完,十分蹩脚的做完数据预处理,删删改改总算做完了,根本没听过什么LSTM,好的立刻去了解。一路学习了解了LSTM arima prophet 等等各种奇奇怪怪的东东,解题过程真的是一言难尽,对于一个连基本框架baseline都不知道的人来说真的是好难。。。
总的来说是先 看看优秀论文 然后看看知网 开始代码 开始论文
虽然没有别人专业,但我时间比较充裕啊哈哈(上课划水),可以补上来嘛。就抱着这样缺啥补啥的想法走完了全程。
4.解题思路 第一问预测未来十天每十五分钟的值,这题我用了
小波去噪
归一化
时序交叉验证
LSTM
网格寻优
预测
由于时间间隔很短所以没有考虑天气,虽然这么做了但到后面发现一共需要预测960个数据(好多),lstm做这种中长期后面越来越平缓。总之很差就是了,但是也没时间改了。
第二问预测未来三个月每天最大值和最小值以及具体时间,这题要预测96*91个数据(更多了)。
所以这题我结合了天气并采用了机器学习方法,
分析一波相关性然后确认了最低温度与最高温度为重要特征
预测未来三个月温度,用了auto-arima和prophet对比,最后用了prophet
把各种时间加上刚刚预测的温度作为特征,经典xgboost lightgbm (没时间做stacking)
第三问分析各行业突变点,用了M-K检验,PETTIT检验点好少,于是直接取并集。
第四问预测未来各个行业三个月最大值最小值
这题prophet结合第三问突变点设置参数
5.总结基本每天都在熬夜吧,每天都在高压下自己进步真的非常大,第一次独立完成建模代码论文超级有成就感,也发现了自己很多缺点需要改进,好好总结,努力提升!
对于解题过程大家可以在评论区讨论,给我更多建议让我改进下哈哈哈
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)