实例中的所有数据都是在GitHub上下载的,打包下载即可。
地址是: [ http://github.com/pydata/pydata-book ](http://github.com/pydata/pydata-
book)
我使用的是Python2.7,书中的代码有一些有错误,我使用自己的2.7版本调通。
# @R_301_5563@: utf-8 import pandas as pd unames = ['user_ID','gender','age','occupation','zip'] users = pd.read_table('D:\Source Code\pydata-book-master\ch02\movIElens\users.dat', sep='::', header=None, names=unames) rnmaes = ['user_ID','movIE_ID','rating','timestamp'] ratings = pd.read_table('D:\Source Code\pydata-book-master\ch02\movIElens\ratings.dat', sep='::', header=None, names=rnmaes) mnames = ['movIE_ID','Title','genres'] movIEs = pd.read_table('D:\Source Code\pydata-book-master\ch02\movIElens\movIEs.dat', sep='::', header=None, names=mnames) users[:5] ratings[:5] movIEs[:5] ratings data = pd.merge(pd.merge(ratings, users), movIEs) data.ix[0] mean_rating = data.pivot_table('rating', index='Title', columns='gender', aggfunc='mean') mean_rating[:5] ratings_by_Title = data.groupby('Title').size() ratings_by_Title[:10] active_Titles = ratings_by_Title.index[ratings_by_Title >= 250] active_Titles mean_rating = mean_rating.ix[active_Titles] mean_rating top_female_rating = mean_rating.sort_index(by='F', ascending=False) top_female_rating[:10] mean_rating['diff'] = mean_rating['M'] - mean_rating['F'] sorted_by_diff = mean_rating.sort_index(by='diff') sorted_by_diff[:15] sorted_by_diff[::-1][:15] ratings_std_by_Title = data.groupby('Title')['rating'].std() ratings_std_by_Title = ratings_by_Title.ix[active_Titles] ratings_std_by_Title.order(ascending=False)[:10] ratings_std_by_Title[/code]![在这里插入图片描述](https://www.icode9.com/i/ll/?i=20210608151750993.gif)
总结 以上是内存溢出为你收集整理的《利用Python进行数据分析》笔记---第2章--MovieLens 1M数据集全部内容,希望文章能够帮你解决《利用Python进行数据分析》笔记---第2章--MovieLens 1M数据集所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)