Pandas常用的Dataframe *** 作指令

Pandas常用的Dataframe *** 作指令,第1张

项目场景:

新手记录,每次来复制就好了,免得每次都要去搜。

重要语法:

1.csv读取:

data= pd.read_csv(pathname, header=0, encoding="gbk")

2.转成datafram格式

df = DataFrame(data)

3.删除列

###按照列名删除列
df= data.drop(['ts', 'value'], axis=1)
###按照索引删除列,删除第0列
df = df.drop(df.columns[[0]], axis=1)

4.插入列

###在第0列的位置插入列名为sttack,值为labels的一列
df.insert(0, 'attack', labels)
####插入索引列
df.insert(loc=0, column='idx', value=np.arange(len(df)))

5.dataframe拼接(合并与重塑)

###列对齐,忽略行索引
df = pd.concat([df1,df2], axis=1, join='inner', ignore_index=True)
#相同字段的表首尾相接,简单粗暴
df = pd.concat([df1,df2])

其他concat方法参考链接:https://blog.csdn.net/mr_hhh/article/details/79488445

6.特征相关性分析

###相关性分析
    pathname1 = './generated_/train.csv'
    train_car = pd.read_csv(pathname1, header=0, encoding="gbk")
    df_train_car = DataFrame(train_car)
    df_train_car = df_train_car.drop(df_train_car.columns[[0]], axis=1)
    correlations = df_train_car.corr()
    sns.heatmap(correlations)
    plt.show()
    print(correlations)

7.将dataframe保存为csv文件至指定路径

###不保存索引
 dataframe.to_csv('./generated_' + '/df.csv',index = False)

8.按照某一列去重

###重复值保存第一个
df.drop_duplicates(subset=['TimeStamp'],keep='first',inplace=True)

9.获取路径

filedir = os.path.join(dir, 'label', 'light_warning_code.xlsx').replace("\", "/")

10.将dataframe转换成torch.tensor

##dataframe转成 torch.tensor
tensor = torch.Tensor(np.array(dataframe))

11.将dataframe行打乱

from sklearn.utils import shuffle
df = shuffle(df)

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/915824.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-16
下一篇 2022-05-16

发表评论

登录后才能评论

评论列表(0条)

保存