Pandas常用的Dataframe *** 作指令_python

项目场景：

新手记录，每次来复制就好了，免得每次都要去搜。

重要语法:

1.csv读取：

data= pd.read_csv(pathname, header=0, encoding="gbk")

2.转成datafram格式

df = DataFrame(data)

3.删除列

###按照列名删除列
df= data.drop(['ts', 'value'], axis=1)

###按照索引删除列,删除第0列
df = df.drop(df.columns[[0]], axis=1)

4.插入列

###在第0列的位置插入列名为sttack，值为labels的一列
df.insert(0, 'attack', labels)

####插入索引列
df.insert(loc=0, column='idx', value=np.arange(len(df)))

5.dataframe拼接（合并与重塑）

###列对齐，忽略行索引
df = pd.concat([df1,df2], axis=1, join='inner', ignore_index=True)

#相同字段的表首尾相接,简单粗暴
df = pd.concat([df1,df2])

其他concat方法参考链接：https://blog.csdn.net/mr_hhh/article/details/79488445

6.特征相关性分析

###相关性分析
    pathname1 = './generated_/train.csv'
    train_car = pd.read_csv(pathname1, header=0, encoding="gbk")
    df_train_car = DataFrame(train_car)
    df_train_car = df_train_car.drop(df_train_car.columns[[0]], axis=1)
    correlations = df_train_car.corr()
    sns.heatmap(correlations)
    plt.show()
    print(correlations)

7.将dataframe保存为csv文件至指定路径

###不保存索引
 dataframe.to_csv('./generated_' + '/df.csv',index = False)

8.按照某一列去重

###重复值保存第一个
df.drop_duplicates(subset=['TimeStamp'],keep='first',inplace=True)

9.获取路径

filedir = os.path.join(dir, 'label', 'light_warning_code.xlsx').replace("\", "/")

10.将dataframe转换成torch.tensor

##dataframe转成 torch.tensor
tensor = torch.Tensor(np.array(dataframe))

11.将dataframe行打乱

from sklearn.utils import shuffle
df = shuffle(df)

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/langs/915824.html

Pandas常用的Dataframe *** 作指令

发表评论

评论列表（0条）