如何将spark dataframe 存入mysql_随笔

创建DataFrame在Spark SQL中，开发者可以非常便捷地将各种内、外部的单机、分布式数据转换为DataFrame。以下Python示例代码充分体现了Spark SQL 1.3.0中DataFrame数据源的丰富多样和简单易用：# 从Hive中的users表构造DataFrameusers = sqlConte

可以使用pip安装也可以手动下载安装。

使用pip安装，在命令行执行如下命令：

pip install PyMySQL

手动安装，请先下载。

其中的X.X是版本（目前可以获取的最新版本是0.6.6）。

下载后解压压缩包。在命令行中进入解压后的目录，执行如下的指令：

python setup.py install

建议使用pip安装。

首先是引入pandas和numpy，这是经常配合使用的两个包，pandas依赖于numpy，引入以后我们可以直接使用np/pd来表示这个两个模块

先创建一个时间索引，所谓的索引（index)就是每一行数据的id，可以标识每一行的唯一值

为了快速入门，我们看一下如何创建一个6X4的数据：randn函数用于创建随机数，参数表示行数和列数，dates是上一步创建的索引列

我们还可以使用字典来创建数据框，例如创建一个列名为A的数据框，索引是自动创建的整数

这又是一个字典创建DataFrame的例子

假如字典内的数据长度不同，以最长的数据为准，比如B列有4行：

可以使用dtypes来查看各行的数据格式

接着看一下如何查看数据框中的数据，看一下所有的数据

使用head查看前几行数据（默认是前5行），不过你可以指定前几行

查看前三行数据

使用tail查看后5行数据

查看数据框的索引

查看列名用columns

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/8575179.html

如何将spark dataframe 存入mysql

发表评论

评论列表（0条）