Apache
Parquet是二进制文件格式,以列形式存储数据。Parquet文件中的数据类似于RDBMS样式表,其中具有列和行。但是,通常不是一次访问一行数据,而是一次访问一列数据。
Apache Parquet是现代大数据存储格式之一。它具有几个优点,其中一些是:
- 列式存储 :高效的数据检索,高效的压缩等。
- 元数据位于文件的末尾 :允许从数据流中生成Parquet文件。(在大数据场景中很常见)
- 受所有Apache大数据产品支持
不能。镶木地板文件可以存储在任何文件系统中,而不仅仅是HDFS。如上所述,它是一种文件格式。因此,就像任何其他文件一样,它具有名称和
.parquet 扩展名。但是,在大数据环境中通常会发生的情况是将一个数据集拆分(或划分为多个)镶木文件以提高效率。
默认情况下,所有Apache大数据产品都支持Parquet文件。这就是为什么它看起来只能在Apache生态系统中存在的原因。
如何创建/读取Parquet文件?如前所述,默认情况下,当前所有的Apache大数据产品(例如Hadoop,Hive,Spark等)都支持Parquet文件。
因此,可以利用这些系统来生成或读取Parquet数据。但这远非实用。想象一下,为了读取或创建CSV文件,您必须安装Hadoop / HDFS +
Hive并对其进行配置。幸运的是,还有其他解决方案。
要创建自己的镶木地板文件:
- 在Java中,请参阅以下文章:使用Java生成Parquet文件
- 在.NET中,请参见以下库:parquet-dotnet
要查看镶木地板文件内容:
- 请尝试以下Windows实用程序:https : //github.com/mukunku/ParquetViewer
还有其他方法吗?
可能吧 但是存在的并不多,而且大多没有很好的记录。这是由于Parquet是非常复杂的文件格式(我什至找不到正式定义)。在撰写此回复时,我只知道列出的那些
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)