如何在Windows中查看Apache Parquet文件？_随笔

如何在Windows中查看Apache Parquet文件？什么是Apache Parquet？

Apache
Parquet是二进制文件格式，以列形式存储数据。Parquet文件中的数据类似于RDBMS样式表，其中具有列和行。但是，通常不是一次访问一行数据，而是一次访问一列数据。

Apache Parquet是现代大数据存储格式之一。它具有几个优点，其中一些是：

我需要Hadoop还是HDFS？

不能。镶木地板文件可以存储在任何文件系统中，而不仅仅是HDFS。如上所述，它是一种文件格式。因此，就像任何其他文件一样，它具有名称和
.parquet 扩展名。但是，在大数据环境中通常会发生的情况是将一个数据集拆分（或划分为多个）镶木文件以提高效率。

默认情况下，所有Apache大数据产品都支持Parquet文件。这就是为什么它看起来只能在Apache生态系统中存在的原因。

如何创建/读取Parquet文件？

如前所述，默认情况下，当前所有的Apache大数据产品（例如Hadoop，Hive，Spark等）都支持Parquet文件。

因此，可以利用这些系统来生成或读取Parquet数据。但这远非实用。想象一下，为了读取或创建CSV文件，您必须安装Hadoop / HDFS +
Hive并对其进行配置。幸运的是，还有其他解决方案。

要创建自己的镶木地板文件：

要查看镶木地板文件内容：

还有其他方法吗？

可能吧但是存在的并不多，而且大多没有很好的记录。这是由于Parquet是非常复杂的文件格式（我什至找不到正式定义）。在撰写此回复时，我只知道列出的那些

欢迎分享，转载请注明来源：内存溢出

如何在Windows中查看Apache Parquet文件？