如何在Windows中查看Apache Parquet文件?

如何在Windows中查看Apache Parquet文件?,第1张

如何在Windows中查看Apache Parquet文件? 什么是Apache Parquet?

Apache
Parquet是二进制文件格式,以列形式存储数据。Parquet文件中的数据类似于RDBMS样式表,其中具有列和行。但是,通常不是一次访问一行数据,而是一次访问一列数据。

Apache Parquet是现代大数据存储格式之一。它具有几个优点,其中一些是:

  • 列式存储 :高效的数据检索,高效的压缩等。
  • 元数据位于文件的末尾 :允许从数据流中生成Parquet文件。(在大数据场景中很常见)
  • 受所有Apache大数据产品支持
我需要Hadoop还是HDFS?

不能。镶木地板文件可以存储在任何文件系统中,而不仅仅是HDFS。如上所述,它是一种文件格式。因此,就像任何其他文件一样,它具有名称和
.parquet 扩展名。但是,在大数据环境中通常会发生的情况是将一个数据集拆分(或划分为多个)镶木文件以提高效率。

默认情况下,所有Apache大数据产品都支持Parquet文件。这就是为什么它看起来只能在Apache生态系统中存在的原因。

如何创建/读取Parquet文件?

如前所述,默认情况下,当前所有的Apache大数据产品(例如Hadoop,Hive,Spark等)都支持Parquet文件。

因此,可以利用这些系统来生成或读取Parquet数据。但这远非实用。想象一下,为了读取或创建CSV文件,您必须安装Hadoop / HDFS +
Hive并对其进行配置。幸运的是,还有其他解决方案。

要创建自己的镶木地板文件:

  • 在Java中,请参阅以下文章:使用Java生成Parquet文件
  • 在.NET中,请参见以下库:parquet-dotnet

要查看镶木地板文件内容:

  • 请尝试以下Windows实用程序:https : //github.com/mukunku/ParquetViewer

还有其他方法吗?

可能吧 但是存在的并不多,而且大多没有很好的记录。这是由于Parquet是非常复杂的文件格式(我什至找不到正式定义)。在撰写此回复时,我只知道列出的那些



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5623238.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存