想做数据分析，可以跳过sql server 和mysql只学spark sql吗_随笔

SQL Server，MySQL，SparkSQL。其实你只需要关注SQL三个字母就可以了，不要在意前缀后缀。SQL其实算一个标准，而上面三者其实算是几个实现。你当然可以跳过，但是不管学哪个，你都得先了解下SQL本身。

SparkSQL跟前两者差别实在太大了，谈不上取代。但是我觉得对于数据分析来说，以后Spark平台很有前途，所以这其实是一个不错的选择。但是，SparkSQL其实只是带来了一些方便，你千万别认为用了SparkSQL就能作数据分析了，因为现在说这话实在太早了。

你觉得现在SparkSQL的可用性已经到达这个程度了吗看

Spark生态圈还远没有完善到这个程度。比如SparkSQL还仅仅是alpha状态，MLlib算法也非常少，MLBase可能要等相当长的一段时间才会出来。

如果是工程师，现在Spark的基础API已经趋于完善，很多东西可能自己写就行了。但如果是数据分析师，可能你就不太可能独立做这件事了，可能需要工程师团队协助才行。

在已有的 MySQL 服务器之上使用 Apache Spark （无需将数据导出到 Spark 或者 Hadoop 平台上），这样至少可以提升 10 倍的查询性能。使用多个 MySQL 服务器（复制或者 Percona XtraDB Cluster）可以让我们在某些查询上得到额外的性能提升。你也可以使用 Spark 的缓存功能来缓存整个 MySQL 查询结果表。

思路很简单：Spark 可以通过 JDBC 读取 MySQL 上的数据，也可以执行 SQL 查询，因此我们可以直接连接到 MySQL 并执行查询。那么为什么速度会快呢？对一些需要运行很长时间的查询（如报表或者BI），由于 Spark 是一个大规模并行系统，因此查询会非常的快。MySQL 只能为每一个查询分配一个 CPU 核来处理，而 Spark 可以使用所有集群节点的所有核。在下面的例子中，我们会在 Spark 中执行 MySQL 查询，这个查询速度比直接在 MySQL 上执行速度要快 5 到 10 倍。

另外，Spark 可以增加“集群”级别的并行机制，在使用 MySQL 复制或者 Percona XtraDB Cluster 的情况下，Spark 可以把查询变成一组更小的查询（有点像使用了分区表时可以在每个分区都执行一个查询），然后在多个 Percona XtraDB Cluster 节点的多个从服务器上并行的执行这些小查询。最后它会使用map/reduce 方式将每个节点返回的结果聚合在一起形成完整的结果。

Spark是一种通用的大数据计算框架，和传统的大数据技术MapReduce有本质区别。前者是基于内存并行计算的框架，而mapreduce侧重磁盘计算。Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用于构建大型的、低延迟的数据分析应用程序。Spark同样支持离线计算和实时计算两种模式。Spark离线计算速度要比Mapreduce快10-100倍。而实时计算方面，则依赖于SparkStreaming的批处理能力，吞吐量大。不过相比Storm，SparkStreaming并不能做到真正的实时。Spark使用强大的函数式语言Scala开发，方便简单。同时，它还提供了对Python、Java和R语言的支持。作为大数据计算框架MapReduce的继任者，Spark具备以下优势特性。1，高效性不同于MapReduce将中间计算结果放入磁盘中，Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的依赖，降低了延迟等待时间。内存计算下，Spark 比 MapReduce 快100倍。2，易用性不同于MapReduce仅支持Map和Reduce两种编程算子，Spark提供了超过80种不同的Transformation和Action算子，如map,reduce,filter,groupByKey,sortByKey,foreach等，并且采用函数式编程风格，实现相同的功能需要的代码量极大缩小。3，通用性Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。4，兼容性Spark能够跟很多开源工程兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且Spark可以读取多种数据源，如HDFS、HBase、MySQL等。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7374426.html

想做数据分析，可以跳过sql server 和mysql只学spark sql吗

发表评论

评论列表（0条）