spark各自运行时调用本地

spark各自运行时调用本地,第1张

题主是否想询问“spark各自运行时如何调用本地?”可以通过访问本地文件系统、访问本地数据库来解决。

1、访问本地文件系统:可以使用Java标准库中的FileAPI访问本地文件系统,需要注意的是,各个运行节点的文件系统可能不同,因此需要在任务代码中动态地识别每个节点的文件系统路径。

2、访问本地数据库:可以使用Java标准库中的JDBCAPI访问本地数据库,需要在任务代码中配置本地数据库的连接信息,并使用JDBCAPI执行SQL语句。

科普Spark,Spark是什么,如何使用Spark

1Spark基于什么算法的分布式计算(很简单)

2Spark与MapReduce不同在什么地方

3Spark为什么比Hadoop灵活

4Spark局限是什么

5什么情况下适合使用Spark

什么是Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示:

Spark与Hadoop的对比

Spark的中间数据放到内存中,对于迭代运算效率更高。

Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的数据集 *** 作类型有很多种,不像Hadoop只提供了Map和Reduce两种 *** 作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种 *** 作类型,Spark把这些 *** 作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions *** 作。

这些多种多样的数据集 *** 作类型,给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。

不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

容错性

在分布式数据集计算时通过checkpoint来实现容错,而checkpoint有两种方式,一个是checkpoint data,一个是logging the updates。用户可以控制采用哪种方式来实现容错。

可用性

Spark通过提供丰富的Scala, Java,Python API及交互式Shell来提高可用性。

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写,同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架,适用于需要多次 *** 作特定数据集的应用场合。需要反复 *** 作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素)

由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。

运行模式

本地模式

Standalone模式

Mesoes模式

yarn模式

Spark生态系统

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口,为了最大程度的保持和Hive的兼容性,Shark使用了Hive的API来实现query Parsing和 Logic Plan generation,最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。同时,Shark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起,最大化RDD的重复使用。

Spark streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+)可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Bagel: Pregel on Spark,可以用Spark进行图计算,这是个非常有用的小项目。Bagel自带了一个例子,实现了Google的PageRank算法。

End

android的系统数据库在调用的时候都封装了 我们只需要写where的condition,表结构和标明对我们都是不透明的 这就对深入了解带来了很多麻烦,即使有源码查看起来也很费劲。

android使用的是sqlite数据库,一般都是每个模块都有一个db文件,我们可以将系统里的db文件拷出来在使用android tool中的sqlite3命令来 *** 作和测试数据库。

首先启动模拟器或将手机连接电脑

使用find命令将系统中所有的db文件找出来

adb shell find / -name 'db' -type f

/mnt/sdcard/openfeint/webui/manifestdb

/mnt/sdcard/dbms/DBMSdb

/data/system/accountsdb

/data/data/comandroidvending/databases/assets14db

/data/data/comandroidvending/databases/suggestionsdb

/data/data/comandroidvending/databases/webviewCachedb

/data/data/comandroidvending/databases/webviewdb

/data/data/comandroidvending/databases/billing4db

/data/data/comandroidprovidersuserdictionary/databases/user_dictdb

/data/data/comandroidproviderstelephony/databases/mmssmsdb

/data/data/comandroidproviderstelephony/databases/telephonydb

/data/data/comandroidproviderssettings/databases/settingsdb

/data/data/comandroidprovidersmedia/databases/internaldb

/data/data/comandroidprovidersmedia/databases/external-bd717cb2db

/data/data/comandroidprovidersmedia/databases/external-5c2507fedb

/data/data/comandroidlauncher/databases/launcherdb

/data/data/comexampleandroidapis/databases/webviewCachedb

/data/data/comexampleandroidapis/databases/webviewdb

/data/data/comeclipsimgpsstatus2/databases/google_analyticsdb

/data/data/comeclipsimgpsstatus2/databases/webviewCachedb

/data/data/comeclipsimgpsstatus2/databases/webviewdb

/data/data/comandroidinputmethodlatin/databases/userbigram_dictdb

/data/data/comandroidinputmethodlatin/databases/auto_dictdb

/data/data/comgoogleandroidgsf/databases/talkdb

/data/data/comgoogleandroidgsf/databases/webviewCachedb

/data/data/comgoogleandroidgsf/databases/webviewdb

/data/data/comgoogleandroidgsf/databases/googlesettingsdb

/data/data/comgoogleandroidgsf/databases/subscribedfeedsdb

/data/data/comgoogleandroidgsf/databases/gservicesdb

/data/data/comgoogleandroidgsf/databases/glsdb

/data/data/comgoogleandroidgooglequicksearchbox/databases/qsb-logdb

/data/data/comgoogleandroidgm/databases/downloadsdb

/data/data/comgoogleandroidgm/databases/mailstoreqinjiangli85@gmailcomdb

/data/data/comgoogleandroidgm/databases/gmaildb

/data/data/comgoogleandroidappsgeniegeniewidget/databases/weatherdb

/data/data/comcoolirismedia/databases/launcherdb

/data/data/comcoolirismedia/databases/picasadb

/data/data/comandroidemail/databases/EmailProviderBodydb

/data/data/comandroidemail/databases/EmailProviderdb

/data/data/comandroidprovidersdrm/databases/drmdb

/data/data/comgetsetgamesmegajump/databases/google_analyticsdb

/data/data/comgetsetgamesmegajump/databases/webviewCachedb

/data/data/comgetsetgamesmegajump/databases/webviewdb

/data/data/comandroidprovidersdownloads/databases/downloadsdb

/data/data/comrichwebviewtest/databases/webviewCachedb

/data/data/comrichwebviewtest/databases/webviewdb

/data/data/comandroiddeskclock/databases/alarmsdb

/data/data/comandroidproviderscontacts/databases/contacts2db

/data/data/comandroidproviderscalendar/databases/calendardb

/data/data/comandroidbrowser/app_icons/WebpageIconsdb

/data/data/comandroidbrowser/app_geolocation/CachedGeopositiondb

/data/data/comandroidbrowser/app_databases/Databasesdb

/data/data/comandroidbrowser/app_appcache/ApplicationCachedb

/data/data/comandroidbrowser/databases/browserdb

/data/data/comandroidbrowser/databases/webviewCachedb

/data/data/comandroidbrowser/databases/webviewdb

/data/data/comandroidbluetooth/databases/btoppdb

有了个db文件列表我们就可以把这些db 复制到电脑上进行 *** 作了

以通讯录数据库为例执行以下 *** 作:

adb pull /data/data/comandroidproviderscontacts/databases/contacts2db F:/androidres/systemdb

--1669 KB/s (271360 bytes in 0158s)

F:/androidres/systemdb为任意本地目录 不明白pull命令的查看adb help

用sqlite3打开这个文件

F:/androidres/systemdb>sqlite3 contacts2db

SQLite version 3622

Enter "help" for instructions

Enter SQL statements terminated with a ";"

sqlite> tables

_sync_state settings

_sync_state_metadata status_updates

accounts v1_settings

activities view_contacts

agg_exceptions view_contacts_restricted

android_metadata view_data

calls view_data_restricted

contact_entities_view view_groups

contact_entities_view_restricted view_raw_contacts

contacts view_raw_contacts_restricted

data view_v1_contact_methods

groups view_v1_extensions

mimetypes view_v1_group_membership

name_lookup view_v1_groups

nickname_lookup view_v1_organizations

packages view_v1_people

phone_lookup view_v1_phones

properties view_v1_photos

raw_contacts

以上就是关于spark各自运行时调用本地全部的内容,包括:spark各自运行时调用本地、科普Spark,Spark是什么,如何使用Spark、安卓连接数据库问题,求解等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10192630.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存