如何向 hadoop 导入数据_工具

如何向 hadoop 导入数据

12 使用Hadoop shell命令导入和导出数据到HDFS

实验准备

实例需要用到的数据-weblog_entriestxt

在namenode创建2个文件夹用来存放实验用的数据

mkdir /home/data 1

mkdir /home/data_download1

将weblog_entriestxt上传到namenode里的/home/data文件夹（我使用SecureFXPortableexe 工具）

注：以下命令都是在namenode节点运行的

实验过程

1在HDFS中创建一个新的文件夹，用于保存weblog_entriestxt

hadoop fs -mkdir /data/weblogs1

2将weblog_entriestxt文件从本地文件系统复制到HDFS刚创建的新文件夹下

cd /home/data1

hadoop fs -copyFromLocal weblog_entriestxt /data/weblogs1

3列出HDFS上weblog_entriestxt文件的信息：

hadoop fs –ls /data/weblogs/weblog_entriestxt 1

4将HDFS上的weblog_entriestxt文件复制到本地系统的当前文件夹下

cd /home/data_download1

hadoop fs -copyToLocal /data/weblogs/weblog_entriestxt /weblog_entriestxt 1

最后用 ls 命令检验下时候将weblog_entriestxt 下载到本地

如何向oracle 10g数据库导入数据

Oracle 11g数据导入到10g

一、在11g服务器上，使用expdp命令备份数据

11g 导出语句：EXPDP USERID='facial/facial@orcl as sysdba' schemas=facialdirectory=DATA_PUMP_DIR dumpfile=testdmp logfile=testlog version=102010

二、在10g服务器上，使用impdp命令恢复数据

准备工作：1建库2建表空间3建用户并授权4将testdmp拷贝到10g的dpdump目录下

--创建表空间

create tablespace TS_Facial datafile 'E:\ORACLE\PRODUCT\1020\ORADATA\ORCL\FacialDBF' size 500M autoextend on next 50M;

--创建用户

create user Facial identified by Facial default tablespace TS_Facial;

--授权给用户

grant connect,resource,dba to Facial;

testdmp 和 testlog 放在E:\oracle\product\1020\admin\orcl\dpdump目录下

10g 导入语句：IMPDP USERID='facial/facial@orcl as sysdba' schemas=facialdirectory=DATA_PUMP_DIR dumpfile=testdmp logfile=testlog version=102010

如何向mongodb分片集群导入数据

下载mongoDB（mongoDB下载地址），笔者使用的是mongoDB 204的Linux 64-bit版本。

解压：tar xzf mongotgz

默认情况下，mongoDB将数据存储在/data/db目录下，但它不会自动创建该目录，所以我们需要手动创建它：

$ sudo mkdir -p /data/db/

$ sudo chown `id -u` /data/db

也可以使用--dbpath参数来指定别的数据库目录。

如果只是想在单机上测试一下mongoDB的话，非常简单，首先启动MongoDB server，

$ /mongodb-xxxxxxx/bin/mongod

在另外一个终端，连接到我们启动的server：

$ /mongodb-xxxxxxx/bin/mongo

> dbfoosave( { a : 1 } )

> dbfoofind()

如何向clementine120中导入数据库数据

在resources找到database节点连上去就可以，之后按照你的用户名和密码填好就可以，但是在之前要配置数据库。

如何向sql server2008中导入数据库

打开SQL Server Management Studio，在对象资源管理器中，展开“SQL Server 实例”→“数据库”→“MySchool”节点，单击鼠标右键，选择“任务”→“导出数据”命令。出现导入和导出向导的欢迎界面，单击“下一步”按钮，出现“选择数据源”对话框，如图

在“选择数据源”对话框中设置如下选项：

数据源：SQL Native Client 100。

服务器名称：DC。

身份验证：Windows身份验证。

数据库：MySchool。

单击“下一步”按钮，出现“选择目标”对话框，设置如下选项（如图所示）：

目标：平面文件目标。

文件名：C:\studenttxt。

格式：带分隔符。

单击“下一步”按钮，出现“指定表复制或查询”对话框，如图所示。

在“指定表复制或查询”对话框中选中“复制一个或多个表或视图的数据”单选按钮，单击“下一步”按钮，出现“配置平面文件目标”对话框，如图所示。

设置源表或源视图为MySchooldbostudent，单击“下一步”按钮。

在“保存并执行包”对话框中选中“立即执行”复选框，如图所示，然后单击“下一步”按钮。

在如图所示的对话框中单击“完成”按钮。

如图所示，当执行完后，单击“关闭”按钮。

在Windows资源管理器中打开C:\studenttxt文件，验证导出的结果。

如何导入数据

工具/原料

sql2008

方法/步骤

登录sql2008数据库，其实其他版本的数据库也是一样的原理

使用windows账户登录，登录成功之后打开资源管理器窗口

在数据库上单击右键，选择新建数据库

在d出的新建数据库窗口中，输入数据库名字test然后点击确定

数据库test新建完成，在数据库上单击右键，选择任务导入数据

d出导入数据向导，选择下一步

数据源选择Excel,文件路径选择我们需要导入的文件

目标数据库选择我们刚才新建的test数据库，其他保存默认不变，一直单击下一步

勾选我们需要导入的Excel表，如图所示，然后单击下一步，完成

开始导入数据，如图所示，成功导入，点击关闭

这样我们就导入了Excel中的数据

如何从linux向dbeaver导入数据

1、右击新建连接 2、选择Oracle 3、将要填的数据都填好了，下拉框选sid，点测试，通过就ok了 4、狂点下一步，最后完成。注：无需安装oracle客户端。只有这个dbeaver就可以，只是需要个驱动包这个不用说。不会加驱动可以追问

如何从EXCEL向MATLAB导入数据

首先把excel文件放在work文件夹里，假设文件名为axls。

然后在matlab命令窗口输入a=xlsread('axls');

此时，a矩阵即为exel里对应的数据

使用Matlab中的Excel Link就可以了。

如果使用Excel 2003版本， *** 作如下：

1 打开Excel。

2 在菜单栏中选择工具→加载项→浏览。

3 在Matlab的安装目录下打开toolbox\exlink文件夹，选择EXCLLINKXLA，点击确认。

4 自动回到加载项对话框后，确保对话框中有“Excel

Link”，选中后点击确认按钮即可，菜单栏中自动添加了Matlab加载项。

5 使用其中的putmatrix，既可以将数据导入到Matlab中。

如果使用Excel 2007版本， *** 作如下：

1 打开Excel。

2 点击左上的office按钮→Excel选项→转到→加载项→浏览。

3 在Matlab的安装目录下打开toolbox\exlink文件夹，选择EXCLLINKXLA，点击确认。

4 自动回到加载项对话框后，确保对话框中有“ExcelLink”，选中后点击确认按钮即可，菜单栏中自动添加了Matlab加载项。

5 使用其中的putmatrix，既可以将数据导入到Matlab中。

关键就是你们程序功能实现，但是性能不行。-Xms256m -Xmx512m不是越大越好，因为本身程序使用内部逻辑不合理，资源使用不平均。还有一个问题，人数一旦多了，不止weblogic，数据库的访问也是成几何数据增加。还有一点，宕机不只是内存的问题，CPU和二级缓存也至关重要，你不止要增加你的内存，最重要是更新你的CPU。

所以优化程序逻辑内部逻辑很重要，更新目前主流服务器也很关键！

1SQLServer2000常用的数据导入导出方法1

1通过DTS的设计器进行导入或导出DTS的设计器功能强大，支持多任务，也是可视化界面，易于 *** 作，但熟悉的人一般不多，如果只是进行SQLServer数据库中部分表的移动，用这种方法最好，当然，也可以进行全部表的移动

在SQLServerEnterpriseManager中，展开服务器左边的＋，选择数据库，右击，选择Alltasks/ImportData

(或Alltasks/ExportData

)，进入向导模式，然后按照提示一步一步进行就可以了，里面分得非常详细，可以灵活的在不同数据源之间复制数据，非常的方便，而且还可以另存成DTS包，如果以后还有相同的复制任务，直接运行DTS包就行，省时省力

也可以直接打开DTS设计器，方法是展开服务器名称下面的DataServices，选LocalPackages，在右边的窗口中右击，选NewPackage，就打开了DTS设计器

值得注意的是：如果源数据库要拷贝的表有外键，注意移动的顺序，有时要分批移动，否则外键主键，索引可能丢失，移动的时候选项旁边的提示说的很明白，或者一次性的复制到目标数据库中，再重新建立外键，主键，索引

其实在建立数据库时，建立外键，主键，索引的文件应该和建表文件分开，而且用的数据文件也分开，并分别放在不同的驱动器上，有利于数据库的优化

2利用Bcp工具这种工具虽然在SQLServer2000的版本中不推荐使用，但许多数据库管理员仍很喜欢用它，尤其是用过SQLServer早期版本的人

不过Bcp确实有其局限性，首先它的界面不是图形化的；其次它只是在SQLServer的表（视图）与文本文件之间进行复制

但是另一方面，它也有其优点：性能好，开销小，占用内存少，速度快

3利用备份和恢复先对源数据库进行完全备份，备份到一个设备（device）上，然后把备份文件复制到目的服务器上（恢复的速度快），进行数据库的恢复 *** 作，在恢复的数据库名中填上源数据库的名字（名字必须相同），选择强制型恢复（可以覆盖以前数据库的选项），在选择从设备中进行恢复，浏览时选中备份的文件就行了

这种方法可以完全恢复数据库，包括外键，主键，索引

4直接拷贝数据文件把数据库的数据文件（

mdf）和日志文件（

ldf）都拷贝到目的服务器，在SQLServerQueryAnalyzer中用语句进行恢复：EXECsp_attach_db@dbname=’test’,@filename1=’d:mssql7data est_data

mdf’,@filename2=’d:mssql7data est_log

ldf’这样就把test数据库附加到SQLServer中，可以照常使用，如果不想用原来的日志文件，可以用如下的命令：EXECsp_detach_db@dbname=’test’EXECsp_attach_single_file_db@dbname=’test’,@physname=’d:mssql7data est_data

mdf’这个语句的作用是仅仅加载数据文件，日志文件可以由SQLServer数据库自动添加，但是原来的日志文件中记录的数据就丢失了

5在应用程序中定制可以在应用程序（PB、VB）中执行自己编写的程序，也可以在QueryAnalyzer中执行，这种方法比较灵活，其实是利用一个平台连接到数据库，在平台中用的主要是SQL语句，这种方法对数据库的影响小，但是如果用到远程链接服务器，要求网络之间的传输性能好，一般有两种语句：1

1select

intonew_tablenamewhere

2insert(into)old_tablenameselect

from

where

这两种方式的区别是前者把数据插入一个新表（先建立表，再插入数据），而后者是把数据插入已经存在的一个表中，一般来说，第二条语句强于前者

6SQLServer的复制功能SQLServer提供了强大的数据复制功能，也是最不易掌握的，具体应用请参考相关资料，值得注意的是要想成功进行数据的复制工作，有些条件是必不可少的：1

1SQLServerAgent必须启动，MSDTC必须启动

2所有要复制的表必须有主键

3如果表中有text或image数据类型，必须使用withlog选项，不能使用withno_log选项

另外maxtextreplsize选项控制可以复制的文本和图像数据的最大规模，超过这个限制的 *** 作将失败

4在要进行复制的计算机上，应该至少是隐含共享，即共享名是C$或D$

5为SQLServer代理使用的WindowsNT账号不能是一个本地的系统账号，因为本地的系统账号不允许网络存取

6如果参与复制的服务器在另外的计算机域中，必须在这些域之间建立信任关系

2实现基于网页的数据库数据导入那么，如何实现基于网页的数据库数据导入呢，下面利用一个比较简单的网络介绍一下

假设某局域网的网络拓扑结构如下所示：其中服务器A和工作站B位于局域网内，工作站C与服务器D位于Internet内，局域网与Internet是物理隔离的，工作站C与工作站D在同一个办公室内，服务器A上的数据库管理系统是Oracle，服务器D上的数据库管理系统是SQLServer2000

由于工作需要，要求把服务器A的有关数据导入到服务器D上

1通常的工作流程：2

1在工作站B上运行客户端软件，将服务器A上数据导入到本地的dbf文件

2用移动硬盘把dbf文件从工作站B拷贝到工作站C上

3在工作站C上，用ftp软件将dbf文件上传到服务器D上

4在工作站C上，运行远程桌面软件登录到服务器D上

5在服务器D上，执行DTS，将dbf文件中的数据导入到SQLServer数据库

6在服务器D上,运行相关存储过程,做数据的后期处理工作

在许多情况下，因为各种不同情况的需要，这个工作流程每天（甚至更短的时间内）就要执行一次，非常繁琐，而且使用手工 *** 作，很容易出错

下面提出一种改进的方案

2改进后的工作流程2

1在工作站B上运行客户端软件，将服务器A上数据导入到本地的dbf文件

2用移动硬盘把dbf文件从工作站B拷贝到工作站C上

3在工作站C上，打开服务器D上的相关网页，利用网页将dbf文件的数据导入到服务器D上的SQLServer数据库中

首先，要在网页里实现上传功能，把dbf文件从工作站C上传到服务D上，这里就不多介绍了

要通过网页把dbf文件导入到SQLServer中，需要借助DTS可编程对象

DTS包含一组可编程COM对象，主要包含：DTS

Package、DTS

Connection、DTS

Step、DTS

、DTS

在ASP网页里，通过用VBScript脚本创建调用DTS可编程COM对象,可以完成数据导入任务

SQLServer2000有比较详细的文档资料介绍DTS编程，但没有给一个具体的例子，如果仅参考文档资料，难度比较大，开发时间也会相当长

这里大概的介绍一下开发程序的过程

首先，在SQLSever2000的DTS设计器里，创建DTS包，实现从dbf文件到SQLServer2000的数据导入，把后期处理的存储过程也添加到DTS包里

将这个DTS包另存为VBScript文件

有了这个VBScript文件，开发程序就容易多了，加入所需要的其他代码，就可以在网页里实现数据库的数据导入

参考文献1张莉，等

SQLServer数据库原理及应用教程〔M〕

北京：清华大学出版社，2003

2梁方明

SQLServer2000数据库编程〔M〕

北京：北京希望电子出版社，2002

3LouisDavidson（美）

SQLServer2000数据库设计权威指南〔M〕

中国电力出版社，2002

[

很多组织机构慢慢的在不同的服务器和地点部署SQLServer数据库——为各种应用和目的——开始考虑通过SQLServer集群的方式来合并。

将SQLServer实例和数据库合并到一个中心的地点可以减低成本，尤其是维护和软硬件许可证。此外，在合并之后，可以减低所需机器的数量，这些机器就可以用于备用。

当寻找一个备用，比如高可用性的环境，企业常常决定部署Microsoft的集群架构。我常常被问到小的集群(由较少的节点组成)SQLServer实例和作为中心解决方案的大的集群哪一种更好。在我们比较了这两个集群架构之后，我让你们自己做决定。

什么是Microsoft集群服务器

MSCS是一个WindowsServer企业版中的内建功能。这个软件支持两个或者更多服务器节点连接起来形成一个“集群”，来获得更高的可用性和对数据和应用更简便的管理。MSCS可以自动的检查到服务器或者应用的失效，并从中恢复。你也可以使用它来(手动)移动服务器之间的负载来平衡利用率以及无需停机时间来调度计划中的维护任务。

这种集群设计使用软件“心跳”来检测应用或者服务器的失效。在服务器失效的事件中，它会自动将资源(比如磁盘和IP地址)的所有权从失效的服务器转移到活动的服务器。注意还有方法可以保持心跳连接的更高的可用性，比如站点全面失效的情况下。

MSCS不要求在客户计算机上安装任何特殊软件，因此用户在灾难恢复的经历依赖于客户-服务器应用中客户一方的本质。客户的重新连接常常是透明的，因为MSCS在相同的IP地址上重启应用、文件共享等等。进一步，为了灾难恢复，集群的节点可以处于分离的、遥远的地点。

在集群服务器上的SQLServer

SQLServer2000可以配置为最多4个节点的集群，而SQLServer2005可以配置为最多8个节点的集群。当一个SQLServer实例被配置为集群之后，它的磁盘资源、IP地址和服务就形成了集群组来实现灾难恢复。

SQLServer2000允许在一个集群上安装16个实例。根据在线帮助，“SQLServer2005在一个服务器或者处理器上可以支持最多50个SQLServer实例，”但是，“只能使用25个硬盘驱动器符，因此如果你需要更多的实例，那么需要预先规划。”

注意SQLServer实例的灾难恢复阶段是指SQLServer服务开始所需要的时间，这可能从几秒钟到几分钟。如果你需要更高的可用性，考虑使用其他的方法，比如logshipping和数据库镜像。

单个的大的SQLServer集群还是小的集群

下面是大的、由更多的节点组成的集群的优点：

◆更高的可用新(更多的节点来灾难恢复)。

◆更多的负载均衡选择(更多的节点)。

◆更低廉的维护成本。

◆增长的敏捷性。多达4个或者8个节点，依赖于SQL版本。

◆增强的管理性和简化环境(需要管理的少了)。

◆更少的停机时间(灾难恢复更多的选择)。

◆灾难恢复性能不受集群中的节点数目影响。

下面是单个大的集群的缺点：

◆集群节点数目有限(如果需要第9个节点怎么办)。

◆在集群中SQL实例数目有限。

◆没有对失效的防护——如果磁盘阵列失效了，就不会发生灾难恢复。

◆使用灾难恢复集群，无法在数据库级别或者数据库对象级别，比如表，创建灾难恢复集群。

虚拟化和集群

虚拟机也可以参与到集群中，虚拟和物理机器可以集群在一起，不会发生问题。SQLServer实例可以在虚拟机上，但是性能可能会受用影响，这依赖于实例所消耗的资源。在虚拟机上安装SQLServer实例之前，你需要进行压力测试来验证它是否可以承受必要的负载。

在这种灵活的架构中，如果虚拟机和物理机器集群在一起，你可以在虚拟机和物理机器之间对SQLServer进行负载均衡。比如，使用虚拟机上的SQLServer实例开发应用。然后在你需要对开发实例进行压力测试的时候，将它灾难恢复到集群中更强的物理机器上。

集群服务器可以用于SQLServer的高可用性、灾难恢复、可扩展性和负载均衡。单个更大的、由更多的节点组成的集群往往比小的、只有少数节点的集群更好。大个集群允许更灵活环境，为了负载均衡和维护，实例可以从一个节点移动到另外的节点。

以上就是关于如何向 hadoop 导入数据全部的内容，包括:如何向 hadoop 导入数据、访问Java项目人数过多而荡机，此项目是发布在weblogc上的，其中,JVM 参数 -Xms256m -Xmx512m、在网页引用数据库的详细方法(如何引用数据库数据)等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10139841.html

如何向 hadoop 导入数据

发表评论

评论列表（0条）