// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
"D:\\test\\test.txt"))
String json = null
int count = 0
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk()
while ((json = br.readLine()) != null) {
bulkRequest.add(client.prepareIndex("test", "all")
.setSource(json))
// 每一千条提交一次
if (count % 1000 == 0) {
bulkRequest.execute().actionGet()
System.out.println("提交了:" + count)
}
count++
}
bulkRequest.execute().actionGet()
System.out.println("插入完毕")
br.close()
登录后复制
运行后发现一个问题,我100多万条的数据,导入到es中怎么生成了1000多万条,而且还是在没有完全导入的情况下
然后用小批量数据导入到es,再把这些数据导出来,发现有好多重复的数据
为什么会重复呢,原因是在每一千条提交一次代码这块,第一次一千条提交了,并没有把bulkRequest置空,所以第二次提交的时候,会提交两千条,包括第一次已经提交的一千条,然后我们自己也没有设置_id,所以es会自动给数据生成一个_id,即使是重复的数据,搞清楚了原因,下面来说解决方法,主要有两种:
第一种就是在提交了一千条后,对bulkRequest进行重置,因为bulkRequest并没有重置的方法,所以可以新建一个bulkRequest,类似于重置,具体代码如下:
// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
"D:\\test\\test.txt"))
String json = null
int count = 0
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk()
while ((json = br.readLine()) != null) {
bulkRequest.add(client.prepareIndex("test", "all")
.setSource(json))
// 每一千条提交一次
if (count % 1000 == 0) {
bulkRequest.execute().actionGet()
//此处新建一个bulkRequest,类似于重置效果
bulkRequest = client.prepareBulk()
System.out.println("提交了:" + count)
}
count++
}
bulkRequest.execute().actionGet()
System.out.println("插入完毕")
br.close()
登录后复制
第二种就是自己设置_id,确保每一条数据只有一个_id,这样的话,即使数据重复了,因为_id是一样的,所以es会进行更新,这样的话并没有从根源上解决数据重复的问题,只是重复数据会更新,这样的话效率会慢,具体代码如下:
// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
"D:\\test\\test.txt"))
String json = null
int count = 0
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk()
while ((json = br.readLine()) != null) {
//设置_id为count
bulkRequest.add(client.prepareIndex("test", "all",
String.valueOf(count)).setSource(json))
// 每一千条提交一次
if (count % 1000 == 0) {
bulkRequest.execute().actionGet()
//此处新建一个bulkRequest,类似于重置效果
System.out.println("提交了:" + count)
}
count++
}
bulkRequest.execute().actionGet()
System.out.println("插入完毕")
br.close()
登录后复制
建议使用第一种方法,效率会快很多。
JDBC:java database connective
主要作用:
连接程序使用的数据库
使用步骤:
1. 引入外部jar包(mysql提供的Java使用者的连接器)
工程上右键-->build path -->config buildpath -->liberies
-->add external jars
-->选择对应的mysql-connectorXXXXXX.jar
看到工程上有jar文件则证明引入成功
2. 编程:
(1):注册数据库驱动
Class.forName("com.mysql.jdbc.Driver")
(2):创建连接
String url = "jdbc:mysql://192.168.0.243:3306/test"
String userName = "root"
String password = "root"
Connection conn = DriverManager.getConnection(url, userName, password)
(3):创建SQL信使
Statement stmt = conn.createStatement()
(4):执行SQL语句
int i = stmt.executeUpdate("insert into employee values ('10070004', '张三丰', 1, '2005-05-23', 0, 1001, '2007-02-02', 200)")
(5):异常捕获、关闭资源
分析现在导致数据被删除的情况应该是a表和b表的主键id重复,es默认mysql中的 id 为主键 并且document 的_id 和id保持一致, 导致a表中的数据被删除掉了(替换掉了)
三、解决方案
新建一个字段保存数据库的id 主键数据, 查询的时候使用uuid作为id的数据
注意
es2.0以后就不支持修改_id映射为其他字段了,es也不支持联合主键之类的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)