更新
UPDATE mytable
SET myfield = CASE id
WHEN 1 THEN 'value'
WHEN 2 THEN 'value'
WHEN 3 THEN 'value'
END
WHERE id IN (1,2,3)
查重
select t.* from vinstatic t inner JOIN (select vin, count(0) num from vinstatic group by vin) t1 on t.VIN=t1.vin where t1.num>1
看到你的追问。数据库是20W级别的。如果用O(n^2)的更新是肯定超时的。
计算次数是20W*20W*字符长度
我给你提个O(n)的思路,不过要用程序实现,SQL没机会。HQL或许有,但是不会。
首先是把A,B表中的都读到内存。
然后做哈希,开个10^10布尔类型的数组,1G内存多点,2G肯定够用。
然后做A表的哈希,
做好后遍历B表,做哈希。重复的做标记。
完成一轮后使用令一套保证跟第一次哈希不重复的哈希算法再遍历一次标记过的B表,
再遍历A表。
如此只需分别遍历两次AB表,即可完成查重。
然后把B表中重复的删掉即可。
计算机的执行效率大约是每秒10000*10000次。
如果把AB表中的string型主键转成int型存储,然后再做比对。
大约是20W*20W*2的比对次数,那么800秒,就是20到40分钟。
都应该可以比对完,但是如果是如题描述的12位字符。就需要几个小时甚至几天了。
再说一种O(Nlog2N)的算法。
首先是对A,B进行合并,然后做快排序。
然后遍历一次进行顺序查重。
这种方法用的内存比较少,计算量是40W*100,基本上10秒内都能出结果。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)