本文章来给大家提供三种在mysql中避免重复插入记录方法,主要是讲到了ignore,Replace,ON DUPLICATE KEY UPDATE三种方法,有需要的朋友可以参考一下\x0d\x0a方案一:使用ignore关键字\x0d\x0a\x0d\x0a如果是用主键primary或者唯一
索引unique区分了记录的唯一性,避免重复插入记录可以使用:\x0d\x0a\x0d\x0a
代码如下:\x0d\x0a INSERT IGNORE INTO `table_name` (`email`, `phone`, `user_id`) VALUES ('test9@163.com', '99999', '9999')\x0d\x0a \x0d\x0a这样当有重复记录就会忽略,执行后返回数字0\x0d\x0a\x0d\x0a还有个应用就是复制表,避免重复记录:\x0d\x0a\x0d\x0a代码如下:\x0d\x0a INSERT IGNORE INTO `table_1` (`name`) SELECT `name` FROM `table_2`\x0d\x0a \x0d\x0a方案二:使用Replace\x0d\x0a\x0d\x0a语法格式:\x0d\x0a\x0d\x0a代码如下:\x0d\x0aREPLACE INTO `table_name`(`col_name`, ...) VALUES (...)\x0d\x0aREPLACE INTO `table_name` (`col_name`, ...) SELECT ...\x0d\x0aREPLACE INTO `table_name` SET `col_name`='value', \x0d\x0a\x0d\x0a...算法说明:\x0d\x0aREPLACE的运行与INSERT很相像,但是如果旧记录与新记录有相同的值,则在新记录被插入之前,旧记录被删除,即:\x0d\x0a\x0d\x0a尝试把新行插入到表中 \x0d\x0a当因为对于主键或唯一关键字出现重复关键字错误而造成插入失败时: \x0d\x0a从表中删除含有重复关键字值的冲突行 \x0d\x0a再次尝试把新行插入到表中 \x0d\x0a旧记录与新记录有相同的值的判断标准就是:\x0d\x0a表有一个PRIMARY KEY或UNIQUE索引,否则,使用一个REPLACE
语句没有意义。该语句会与INSERT相同,因为没有索引被用于确定是否新行复制了其它的行。\x0d\x0a\x0d\x0a返回值:\x0d\x0aREPLACE语句会返回一个数,来指示受影响的行的数目。该数是被删除和被插入的行数的和\x0d\x0a受影响的行数可以容易地确定是否REPLACE只添加了一行,或者是否REPLACE也替换了其它行:检查该数是否为1(添加)或更大(替换)。\x0d\x0a\x0d\x0a示例:\x0d\x0a# eg:(phone字段为唯一索引)\x0d\x0a\x0d\x0a代码如下:\x0d\x0aREPLACE INTO `table_name` (`email`, `phone`, `user_id`) VALUES ('test569', '99999', '123')\x0d\x0a\x0d\x0a另外,在 SQL Server 中可以这样处理:\x0d\x0a\x0d\x0a代码如下:\x0d\x0aif not exists (select phone from t where phone= '1') insert into t(phone, update_time) values('1', getdate()) elseupdate t set update_time = getdate() where phone= '1'\x0d\x0a\x0d\x0a方案三:ON DUPLICATE KEY UPDATE\x0d\x0a\x0d\x0a如上所写,你也可以在INSERT INTO?..后面加上 ON DUPLICATE KEY UPDATE方法来实现。如果您指定了ON DUPLICATE KEY UPDATE,并且插入行后会导致在一个UNIQUE索引或PRIMARY KEY中出现重复值,则执行旧行UPDATE。\x0d\x0a\x0d\x0a例如,如果列a被定义为UNIQUE,并且包含值1,则以下两个语句具有相同的效果:\x0d\x0a\x0d\x0a代码如下:\x0d\x0aINSERT INTO `table` (`a`, `b`, `c`) VALUES (1, 2, 3) ON DUPLICATE KEY UPDATE `c`=`c`+1\x0d\x0aUPDATE `table` SET `c`=`c`+1 WHERE `a`=1\x0d\x0a\x0d\x0a如果行作为新记录被插入,则受影响行的值为1;如果原有的记录被更新,则受影响行的值为2。\x0d\x0a\x0d\x0a注释:如果列b也是唯一列,则INSERT与此UPDATE语句相当:\x0d\x0a\x0d\x0a代码如下:\x0d\x0aUPDATE `table` SET `c`=`c`+1 WHERE `a`=1 OR `b`=2 LIMIT 1\x0d\x0a\x0d\x0a如果a=1 OR b=2与多个行向匹配,则只有一个行被更新。通常,您应该尽量避免对带有多个唯一关键字的表使用ON DUPLICATE KEY子句。\x0d\x0a\x0d\x0a您可以在UPDATE子句中使用VALUES(col_name)函数从INSERT?UPDATE语句的INSERT部分引用列值。换句话说,如果没有发生重复关键字冲突,则UPDATE子句中的VALUES(col_name)可以引用被插入的col_name的值。本函数特别适用于多行插入。VALUES()函数只在INSERT?UPDATE语句中有意义,其它时候会返回NULL。\x0d\x0a\x0d\x0a代码如下:\x0d\x0aINSERT INTO `table` (`a`, `b`, `c`) VALUES (1, 2, 3), (4, 5, 6) ON DUPLICATE KEY UPDATE `c`=VALUES(`a`)+VALUES(`b`)\x0d\x0a\x0d\x0a本语句与以下两个语句作用相同:\x0d\x0a\x0d\x0a代码如下:\x0d\x0aINSERT INTO `table` (`a`, `b`, `c`) VALUES (1, 2, 3) ON DUPLICATE KEY UPDATE `c`=3\x0d\x0aINSERT INTO `table` (`a`, `b`, `c`) VALUES (4, 5, 6) ON DUPLICATE KEY UPDATE c=9\x0d\x0a\x0d\x0a注释:当您使用ON DUPLICATE KEY UPDATE时,DELAYED选项被忽略。\x0d\x0a\x0d\x0a示例:\x0d\x0a这个例子是我在实际项目中用到的:是将一个表的数据导入到另外一个表中,数据的重复性就得考虑(如下),唯一索引为:email:\x0d\x0a\x0d\x0a代码如下:\x0d\x0aINSERT INTO `table_name1` (`title`, `first_name`, `last_name`, `email`, `phone`, `user_id`, `role_id`, `status`, `campaign_id`) \x0d\x0aSELECT '', '', '', `table_name2`.`email`, `table_name2`.`phone`, NULL, NULL, 'pending', 29 FROM `table_name2` \x0d\x0aWHERE `table_name2`.`status` = 1 \x0d\x0aON DUPLICATE KEY UPDATE `table_name1`.`status`='pending'\x0d\x0a\x0d\x0a再贴一个例子:\x0d\x0a\x0d\x0a代码如下:\x0d\x0a INSERT INTO `class` SELECT * FROM `class1` ON DUPLICATE KEY UPDATE `class`.`course`=`class1`.`course`\x0d\x0a\x0d\x0a其它关键:DELAYED 做为快速插入,并不是很关心失效性,提高插入性能。 \x0d\x0aIGNORE 只关注主键对应记录是不存在,无则添加,有则忽略。\x0d\x0a\x0d\x0a特别说明:在MYSQL中UNIQUE索引将会对null字段失效,也就是说(a字段上建立唯一索引):\x0d\x0a\x0d\x0a代码如下:\x0d\x0a INSERT INTO `test` (`a`) VALUES (NULL)\x0d\x0a\x0d\x0a是可以重复插入的(联合唯一索引也一样)。先正面回答你的问题
数据是否重复不是建立索引的重要依据,甚至都不是依据。
只要不完全重复(所有元组的该元素都一样),那么建立索引就是有意义的。
即使当前数据完全重复,也不是不能建立索引,这种情况有点复杂,不细说了。
对于你后面的疑问,可以给你一个如何建立索引的忠告,“如何查就如何建”。
索引的建立,唯一的原因就是为了查询(广义的查询),实际上建立索引会使得数据存储所占空间变大,有时索引所占的空间会查过数据本身的空间。索引的建立也会使得数据插入时变慢,特殊情况下,慢的难以忍受,所以DBA的重要工作之一,就是检查索引层级并优化。
索引建立的唯一好处,就是按照索引查询时,变快了。type,status这2个字段是否适合建立索引,就要看你是否要按照这2个字段进行检索。而检索的顺序决定了如何建立索引。
对于索引类型和索引方式,我建议就
Normal
和
BTREE
就适用于大多数情况。若你参与的是一个大数据处理项目,对数据存储和检索有特别要求,那么需要分析多个层面,比如数据吞吐量、数据的方差、平均差等等很多参数才考虑是否用聚集索引等(mysql好像还没聚集索引),至于是否是唯一索引,我建议不使用,即使能判定数据是唯一的也不要用,全文索引也没有必要。
非唯一索引,就是这个索引里面的值,是允许重复的。
相对于唯一索引,就是这个索引里面的值,是不允许重复的。
简单的例子, 就好比我们的身份z。如果存储到数据库里面。
如果在姓名上面创建一个索引,那么是非唯一索引,因为同名的人是存在的。
如果在身份z号码上面创建一个索引,那么是唯一索引,因为号码还重复,就麻烦了。
评论列表(0条)