<menu id="ycqsw"></menu><nav id="ycqsw"><code id="ycqsw"></code></nav>
<dd id="ycqsw"><menu id="ycqsw"></menu></dd>
  • <nav id="ycqsw"></nav>
    <menu id="ycqsw"><strong id="ycqsw"></strong></menu>
    <xmp id="ycqsw"><nav id="ycqsw"></nav>
  • mysql去重查詢方法(redis五種數據類型使用場景)


    • 刪除全部重復數據,一條不留
    • 刪除表中刪除重復數據,僅保留一條
    • 開始刪除重復數據,僅留一條

    在公司加班到八點,此為背景。

    加班原因是上線,解決線上數據庫存在重復數據的問題,發現了程序的bug,很好解決,有點問題的是,修正線上的重復數據。

    線上庫有6個表存在重復數據,其中2個表比較大,一個96萬+、一個30萬+,因為之前處理過相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡單,就是連接數據庫,查出來重復數據,循環刪除。

    emmmm,但是這個效率嘛,實在是太低了,1秒一條,重復數據大約2萬+,預估時間大約在8個小時左右。。。

    盲目依靠前人的東西,而不去自己思考是有問題的!總去想之前怎么可以,現在怎么不行了,這也是有問題的!我發現,最近確實狀態不太對,失去了探索和求知的欲望,今天算是一個警醒,頗有迷途知返的感覺。

    言歸正傳,下面詳細介紹去重步驟。

    CREATE TABLE `animal` (
      `id` int(11) NOT NULL AUTO_INCREMENT,
      `name` varchar(20) DEFAULT NULL,
      `age` int(11) DEFAULT NULL,
      PRIMARY KEY (`id`)
    ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
    
    
    INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');
    INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');
    INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');
    INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');
    INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42');
    

    目標:我們要去掉name相同的數據。

    先看看哪些數據重復了

    SELECT name,count( 1 )
    FROM
     student
    GROUP BY
    NAME
    HAVING
     count( 1 ) > 1;
    

    輸出:

    name count(1) cat 2 dog 2

    name為cat和dog的數據重復了,每個重復的數據有兩條;

    Select * From 表 Where 重復字段 In (Select 重復字段 From 表 Group By 重復字段 Having Count(1)>1)
    

    刪除全部重復數據,一條不留

    直接刪除會報錯

    DELETE
    FROM
     student
    WHERE
     NAME IN (
     SELECT NAME
     FROM
      student
     GROUP BY
     NAME
    HAVING
     count( 1 ) > 1)
    

    報錯:

    1093 – You can’t specify target table ‘student’ for update in FROM clause, Time: 0.016000s

    原因是:更新這個表的同時又查詢了這個表,查詢這個表的同時又去更新了這個表,可以理解為死鎖。mysql不支持這種更新查詢同一張表的操作

    解決辦法:把要更新的幾列數據查詢出來作為一個第三方表,然后篩選更新。

    DELETE
    FROM
     student
    WHERE
     NAME IN (
     SELECT
      t.NAME
    FROM
     ( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) > 1 ) t)
    

    刪除表中刪除重復數據,僅保留一條

    在刪除之前,我們可以先查一下,我們要刪除的重復數據是啥樣的

    SELECT
     *
    FROM
     student
    WHERE
     id NOT IN (
     SELECT
      t.id
     FROM
     ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t
     )
    

    啥意思呢,就是先通過name分組,查出id最小的數據,這些數據就是我們要留下的火種,那么再查詢出id不在這里面的,就是我們要刪除的重復數據。

    開始刪除重復數據,僅留一條

    很簡單,剛才的select換成delete即可

    DELETE
    FROM
     student
    WHERE
     id NOT IN (
     SELECT
      t.id
     FROM
     ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t
     )
    

    90萬+的表執行起來超級快。

    All done ~

    – END –

    版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。

    發表評論

    登錄后才能評論
    国产精品区一区二区免费