SQL中distinct 和 row_number() over() 的區別及用法

1 前言

在咱們編寫 SQL 語句操作數據庫中的數據的時候，有可能會遇到一些不太爽的問題，例如對於同一字段擁有相同名稱的記錄，我們只需要顯示一條，但實際上數據庫中可能含有多條擁有相同名稱的記錄，從而在檢索的時候，顯示多條記錄，這就有違咱們的初衷啦！因此，爲了避免這種情況的發生，咱們就需要進行“去重”處理啦，那麼何爲“去重”呢？說白了，就是對同一字段讓擁有相同內容的記錄只顯示一條記錄。

那麼，如何實現“去重”的功能呢？對此，咱們有兩種方式可以實現該功能。

第一種，在編寫 select 語句的時候，添加 distinct 關鍵詞；

第二種，在編寫 select 語句的時候，調用 row_number() over() 函數。

以上兩種方式都可以實現“去重”功能，那兩者之間有何異同呢？接下來，作者將給出詳細的說明。

2 distinct

在 SQL 中，關鍵字 distinct 用於返回唯一不同的值。其語法格式爲：

SELECTDISTINCT
列名稱 FROM表名稱

假設有一個表“CESHIDEMO”，包含兩個字段，分別 NAME 和 AGE，具體格式如下：

觀察以上的表，咱們會發現：擁有相同 NAME 的記錄有兩條，擁有相同 AGE 的記錄有三條。如果咱們運行下面這條 SQL 語句

將會得到如下結果：

select

name from

PPPRDER.CESHIDEMO 其中 PPPRDER 爲Schema的名字，即表
CESHIDEMO 在 PPPRDER

觀察該結果，咱們會發現在以上的四條記錄中，包含兩條 NAME 值相同的記錄，即第 2 條記錄和第 3 條記錄的值都爲“gavin”。那麼，如果咱們想讓擁有相同 NAME 的記錄只顯示一條該如何實現呢？這時，就需要用到 distinct 關鍵字啦！接下來，運行如下 SQL 語句，

selectdistinct
namefrom 
PPPRDER.CESHIDEMO

將會得到如下結果：

觀察該結果，顯然咱們的要求得到實現啦！但是，咱們不禁會想到，如果將 distinct 關鍵字同時作用在兩個字段上將會產生什麼效果呢？既然想到了，咱們就試試唄，運行如下 SQL 語句，

selectdistinct
name, agefromPPPRDER.CESHIDEMO

得到的結果如下所示：

觀察該結果，哎呀，貌似沒有作用啊？她將全部的記錄都顯示出來了啊！其中 NAME 值相同的記錄有兩條，AGE 值相同的記錄有三條，完全沒有變化啊！但事實上，結果就應該是這樣的。因爲當 distinct 作用在多個字段的時候，她只會將所有字段值都相同的記錄“去重”掉，顯然咱們“可憐”的四條記錄並不滿足該條件，因此 distinct 會認爲上面四條記錄並不相同。空口無憑，接下來，咱們再向表“CESHIDEMO”中添加一條完全相同的記錄，驗證一下即可。添加一條記錄後的表如下所示：

再運行如下的 SQL 語句，

select
distinct name, agefromPPPRDER.CESHIDEMO

得到的結果如下所示：

觀察該結果，完美的驗證了咱們上面的結論。

此外，有一點需要大家特別注意，即：關鍵字 distinct 只能放在 SQL 語句中所有字段的最前面才能起作用，如果放錯位置，SQL 不會報錯，但也不會起到任何效果。

3 row_number() over()

在 SQL Server 數據庫中，爲咱們提供了一個函數 row_number() 用於給數據庫表中的記錄進行標號，在使用的時候，其後還跟着一個函數 over()，而函數 over() 的作用是將表中的記錄進行分組和排序。兩者使用的語法爲：

ROW_NUMBER() OVER(PARTITIONBYCOLUMN1
ORDER BY
COLUMN2)

意爲：將表中的記錄按字段 COLUMN1進行分組，按字段 COLUMN2 進行排序，其中

PARTITION BY：表示分組ORDER BY：表示排序

接下來，咱們還用表“CESHIDEMO”中的數據進行測試。首先，給出沒有使用 row_number() over() 函數時查詢的結果，如下所示：

然後，運行如下 SQL 語句，

select
PPPRDER.CESHIDEMO.*, row_number() over(partition 
byage order
by name 
desc)from 
PPPRDER.CESHIDEMO

得到的結果如下所示：

從上面的結果可以看出，其在原表的基礎上，多了一列標有數字排序的列。那麼反過來分析咱們運行的 SQL 語句，發現其確實按字段 AGE 的值進行分組了，也按字段 NAME 的值進行排序啦！因此，函數的功能得到了驗證。

接下來，咱們就研究如何用 row_number() over() 函數實現“去重”的功能。通過觀察上面的結果，咱們可以發現，如果以 NAME 分組，以 AGE 排序，然後再取每組的第一個記錄或許就可以實現“去重”的功能啊！那麼試試看，運行如下 SQL 語句，

/*
* 其中 rn 表示最後添加的那一列
select*from(selectPPPRDER.CESHIDEMO.*,
row_number() over(partitionbyname
order by 
age desc)rnfromPPPRDER.CESHIDEMO)
wherern = 1

運行後，得到的結果如下所示：

觀察以上的結果，我們發現，哎呀，數據“去重”的功能一不小心就被咱們實現了啊！不過很遺憾，如果咱們細心的話，會發現一個很不爽的事情，那就是在執行以上 SQL 語句進行“去重”的時候，有一條 NAME 值爲“gavin”、AGE 值爲“18”的記錄被過濾掉了，但是在現實生活會中，同名不同年齡的事情太正常了。

4 總結

通過閱讀及實踐以上內容，咱們已經知道了，無論是用關鍵字 distinct 還是用函數 row_number() over() 都可以實現數據“去重”的功能。但是在實現使用的過程中，咱們要特別注意兩者的用法特點以及區別。

在使用關鍵字 distinct 的時候，咱們要知道其作用於單個字段和多個字段的時候是有區別的，作用於單個字段時，其“去重”的是表中所有該字段值重複的數據；作用於多個字段的時候，其“去重”的表中所有字段（即 distinct 具體作用的多個字段）值都相同的數據。

在使用函數 row_number() over() 的時候，其是按先分組排序後，再取出每組的第一條記錄來進行“去重”的（在本篇博文中如此）。當然，在此處咱們還可以通過不同的限制條件來進行“去重”，具體如何實現，就需要大家自己去動腦思考啦！

站內首發文章

天空灬之城

發佈了79 篇原創文章 · 獲贊 193 · 訪問量 34萬+

私信關注

SQL中distinct 和 row_number() over() 的區別及用法

Android啓動過程-萬字長文(Android14)

optional install error: Error: Unsupported URL Type: npm:vue-loader@^16.1.0

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

【SQL進階】CASE語句的使用

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

chromedriver版本

kbgressdb之數據結構V0.2

SPI四種工作模式時序圖

JAVA中日期轉換SimpleDateFormat和DateTimeFormatter

SpringMVC之@requestBody的一些說明

VBA 字符串函數&轉換函數

Mysql 內連接、外連接、全連接和交叉連接

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結