用 Linux 的 sort 與 uniq 指令，刪除重複的資料列

作者：流浪貓 Stellar Miut 9月 24, 2022

之前流浪貓介紹過以 Excel, Calc 移除重複數值與文字的方法，但試算表程式不太適合用來處理動輒百萬筆的大數據 (Big data)。除了用更專業的資料庫軟體來處理之外，我們也可以用 Linux 內建的指令來幫我們比對重複數據，並自動將其刪除。

應用範例

假設 All-Url.txt 為原始資料庫，內含上百萬筆網址；All-Url-Live.txt 是經 wget 的 --spider 指令驗證後『還活著』的網址。而我們的目標是製作出『已經死亡』的網站列表。翠維尼

指令：

cat All-Url.txt All-Url-Live.txt > combin.txt

sort combin.txt | uniq -u > Dead-Url.txt

簡單來說，就是先用 cat 將 All-Url.txt 與 All-Url-Live.txt 合併，再以 sort 指令將 combin.txt 內容進行排序，最後用 uniq -u 排除相同資料，留下不重複的網址列。另外要注意的是，由於 uniq 是依據上下鄰近兩行資料進行比對，若沒有以 sort 進行排序的話，uniq -u 指令將無法生效。

延伸閱讀

移除 Excel, Calc 試算表欄位重複的數值與文字

更多 Linux 辦公室戰技

搜尋此網誌

流浪貓的喵窩

用 Linux 的 sort 與 uniq 指令，刪除重複的資料列

應用範例

延伸閱讀

留言

這個網誌中的熱門文章

Hololive 中之人的照片與成員長相對照表 (2/23 螺鈿更新)

寶鐘瑪琳中之人前世照片、年齡分析

櫻巫女與兔田佩克拉的貼貼、冷戰與 PM 不仲爭議始末