測量每個目錄的特定文件類型的磁碟使用情況（遞歸地，作為 ‘du –include’ 的展示）

July 5, 2020

這是我的工作程式碼，但我相信它沒有優化 - 必須有一種方法可以比這更快地完成工作：
find . -type f -iname '*.py' -printf '%h\0' |
 sort -z -u |
 xargs -r -0 -I{} sh -c '
   find "{}" -maxdepth 1 -type f -iname "*.py" -print0 |
     xargs -r -0 du -sch |
     tail -1 |
     cut -f1 |
     tr "\n" " "
   echo -e "{}"' |
 sort -k1 -hr |
 head -50
目標是遞歸搜尋包含的所有目錄，*.py然後按每個目錄的名稱列印所有文件的總大小，*.py按大小倒序排序，只顯示前 50 個。
任何想法如何改進此程式碼（性能方面）但保持相同的輸出？
編輯：
我在以下範例上測試了您的提案：47GB total: 5805 files 不幸的是，我無法將其進行比較，因為並非所有提案都遵循相同的準則：總大小應該是磁碟使用量，分隔符應該只有一個空格。格式應如下所示：numfmt --to=iec-i --suffix=B
以下 4 個是排序輸出，但 David 顯示的是文件的累積大小，而不是實際的磁碟使用情況。然而，他的進步是顯著的：快了 9.5 倍以上。Stéphane 和 Isaac 的程式碼是非常成功的贏家，因為他們的程式碼比參考程式碼快大約 32 倍。
$ time madjoe.sh
real    0m2,752s
user    0m3,022s
sys     0m0,785s

$ time david.sh 
real    0m0,289s
user    0m0,206s
sys     0m0,131s

$ time isaac.sh 
real    0m0,087s
user    0m0,032s
sys     0m0,032s

$ time stephane.sh 
real    0m0,086s
user    0m0,013s
sys     0m0,047s
不幸的是，下面的程式碼沒有排序也沒有顯示最大的 50 個結果（此外，在之前與 Isaac 的程式碼比較期間，下面的程式碼比 Isaac 的改進慢了大約 6 倍）：
$ time hauke.sh 
real    0m0,567s
user    0m0,609s
sys     0m0,122s

要計算磁碟使用量而不是表觀大小的總和，您需要使用%b¹ 而不是%s並確保每個文件只計算一次，例如：
LC_ALL=C find . -iname '*.py' -type f -printf '%D:%i\0%b\0%h\0' |
 gawk -v 'RS=\0' -v OFS='\t' -v max=50 '
   {
     inum = $0
     getline du
     getline dir
   }
   ! seen[inum]++ {
     gsub(/\\/, "&&", dir)
     gsub(/\n/, "\\n", dir)
     sum[dir] += du
   }
   END {
     n = 0
     PROCINFO["sorted_in"] = "@val_num_desc"
     for (dir in sum) {
       print sum[dir] * 512, dir
       if (++n &gt;= max) break
     }
   }' | numfmt --to=iec-i --suffix=B --delimiter=$'\t'
目錄名稱中的換行符呈現為\n，反斜杠（至少在目前語言環境中解碼為\\.
如果在多個目錄中找到文件，則將其與在其中找到的第一個目錄進行計數（順序不確定）。
它假定環境中沒有POSIXLY_CORRECT變數（如果有，則設置PROCINFO["sorted_in"]無效，gawk因此不會對列表進行排序）。如果你不能保證³，你總是可以從gawk（env -u POSIXLY_CORRECT gawk ...假設 GNUenv或兼容的；或(unset -v POSIXLT_CORRECT; gawk ...)）開始。
您的方法還有一些其他問題：
如果沒有LC_ALL=C，GNUfind不會報告其名稱在區域設置中不構成有效字元的文件，因此您可能會錯過一些文件。
嵌入{}程式碼中sh構成任意程式碼注入漏洞。例如一個名為$(reboot).py. 你永遠不應該這樣做，文件的路徑應該作為額外的參數傳遞，並使用位置參數在程式碼中引用。
echo不能用於顯示任意數據（尤其是在-e這裡沒有意義的數據）。改為使用printf。
xargs -r0 du -sch如果文件列表很大，du可以多次呼叫with ，在這種情況下，最後一行將僅包括最後一次執行的總數。
¹%b以 512 字節為單位報告磁碟使用情況。512 字節是磁碟分配的最小粒度，因為這是傳統扇區的大小。還有%kwhich is int(%b / 2)，但這會在具有 512 字節塊的文件系統上給出不正確的結果（文件系統塊通常是 2 的冪，並且至少 512 字節大）
² 使用LC_ALL=Cfor gawk 也會提高效率，但可能會使用 BIG5 或 GB18030 字元集（並且文件名也在該字元集中編碼）在語言環境中破壞輸出，因為反斜杠的編碼也可以在編碼中找到那裡的一些其他角色。
³ 請注意，如果您的shis bash,在腳本POSIXLY_CORRECT中設置為，並且如果以or開頭，則會將其導出到環境中，因此該變數也可能無意中潛入。y``sh``sh``-a``-o allexport

通過在一個數組中收集所有目錄總和並在最後列印它們（使用 GNU awk）來簡化來自@HaukeLaging 的解決方案。此外，只numfmt需要一次呼叫（最後）。
#!/bin/sh

find . -type f -iname '*.py' -printf '%s %h\0' |
   awk 'BEGIN { RS="\0"; };

        { gsub(/\\/,"&&"); gsub(/\n/,"\\n");
          size=$1; sub("[^ ]* ",""); dirsize[$0]+=size }

        END {   PROCINFO["sorted_in"] = "@val_num_desc";
                i=0;
                for ( dir in dirsize ) { if(++i&lt;=50) 
                    { print dirsize[dir], dir; }else{ exit } 
                }
            }        ' | numfmt --to=iec-i --suffix=B
這會生成 py 文件的累積表觀大小（而不是它們的磁碟使用情況），並避免對目錄的子目錄中的文件求和。

引用自：https://unix.stackexchange.com/questions/595577

測量每個目錄的特定文件類型的磁碟使用情況（遞歸地，作為 ‘du –include’ 的展示）

編輯：

相關問答

獲取 find 輸出檢索到的文件的確切大小

如何搜尋包含數千個文件的大目錄？

查找排除文件中列出的路徑的命令

哪些類型的正則表達式支持（例如）消極的後視？

確定排序列表中有多少文件將填滿磁碟

使用單個 bash 命令批量重命名文件夾