Pdfgrep

用pdfgrep深度搜尋幾個pdf文件,忽略計數小於

  • May 27, 2022

我正在使用“pdfgrep”在幾個 pdf 文件中進行“深度搜尋”,試圖找到一個單詞併計算這樣的文件:

# pdfgrep -ric PATTERN

./Example1.pdf:0
./Example2.pdf:10

知道如何忽略具有定義計數的文件的列印輸出嗎?像 0 或小於…?

假設文件路徑不包含換行符,您可以將該輸出通過管道傳輸到:

grep -v ':0$'

過濾掉以:0.

或者

awk -F: '$NF >= 10'

僅列出具有至少 10 個匹配項的文件。

要處理包括換行符在內的任意文件路徑,請使用 NUL 分隔符:

pcregrep -ricZ pattern | gawk -v RS='\0' '
 {RS="\n"; getline count; RS="\0"}
 count > 0 {print $0":"count}'

引用自:https://unix.stackexchange.com/questions/704028