Pdfgrep
用pdfgrep深度搜尋幾個pdf文件,忽略計數小於
我正在使用“pdfgrep”在幾個 pdf 文件中進行“深度搜尋”,試圖找到一個單詞併計算這樣的文件:
# pdfgrep -ric PATTERN ./Example1.pdf:0 ./Example2.pdf:10
知道如何忽略具有定義計數的文件的列印輸出嗎?像 0 或小於…?
假設文件路徑不包含換行符,您可以將該輸出通過管道傳輸到:
grep -v ':0$'
過濾掉以
:0
.或者
awk -F: '$NF >= 10'
僅列出具有至少 10 個匹配項的文件。
要處理包括換行符在內的任意文件路徑,請使用 NUL 分隔符:
pcregrep -ricZ pattern | gawk -v RS='\0' ' {RS="\n"; getline count; RS="\0"} count > 0 {print $0":"count}'