Find
查找沒有文本的 PDF
我有很多文件夾,裡面有很多 PDF,我想用光學字元辨識那些沒有文本層的文件夾。所以首先,我想找到他們。我認為也許一個管道
pdfgrep
可以完成這項工作,但我迷路了。如何找到沒有文本的 PDF?
是的,使用
pdfgrep
聽起來是個好主意。就像是:find . -name '*.[Pp][Dd][Ff]' -type f \ ! -exec pdfgrep -q '\w' {} ';' -print
pdfgrep
將報告找不到任何單詞字元(alnums 或下劃線)的 pdf 文件列表。(對於某些
find
實現,您可以使用-iname '*.pdf'
而不是-name '*.[Pp][Dd][Ff]'
上面。請注意它假定文件名是目前語言環境中的有效文本)要查找少於 1000 個單詞字元的文件:
find . -name '*.[Pp][Dd][Ff]' -type f -exec sh -c ' for file do [ "$(pdfgrep -c "\w" "$file")" -lt 1000 ] && printf "%s\n" "$file" done' sh {} +