Find

查找沒有文本的 PDF

  • January 15, 2021

我有很多文件夾,裡面有很多 PDF,我想用光學字元辨識那些沒有文本層的文件夾。所以首先,我想找到他們。我認為也許一個管道pdfgrep可以完成這項工作,但我迷路了。

如何找到沒有文本的 PDF?

是的,使用pdfgrep聽起來是個好主意。就像是:

find . -name '*.[Pp][Dd][Ff]' -type f \
 ! -exec pdfgrep -q '\w' {} ';' -print

pdfgrep將報告找不到任何單詞字元(alnums 或下劃線)的 pdf 文件列表。

(對於某些find實現,您可以使用-iname '*.pdf'而不是-name '*.[Pp][Dd][Ff]'上面。請注意它假定文件名是目前語言環境中的有效文本)

要查找少於 1000 個單詞字元的文件:

find . -name '*.[Pp][Dd][Ff]' -type f -exec sh -c '
 for file do
   [ "$(pdfgrep -c "\w" "$file")" -lt 1000 ] &&
     printf "%s\n" "$file"
 done' sh {} +

引用自:https://unix.stackexchange.com/questions/629253