Linux

在 pdf 文件中搜尋關鍵字

  • September 10, 2015

我想使用 linux shell 在 pdf 文件中搜尋特定關鍵字。我將如何使用 grep 命令來做到這一點?

你不會的。PDF 是二進制格式,因此您需要先轉換為文本。Grep 可以搜尋數據,但沒有理由假設在 PDF 查看器中打開時具有字元串的 PDFfoo將實際包含foo在原始二進制數據中。它可能在原始碼中寫得非常不同。

一個簡單的解決方案是安裝pdftotext和使用它。它應該在您的發行版的儲存庫中可用。在基於 Debian 的系統上,您可以使用以下命令安裝它:

sudo apt-get install poppler-utils

然後,您可以使用以下命令搜尋您的 PDF 文件:

pdftotext foo.pdf - | grep keyword

引用自:https://unix.stackexchange.com/questions/228808