Linux
在 pdf 文件中搜尋關鍵字
我想使用 linux shell 在 pdf 文件中搜尋特定關鍵字。我將如何使用 grep 命令來做到這一點?
你不會的。PDF 是二進制格式,因此您需要先轉換為文本。Grep 可以搜尋數據,但沒有理由假設在 PDF 查看器中打開時具有字元串的 PDF
foo
將實際包含foo
在原始二進制數據中。它可能在原始碼中寫得非常不同。一個簡單的解決方案是安裝
pdftotext
和使用它。它應該在您的發行版的儲存庫中可用。在基於 Debian 的系統上,您可以使用以下命令安裝它:sudo apt-get install poppler-utils
然後,您可以使用以下命令搜尋您的 PDF 文件:
pdftotext foo.pdf - | grep keyword