Images
如何查找包含任何文本的所有圖像?
我有很多圖片,我需要找到,其中哪些包含任何英文文本(刪除它們)。可以自動完成嗎?
您可以使用開源 OCR 引擎,例如Tessaract,以確定是否存在英文文本。
我有同樣的問題,分享我的解決方案:
find . -type f \( -name "*.jpg" -or -name "*.png" \) -exec sh -c 'for x; do printf "%s :" "$x"; tesseract $x temp; if (grep -f blacklist temp.txt) then rm $x; rm temp.txt; fi; done' _ {} +
掃描所有子目錄並根據名為“黑名單”的文件刪除匹配的 OCR 模式。唯一的問題:如果文件中有空格,它不會正確解析它,而是嘗試在文件的第一個單詞上執行。
編輯:注意不要在黑名單文件上留下任何空行。