Pdf

Mupdf:在 PDF 文件中查找連字元

  • September 21, 2018

當我使用mupdf. 它只能找到整個單詞。例如,搜尋單詞“meaningless”會找到整個單詞:

This is a short, staggeringly meaningless sentence.

我無法提前知道一個單詞是否跨越兩行 - 因此:連字元 - 與否。顯式搜尋連字元也太麻煩了。但是,當一個單詞被包裹在一行的末尾時,它就不會被找到。搜尋“meaningless”將找不到此範例中的單詞:

This is a short, staggeringly meaning-
less sentence.

PDF 查看器“Evince”的行為方式相同。有沒有一種(簡單的)方法可以讓“Mupdf”找到連字元的術語?

請注意,PDF 不包含原始文本,而是包含字形放置位置的描述。在 PDF 中搜尋文本取決於 (1) PDF 具有描述哪些字形對應於哪些 unicode 字元的表 (2) 將這些已翻譯字元重新組合成單詞的方法 (3) 關於生成應用程序如何工作的假設,例如按文本順序放下字形(例如,當兩列文本同時呈現在兩列中時,這將嚴重失敗)。

要考慮連字元,您必須實現一種算法來檢測行尾的破折號(可以使用不同的字形),然後合併單詞(並考慮有關連字元的特殊規則,例如德語ck)。

所以是的,它可以完成,但不容易,然後它只適用於某些語言/腳本。

引用自:https://unix.stackexchange.com/questions/469975