Mupdf：在 PDF 文件中查找連字元

September 21, 2018

當我使用mupdf. 它只能找到整個單詞。例如，搜尋單詞“meaningless”會找到整個單詞：
This is a short, staggeringly meaningless sentence.
我無法提前知道一個單詞是否跨越兩行 - 因此：連字元 - 與否。顯式搜尋連字元也太麻煩了。但是，當一個單詞被包裹在一行的末尾時，它就不會被找到。搜尋“meaningless”將找不到此範例中的單詞：
This is a short, staggeringly meaning-
less sentence.
PDF 查看器“Evince”的行為方式相同。有沒有一種（簡單的）方法可以讓“Mupdf”找到連字元的術語？

請注意，PDF 不包含原始文本，而是包含字形放置位置的描述。在 PDF 中搜尋文本取決於 (1) PDF 具有描述哪些字形對應於哪些 unicode 字元的表 (2) 將這些已翻譯字元重新組合成單詞的方法 (3) 關於生成應用程序如何工作的假設，例如按文本順序放下字形（例如，當兩列文本同時呈現在兩列中時，這將嚴重失敗）。
要考慮連字元，您必須實現一種算法來檢測行尾的破折號（可以使用不同的字形），然後合併單詞（並考慮有關連字元的特殊規則，例如德語ck）。
所以是的，它可以完成，但不容易，然後它只適用於某些語言/腳本。

引用自：https://unix.stackexchange.com/questions/469975

相關問答

從命令行列印每張紙兩頁

October 28, 2021

有沒有辦法知道/判斷 pdf 文件中使用了哪些字型？

April 27, 2020

為什麼我的 PostScript 列印質量這麼差？

January 28, 2020

是否有能夠在同一視窗中打開多個文件的 pdf 查看器？

November 19, 2019

如何讓mupdf自動刷新文件

January 8, 2019

有什麼方法可以從命令行控制 evince 設置？

October 15, 2017