Text-Processing

可以提取 djvu 文件中每一頁的標題和頁碼

  • September 13, 2011

這是我之前對 pdf 文件提出的問題的 djvu 版本。我嘗試了一個與弗雷德對上一個問題類似的想法。但是我現在被困在如何獲取 djvu 文件的頁數上,因為我不知道哪個命令可以用於該目的。

為了完整起見,我現在在這裡重新表述問題:

我想知道是否有一些方法可以提取 djvu 文件中每一頁的標題和頁面編號?是通過某些應用程序,還是通過使用某些 djvu 庫以某種程式語言進行程式?

每個頁面的標題應該是頁面的第一行,例如,在幻燈片/展示文件中。

輸出應該是一個文本文件,格式如下:

title_of_first_page pagenum_of_first_page
title_of_second_page pagenum_of_second_page
...

感謝致敬!

.pdf 範例類似,以下腳本將列印在給定頁面上找到的第一行文本(通過head -n 1)。djvused --help您可以通過在終端中 鍵入來查看可用的命令。

djvused在包裡djvulibre-bin

if="$HOME/Downloads/The Geometry of Exponential Families.djvu"
pages=$(djvused -e 'n' "$if")
for ((i=1; i<=$pages; i++)) ;do
   printf "%s %d\n" "$(djvused -e 'select '$i'; print-pure-txt' "$if" | head -n 1)" $i
done

引用自:https://unix.stackexchange.com/questions/20587