Html

有沒有辦法在不失去每個段中的所有格式的情況下拆分 HTML 文件?

  • September 6, 2011

所以… split 命令允許我將文件拆分為多個部分。但是,問題在於只有一個文件將包含 HTML 標頭,而其中只有一個文件將包含 HTML 頁腳。

(這可能與許多其他包含頁眉/頁腳資訊的文件有關)

大多數 unix 工具,例如split,都與文件格式無關。要將使用特定格式(如 HTML)的文件拆分為更小的有效格式文件,請使用特定工具。對於 HTML 拆分,htmldoc這是我發現的第一個在網路上快速查找的內容。它已被打包(至少在 debian、ubuntu、fedora、gentoo 等中)。

不要使用sed文件做出麻煩假設的 -ish 技巧,因為它總有一天會適得其反。

您可以首先提取和刪除源文件的頁眉/頁腳,拆分它並將提取的頁眉/頁腳添加到每個拆分中。

您可以使用xpathsed來編輯源文件。

例如,這個命令行去除文件的頁眉頁腳:

$ sed -e '0,/<body>/d' -e '/<\/body>/,$d input.html

其中 sed 是 GNU 的,並且假定正文標記在其自己的行上。

引用自:https://unix.stackexchange.com/questions/20172