Html
有沒有辦法在不失去每個段中的所有格式的情況下拆分 HTML 文件?
所以… split 命令允許我將文件拆分為多個部分。但是,問題在於只有一個文件將包含 HTML 標頭,而其中只有一個文件將包含 HTML 頁腳。
(這可能與許多其他包含頁眉/頁腳資訊的文件有關)
大多數 unix 工具,例如
split
,都與文件格式無關。要將使用特定格式(如 HTML)的文件拆分為更小的有效格式文件,請使用特定工具。對於 HTML 拆分,htmldoc
這是我發現的第一個在網路上快速查找的內容。它已被打包(至少在 debian、ubuntu、fedora、gentoo 等中)。不要使用對
sed
文件做出麻煩假設的 -ish 技巧,因為它總有一天會適得其反。
您可以首先提取和刪除源文件的頁眉/頁腳,拆分它並將提取的頁眉/頁腳添加到每個拆分中。
您可以使用
xpath
或sed
來編輯源文件。例如,這個命令行去除文件的頁眉頁腳:
$ sed -e '0,/<body>/d' -e '/<\/body>/,$d input.html
其中 sed 是 GNU 的,並且假定正文標記在其自己的行上。