Download

如何將 HTML 文件下載為純文字?

  • March 14, 2022

如果一個人下載一個網頁,curl或者wget它以 html 的形式出現。

但是,如果我希望將其下載為純文字(即沒有任何 HTML 解析),完全或幾乎完全像在 Web 瀏覽器中清楚地讀取它(當然省略任何圖像/影片/音頻),那將是一種方法要做到這一點?

你不能下載它,它在伺服器上不存在。伺服器發送 HTML,瀏覽器的工作是顯示它。其中一部分(可以)是顯示文本。

事實上,許多網頁是相當空的,並在您閱讀時載入相關內容。

因此,您需要的是一個工作瀏覽器,它顯示您的文本,然後您需要獲取該文本。

您通常會通過從腳本語言實際遠端控制瀏覽器來做到這一點:您以特殊的“守護程序”模式啟動瀏覽器,連接到它,並使用特製的瀏覽器控制界面(WebDriver)告訴它轉到一個 URL,等待一秒鐘讓瀏覽器正常呈現您在螢幕上看到的內容,然後告訴它保存為純文字文件。

引用自:https://unix.stackexchange.com/questions/694324