Download
如何將 HTML 文件下載為純文字?
如果一個人下載一個網頁,
curl
或者wget
它以 html 的形式出現。但是,如果我希望將其下載為純文字(即沒有任何 HTML 解析),完全或幾乎完全像在 Web 瀏覽器中清楚地讀取它(當然省略任何圖像/影片/音頻),那將是一種方法要做到這一點?
你不能下載它,它在伺服器上不存在。伺服器發送 HTML,瀏覽器的工作是顯示它。其中一部分(可以)是顯示文本。
事實上,許多網頁是相當空的,並在您閱讀時載入相關內容。
因此,您需要的是一個工作瀏覽器,它顯示您的文本,然後您需要獲取該文本。
您通常會通過從腳本語言實際遠端控制瀏覽器來做到這一點:您以特殊的“守護程序”模式啟動瀏覽器,連接到它,並使用特製的瀏覽器控制界面(WebDriver)告訴它轉到一個 URL,等待一秒鐘讓瀏覽器正常呈現您在螢幕上看到的內容,然後告訴它保存為純文字文件。