Wget

除了 SeleniumRC 之外,還有什麼好的工具可以獲取網頁,包括由 JavaScript 後期繪製的內容?

  • January 28, 2012

一個主要缺點curl是越來越多的網頁的主要內容是由在初始 HTTP 響應之後發生的 JavaScript AJAX 響應繪製的。curl永遠不會接受這個後期繪製的內容。

因此,為了從命令行獲取這些類型的網頁,我只能用 Ruby 編寫腳本,驅動 SeleniumRC 啟動 Firefox 實例,然後在這些 AJAX 呼叫完成後返回源 HTML。

為此類問題提供更精簡的命令行解決方案會好得多。有人知道嗎?

我最近才開始在 Java 中使用 Selenium 2 的 WebDriver。有一個名為 HtmlUnitDriver 的驅動程序完全支持 JavaScript,但不會啟動實際的瀏​​覽器。

這不是一個簡單的解決方案,但它確實完成了工作。

我將程式碼設計為從命令行執行並將 Web 數據保存到文件中。

你考慮過Watir嗎?

http://watir.com/

添加軟體包後,您可以將其作為獨立文件執行,也可以irbinclude 'watir-webdriver'. 我發現它比 響應更快selenium-webdriver,但沒有測試記錄 GUI 來幫助解決複雜的測試條件。

引用自:https://unix.stackexchange.com/questions/12186