Backup
使用 wget 只下載第一個深度的外部連結
我想得到這個頁面的副本:http: //databyte.ch/services/tony/index.html顯然這個頁面已經是原始來源的副本:http ://www.tonyvanroon.com/oldwebsite/ circ/電路.htm
但是有一些斷開的連結。現在我製作了索引頁的副本並更正了所有連結以指向回溯檔案。現在幾乎所有東西都是可瀏覽的。但現在我想用 wget 製作更正頁面的副本。現在的問題是:如果 wget 由於 -H 參數而跟隨外部連結,它也會下載外部頁面中連結的文件。
例如:在此頁面上:https ://web.archive.org/web/20130318175317if_/http://www.sentex.ca/~mec1995/circ/alt1.htm
有一個連結: https ://web.archive.org/web/20130401212207if_/http://www.sentex.ca/~mec1995/circ/circuits.htm
這些是不同的時間戳:20130318175317if_ vs 20130401212207if_
現在輪子開始旋轉了。因為在第二個索引頁面上有許多其他時間戳的連結等等……
所以我想要實現的是,wget 只下載到第一級:
databyte.ch -> 所有指向https://web.archive.org/web/20130318175317if_的連結
而不是更多…
我怎樣才能做到這一點?謝謝!
您可以將深度參數與 wget 一起使用:
-l depth --level=depth Specify recursion maximum depth level depth.
wget -r -l 1 -k -p -H --domains=web.archive.org http://databyte.ch/services/tony/index.html
其中 -r 設置遞歸模式,-k 轉換連結,-p 下載先決條件和 -H 跨越主機。指定 –domains 只會跨越這些主機。