Wget

遞歸下載帶框架的網站

  • December 3, 2020

我無法遞歸下載使用框架內連結的網站上的某些頁面,以及這些框架中的更多連結。它來自線上漢語詞源詞典中文網。

典型頁面的 html 如下所示:

<FRAMESET BORDER=1 FRAMEBORDER=1 ROWS=40,*>
   <FRAME ALIGN=LEFT SRC=http://zhongwen.com/main.htm SCROLLING=no MARGINHEIGHT=0 FRAMEBORDER=no NAME=mainFrame>
   <FRAMESET BORDER=1 FRAMEBORDER=1 COLS=250,*>
     <FRAME frameborder=no NORESIZE SRC=http://zhongwen.com/s/bushou.htm NAME=f1>
     <FRAME NORESIZE SRC=http://zhongwen.com/d/198/x126.htm NAME=f2>  
   </FRAMESET>
</FRAMESET> 

框架內,主要連結是**http://zhongwen.com/d/198/x126.htm**,裡面有html:

<head>
<FRAMESET border=1 framespacing=0 frameborder=1 COLS="245,*">
<FRAME SRC="**../../d/198/d126.htm**" NAME="f3">
<!--
<FRAME MARGINHEIGHT=0 SRC="../../t/115.htm#23" NAME="f4">
-->
<FRAME SRC="../../d/198/t126.htm" NAME="f4"></FRAMESET>
</head>
</MAP></MAP>

還有幾個連結,其中一個, http: //zhongwen.com/d/198/x126.htm,有html:

<head><base target="f2"></head>
<BODY bgcolor="FFFFFF">
<A NAME="23"></A>
<IMG border=0 src="http://zhongwen.com/d/198/d126.gif" USEMAP="#a">
... 

我曾嘗試使用 wget 和 httrack,但它們都只下載初始頁面。之前提出的這個問題的答案沒有幫助,手冊頁上也沒有選項。

httrack -Y --near -%P -*p3 -r9999 -B http://zhongwen.com/cgi-bin/zipu.cgi?b5=%A5%5F

wget --restrict-file-names=nocontrol --ignore-length --html-extension --tries=3 --timeout=30 --no-http-keep-alive --cookies=off --page-requisites --convert-links -m -H --follow-tags=FRAME,IMG http://zhongwen.com/cgi-bin/zipu.cgi?b5=%A5%5F

任何人都可以建議其他嘗試,或者如果我有任何錯誤?

謝謝

我試過了wget2,並註意到robot.txt還有其他東西:

Disallow: /s/
Disallow: /d/

您應該尊重域所有者的規則,並且僅出於充分的理由才關閉此驗證。如果該路徑未被禁止,wget(機器人)將通過它進行檢索。

引用自:https://unix.stackexchange.com/questions/622644