Quoting
wget 輸出 3 字節引號
我跑了一個
wget -b
. 從日誌中,我試圖獲取成功下載的文件列表,為此我做了一個grep saved wget-log | awk -F '"' '{print $2}'
但它沒有用。進一步調查使我注意到文件名包含在 3 字節左右雙引號 (0xE2 0x80 0x9D) 中,而不是正常雙引號 (0x22)。這是 wget 的正常行為,還是我這邊的一些環境變數,類似的東西?我可以讓 wget 使用正常引號,或者在其日誌記錄中僅使用標準 ASCII 字節嗎?我知道其他繞過它的方法,例如用 sed 替換字節。我對此非常感興趣:我在Google上花了幾分鐘尋找任何評論,但找不到任何東西,好像以前沒有人注意到這一點。
似乎是 Unicode 語言環境中的設計。wget 的郵件列表對此有評論。語言翻譯文件還包含引用的翻譯,因此您可以根據所使用的語言獲得“正確”的引用。
您可以通過使用非 Unicode 語言環境使其使用正常引號。
LC_ALL=C wget ...
或者
LC_CTYPE=C wget ...