使用wget來抓資料 wget mac安裝方式

2014-09-10

MAC 安裝的快速方法:

透過ruby安裝brew

ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

然後透過brew指令來安裝wget
brew install wget --with-libressl


之後就可以直接用wget的指令來下載檔案
 


Wget 指令集:

wget常用參數如下

  GNY Wget ,一個非交談式的網路抓檔工具.

  用法: wget [選項]... [URL]...

  命令的引數使用長項目與短項目相同.

  啟動:

  -V, --version顯示Wget的版本並且離開.

  -h, --help顯示這個說明檔.

  -b, -background在啟動之後跳到背景去.

  -e, -execute=COMMAND執行一個`.wgetrc'裡面的COMMAND指令.

  紀錄檔與輸入的檔案:

  -o, --output-file=FILE紀錄訊息到FILE去.

  -a, -append-output=FILE增加訊息到FILE去.

  -d, --debug顯示除錯的輸出.

  -q, --quiet安靜模式(不輸入任何訊息).

  -v, --verbose冗長模式(這是內定值).

  -nv, --non-verbose關閉verboseness,但不是安靜模式.

  -i, --input-file=FILE從FILE讀取URL .

  -F, --force-html把輸入的檔案當作HTML.

  下載:

  -t, --tries=NUMBER設定重複嘗試NUMBER次(0是無限制).

  -O --output-document=FILE把文件寫到FILE裡.

  -nc, --no-clobber不破壞已經存在的檔案.

  -c, --continue重新取得一個已經存在的檔案.

  --dot-style=STYLE設定取回狀況的顯示風格.

  -N, --timestamping不取回比本地舊的檔案.

  -S, --server-response顯示伺服器回應狀況.

  --spider不下載任何東西.

  -T, --timeout=SECONDS設定讀取時超過的時間為SECONDS秒.

  -w, --wait=SECONDS在取回檔案時等待SECONDS秒.

  -Y, --proxy=on/off開啟或關閉Proxy.

  -Q, --quota=NUMBER設定取回檔案的定額限制為NUMBER個.

  目錄:

  -nd --no-directories不建立目錄.

  -x, --force-directories強制進行目錄建立的工作.

  -nH, --no-host-directories不建立主機的目錄.

  -P, --directory-prefix=PREFIX把檔案存到PREFIX/...

  --cut-dirs=NUMBER忽略NUMBER個遠端的目錄元件.

  HTTP選項:

  --http-user=USER設http使用者為USER.

  --http0passwd=PASS設http使用者的密碼為PASS.

  -C, --cache=on/off提供/關閉快取伺服器資料(正常情況為提供).

  --ignore-length忽略`Content-Length'標頭欄位.

  --proxy-user=USER設USER為Proxy使用者名稱.

  --proxy-passwd=PASS設PASS為Proxy密碼.

  -s, --save-headers儲存HTTP標頭成為檔案.

  -U, --user-agent=AGENT使用AGENT取代Wget/VERSION作為識別代號.

  FTP選項:

  --retr-symlinks取回FTP的象徵連結.

  -g, --glob=on/off turn file name globbing on ot off.

  --passive-ftp使用"passive"傳輸模式.

  使用遞回方式的取回:

  -r, --recursive像是吸入web的取回--請小心使用!.

  -l, --level=NUMBER遞回層次的最大值(0不限制).

  --delete-after刪除下載完畢的檔案.

  -k, --convert-links改變沒有關連的連結成為有關連.

  -m, --mirror開啟適合用來映射的選項.

  -nr, --dont-remove-listing不要移除`.listing'檔.

  遞回式作業的允許與拒絕選項:

  -A, --accept=LIST允許的擴充項目的列表.

  -R, --reject=LIST拒絕的擴充項目的列表.

  -D, --domains=LIST允許的網域列表.

  --exclude-domains=LIST拒絕的網域列表(使用逗號來分隔).

  -L, --relative只跟隨關聯連結前進.

  --follow-ftp跟隨HTML文件裡面的FTP連結.

  -H, --span-hosts當開始遞回時便到外面的主機.

  -I, --include-directories=LIST允許的目錄列表.

  -X, --exclude-directories=LIST排除的目錄列表.

  -nh, --no-host-lookup不透過DNS查尋主機.

  -np, --no-parent不追溯到起源目錄.

  範例一:mirror一個網站

  wget -r www.redhat.com

  範例二:mirror一個網站下的某個目錄:

  wget -r www.redhat.com/mirrors/LDP

  範例三:結合nohup在後台運行,讓機器自動下載,並生成nohup.out文件,紀錄下載過程的速度。 
  nohup wget -c -t0 -T120 -i list.txt &

取圖檔範例: wget -r -P 本機目錄 -A 檔案格式,檔案格式,檔案格式 -np http://網站/目錄

Contact

Github

Codepen

歡迎參觀我的賣場
© 2013 Copyright Digishot Web | Design Tools
Visitors【132956】
digishot webdesign studio