HTTrackでwebサイトを丸ごとダウンロードする (2020.7.29)

Summary

webサイトを丸ごとローカルにダウンロードしたいことが時々ある そんなときhttrackコマンドがあると便利。 マニュアルはここ

macOSへのhttrackコマンドのインストール

Terminalで以下を入力してhomebrewをダウンロード

$ ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" < /dev/null 2> /dev/null

次にbrewでinstall

$ brew install httrack

使い方

特定のURL以下のファイルを全部ダウンロードしてくる コマンドラインで実行するには

$ cd ./web
$ httrack url/foldername/ +*.png +*.gif +*.jpg +*.jpeg +*.css +*.jp +*.pdf

web UI版を使うには

$ webhttrack

downloadしたファイルの構成

index.htmlはhttrackの宣伝が出てから先頭URLに移動する。 これはいやなので、次のようなindex.htmlに置き換えると良い。

<html xmlns="http://www.w3.org/1999/xhtml" lang="en">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <TITLE>Local index - HTTrack</TITLE>
</head>
<body>
<H1 ALIGN=Center>Index of locally available sites:</H1>
    <meta HTTP-EQUIV="Refresh" CONTENT="0; URL=***ここを書き換える***/index.html">
</body>
</html>

Back to Index