スクレイピング確認くん
スクレイピングする際に、クローラーであることをなるべく隠蔽できているか確認できるツールです。
項目名 |
結果 |
取得した値 |
User-Agent |
OK |
CCBot/2.0 (https://commoncrawl.org/faq/) |
Accept-Language |
NG |
|
Remote-Host |
OK |
ec2-52-91-176-251.compute-1.amazonaws.com |
説明
- User-Agent: ブラウザ、OSの種類やバージョン等を含んだ識別子。デフォルトのままはX
- Accept-Language: どの言語を優先的に表示するか。jaを含んでいたほうがバレにくい。空だとブロックされやすい。
- リモートホスト: IPアドレスから逆引きしたホスト名。AWS=compute.amazonaws.comなど決まっているのでIPからバレやすい。
- Javascript実行: 必ずしも実行できない=クローラーとは言えない。が最近だとJavascriptが動作しないとページが表示サイトが増えてきている。
- スクリーンサイズ: 画面のサイズ 一般的な解像度より小さいと、目をつけられやすい。
- ウィンドウサイズ: ブラウザのサイズ スクリーンサイズ同様に、デフォルトだと小さいのでクローラーだとバレる。