2009-12-08

Webサーバーの転送容量が増えたので調べてみたところ、本サイトの日別平均PVは180程度なのにロボット(クローラー)によるアクセスが毎日1,500PVもあることが分かりました。1年くらいは無料プランのホスティングで大丈夫と思っていたのに、3カ月目にして転送量オーバーです。

図:ロボットと人間によるPVの推移:

人とロボットの割合は1:9。ロボットは人間よりも9倍多くのページにアクセスしています。

図:ロボットと人間によるPVの割合:

#正確には「ユーザーによるアクセスがまだロボットの9分の1しかない」と書くべきですね。ユーザーが増えてもロボットによるアクセスが増えるわけではなく、割合は変化していくと思われます。

どのロボットがアクセスしているのか

次に、ロボットの内訳を調べてみました。

図:ロボットによるアクセスの内訳:

GoogleとNaverだけで7割を超えます。Baiduの後は微々たるもので、Yahoo、ライブドア、マイクロソフトなどが続きます。31PVだけAmazon.comもありました。なぜAmazonがクローラーを?

(参考)ロボットを見分けた方法

今回は数が少なかったので、目視で判別しました。Webnodeのログ解析ではブラウザ名(agent)が分からないので、ホスト名ごとにPVとヒット数(画像などを含むアクセス数)の割合に着目しました。画像を読み込まずにページを閲覧するなんて、通常はあり得ません。ただし、再訪問時に画像がブラウザにキャッシュ保存されていた、というケースもあり得るので、企業やISPっぽいホスト名でPVが常識の範囲内のものは除外しました。
このような推測に基づくので、今回のロボット判別の精度は7割程度だと思います。

思った以上にサーバーのリソースを消費するものの、このおかげで検索結果にリンクが表示されてアクセスが増えるので、ありがたいことでもあります。

次は、検索クローラーのアクセス数とインデックス追加されたページ数の関係について分析してみようと思っています。