.htaccess でのアクセス制御(IE6 関連)

 かなり納得のいく設定ができました。これまで「見よう見まね」で他のサイトに載ってる方法を利用しつつ「たぶんこれはこういうこと」と少しいじったりして調整してきたわけです。ブログ開くまではコメントスパムなど気にしてませんでしたし、.htaccess といえばBasic認証くらいでしか使ったこと無かったですから。

 でも「見よう見まね」で上っ面だけマネしたんでは行き詰まるのは必至。しっかりと学習しました。

1:コメントスパムの大半は IE5~6 を使ってるのでそれらでのアクセスは拒否。
2:しかし、業者ではない IE6 ユーザーからのアクセスは受け入れる。
3:さらに、上記で拒否できないコメントスパムは個別に deny で拒否登録。

 その三点について、なんとかなった気配。久しぶりにプログラミングにはまったような感触です。

 .httaccess でアクセス制御する場合に、冒頭で「Order allow,deny」「Order deny,allow」などと書きます。これの意味をよくわかってませんでした。どう違うの?って思ってました。

 allow 指定(許可)と deny 指定(拒否)、両方にマッチしたときにどちらを優先するのかの指定のようです。「Order allow,deny」を指定すると allow(許可) 優先。「Order deny,allow」は denny(拒否)優先。そしてそれぞれデフォルトで Order allow,deny ならその設定だけで「全部を拒否」したことになり、deny,allow なら「全部を許可」となる。

 でもこの設定の次行にどこの説明でもほぼ必ず allow from all とか書いてます。全部を許可するなら order で deny,allow とすればいいのに。と思いません?

 そこがミソ。こまかくアクセス制限をかけるために allow と deny を複数行書くことになりますが、普通のプログラムで多用する条件分岐ってのができません。allow と deny 、どちらを優先するのか決めておくことでうまいこと条件分岐みたいな仕事をさせるわけです。

 ブラックリストとホワイトリストみたいな考え方ね。すべてを許可しておいて拒否する物を指定していく「ブラックリスト」で、それにマッチしても部分的に許可したい使い方の時は allow 優先のほうが条件分けしやすいんです。でも allow 優先にすると全部拒否が初期値。ってことでわざわざすべてを許可する指定を書くってわけです。

 この優先の意味が説明サイト読んでもわかりにくいです。結局、サーバーソフトの Apache.org までたどりつき、各ディレクティブの説明読んでやっと理解できました(できたつもり、なだけかも)。

 現在ウチで使ってる .htaccess 内のアクセス制御部分は以下のようなものになってます。かなり小さくまとまりました。deny from にIP羅列してたときはすごい量だったです。.htaccess は毎回必ず全行参照するそうなので、短い方がサーバに負担かからないでいいかなと思うんですけど、どうなんでしょうね。

order allow,deny
allow from all

SetEnvIfNoCase User-Agent “(MSIE [3456]\.[0-9])” Kyohi
SetEnvIfNoCase User-Agent “(MSIE [789]\.[0-9]|TweetmemeBot|Lunascape|Sleipnir)” !Kyohi
SetEnvIfNoCase User-Agent “(Commerce|Baidu|sogou|YodaoBot|zh-TW)” Kyohi

allow from .jp

Deny from env=Kyohi
deny from .serverloft.com
deny from .elaninet.com

 いまのところその設定で気持ちよく、.jp ドメインからのアクセスは UserAgent に関係なく全部許可され、.jp ドメイン以外からのアクセスは IE3~6 までと、Commerce,Baidu,sogou,YodaoBot,zh-TW のものは拒否。さらにその条件から外れる(Agent で特定できない)けどスパムを書き込んだドメインを deny で拒否(現在のところ二つ)。環境変数のところは一行にまとめられますが、一行が長くなると見通しが悪くなるのと、将来ここに記述するのが増えたときのことを考えて複数行にわけてます。

 UserAgent での拒否のウチ、クローラーである Baidu 他いくつかは robots.txt で弾くのが普通なんでしょうが、Baidu(百度)は公式サイトに載ってる数種のクローラーを全部登録しても robots.txt を読まずに一時間に一回入ってくるのがあります。気持ち悪いから全面的に拒否です。UserAgent に正直に名乗ってるところはかわいげがあるかもしれません。ウィルスバスターは名乗りません。が、逆引きホスト名設定無し、生IPのみの IE6 なので上記の設定で一緒に拒否できてます。

 いつまでも IE6 のままじゃないだろうし、Agent での指定は脆いってのも、そのうちこの設定じゃ拒否できなくなっていくのも、わかってるけど、そのときはそのときでまた楽しもうと思ってます。