旧« | »新

2009.12.10

百度(Baidu)ってやっぱり怪しい???

 百度とは中国発祥の世界ナンバーワンクラスの検索サイトのことです。そこからのクロール(検索ロボット巡回)が半端じゃないのと、以前に「百度」を スパム(SPAM)書き込みが来るようになってきた のエントリーで .htacces で弾いたらスパムが来なくなったと、以下のように書きました。

中国の検索サイトになんか載らないでもいいんで、こいつもアクセス制限をかけました。そしたらですね。なんと不思議なことに増えつつあったゲストブックへのコメントスパムがぱたっと止まりました。偶然かもしれませんが、こいつがウチの情報をテンプレ化して流してたんじゃないかと疑ってます。ほんとに偶然かもしれませんがね。スパムコメントで困ってる方、.htaccess が使えるなら「百度」を弾いた方が良いかもしれませんよ。

 ずっとそのまま .htaccess で弾いてきました。先日書き込み時の画像認証(キャプチャ:SI CAPTCHA Anti-Spam)を導入して、.htaccess 内の他のアクセス拒否はほとんどを削除しましたが、それでも「百度」と「トレンドマイクロ」はそのまま残してありました。スパムではなく、単純にイヤだったからですね。

 昨日、ふと思い直し、「百度」からの検索ロボットも受け入れた方がいいかな、メジャーな検索サイトらしいし、Google で調べてもそんなに悪いウワサは出てないみたいだしってことで、.htaccess から外しました。

 そしたらところがなんとまあびっくりぎょうてんでありますのことよ(笑)

spam みてくださいな、この百花繚乱の国旗。これ全部昨晩数時間の出来事、それも「百度」からのアクセス制限を外した直後から私が寝るまでの二時間くらいの間です。弾いていたときにエラーログに入ったそれをみると一日だいたい20~30回「百度」からのアクセスがあります。一時間に一回以上来てるから、制限を外してすぐに入り込んできてるのは間違いない。検索ロボットの記録は採ってない(単にログがふくれるだけなんで、有名どころは記録しない設定にしてあります)ので、いつ来たのかはブログのログではわかりません。サーバのログ見ればわかるけど面倒なのでパス。

 この多国籍アクセスで Internet Explorer6のやつはすべてスパムです。認証画像を読めないので実際には書き込めてませんが、認証コードを入れずに書き込みまで進もうとしてエラーになったことはログに残ってます。

 百度が悪さをしていると言いたいのではなく、スパムを送信するやつら、「百度の検索結果をなんらかの方法で使ってスパムを送ってる」のだとしか思えません。寝る前に再び .htaccess に百度を拒否する設定にしましたら、その百花繚乱国旗騒ぎはピタっと止まり、朝のチェックではいつもどおりの記録しかありませんでした。つまり、たまにぽつんぽつんとスパムが来てる状態。「百度」にいったん収まった検索結果を使うなら、一度そうなった以上、ずっとそれを利用したスパムが来続けてもおかしくないだろうに、「百度」を拒否したらぴたっと止まったというのが、なんともかんともであります。たった二度ではありますが、前回もそうだったわけですからね。

 参考までに、うちの .htaccess にある百度の拒否設定は以下のとおりです。日本法人の百度と中国からくる百度の両方を拒否してます。

2010/03/24 編集
 「百度 .htaccess」のキーワードで検索してここを見る人が妙に多いので、この枠内に書いた旧いデータは消しておきます。


いえ 関連してそうな投稿

Trackback URL

コメントとトラックバック

なかのさん、ありがとうございます。
ただ今、返信メールが届きました。迷惑フォルダーに入らないで良かったです。
前のものは、メールが来なかったようです。
また、うちのIEのキャッシュを削除したら、コメント表示も通常になりました。
何度もページの更新をしても同じだったのですが、ちょっと不思議な現象です。
.htaccess の件は、うちのメンバー様にも読んでいただくよう、TODOSの方に書きました。
今後とも、よろしくお願いします。

[返信]

なかの Reply:

 あ! もしかして、という思い当たる節が。

 wordpress って、httpヘッダーに Last-Modified をつけません。それを利用して更新をチェックする昔懐かしの更新チェッカーを未だに愛用してまして。そのために一細工しました。

 が、本文を書き換えるときは動作してあたらしい時間を httpヘッダにつける(更新する)んですけど、コメントのとこまで最初気がつかなかったので手を加えませんでした。ごらんのように滅多にコメントつかないので、最初はいつか直そうと気にしてたんですが、そのまま来てました。

 たぶんそのせいで、コメントが更新されてもブラウザは「このページは古いまま」とみなしてキャッシュのを使うんです。直すのは大変なので、いま元の仕様に戻しました。

 もうしわけありませんでした。

 と、同時に(笑) 更新チェッカーを使ってる方。last-modified を吐かなくしましたので、チェックするとき気をつけて下さい。って、さすがにそんな古いパソ通時代のチェッカー使ってる人いないよね。

[返信]

失礼いたしました。
紹介させていただいたスレッドは、こちらです。
http://todos.xsrv.jp/2patioweb/todos.cgi?no=10

[返信]

初めまして。「TODOS・何でも情報交換」というサイトを運営しています りり と申します。
SPAMの件、特に百度の情報は、とても参考になりました。
うちのサーバーのアクセスログをみても、百度から、一時間に三回という頻度で毎日アクセスが来ていたのです。
こちらのスパム投稿のIPアドレス情報を参考に、ALTUSHOST-NET も排除したところです。
うちのスレッドの一つで、「なかのさんち」のブログを紹介させていただきました。
よろしければ、TODOSへもお立ち寄りください。

[返信]

なかの Reply:

おはようございます。

ところでアクセス排除は .htaccess でなさってるんですよね?
もしそうなら、私も試行錯誤を繰り返したあと、現在では .htaccess でのアクセス制御(IE6 関連) に書いた方式でやってます。IP での制御だと、りりさんもご自分のところでお書きになってるように巻き添えが出ちゃうんですよね。

実際は以前記事にしたのと、少し変わってきて、いま使用中の .htaccess は下記のような感じです。

order allow,deny
allow from all

SetEnvIfNoCase User-Agent “(MSIE [1-6]\.[0-9])” Kyohi
SetEnvIfNoCase User-Agent “(MSIE [789]\.[0-9]|TweetmemeBot)” !Kyohi
SetEnvIfNoCase User-Agent “(aiHitBot|Commerce|Baidu|SocialMedia|zh-TW|Yeti|yodao|Tasap|Qihoo|Sogou|Sosos|Daumoa|Powermarks|Mozilla\/0\.)” Kyohi

allow from .jp
allow from .bbtec.net
allow from .msn.com

Deny from env=Kyohi
deny from .serverloft.com
deny from .elaninet.com
deny from .ukhost4u.com

あと、IP を範囲マスクで指定するなら
http://www.geocities.co.jp/SiliconValley/7695/mask.html
そこで計算して貰うと楽です。

[返信]

りり Reply:

TODOSへの書き込みありがとうございました。
ずっと、こちらの記事には、Comments:0と
スパム対策のため承認待ちです。しばらくお待ち下さい。
が表示され、返信があるとは気づきませんでした。

ちょっと使い方が分かりませんが、Comment feedをクリックすると、Commentsが読めました。
記事により、最近のコメントに「りり」が出るときと出ないときがあります。
また、返信されたらメールで知らせるにチェックを入れていたのですが…
もしかしたら、スパムチェックの厳しい設定なので、削除してしまったかもしれないのですが。

別の記事では、コメントは、本文の下に出ますよね?

メールが来るか、試してみます。

[返信]

なかの Reply:

すいません。つい最近も Facebook の件で同じようなこと言われました。自分ではならないもんだからぴんと来ないで的外れなお返事しちゃったかも。

私はここのオーナーですので、システム的に別系統でメールのお知らせがきまして、コメントへの返信メールは元から来ないし、確かめようがなくて。

ブログとしてのキャッシュは使ってないんですが、Firefox 以外だと、たまに「更新されずに以前のが表示されたまま」ってことがあるようです。

この返信がメールで届かないようならちと設定を見直してみます。

[返信]

Comment feed

コメント