Mar 11, 2006

对百度mp3搜索说不

关键词: 百度搜索 MP3 防止盗链 htaccess设置 robots.txt

昨天查看网站log时候,发现了一件非常令人气愤的事情。
我明明在自己的网站中设置了禁止所有网络爬虫访问Music子目录:

User-agent: *
Disallow: /Music/

但是日志中显示3月10日一天就有来自百度mp3搜索的几百个访问,这些访问无一例外的采用206 partial content方式,也就是说,他们并不是通过我的网页访问网站中的mp3文件,而是直接通过baidu的mp3搜索下载!!
通过仔细翻阅那几天的日子,我发现更恐怖的事情,baidu的所谓国际标准机器人居然没有访问我的robots文件,就对我的网站内容进行扫描。这意味着我并不希望被搜索引擎收录的mp3文件都会暴露在大庭广众之下。查看日志还可以发现,一天数百兆甚至接近1G的数据流量竟然有80%是从那不守规矩的百度MP3搜索引擎。我一个月才250G流量限制,现在才不到十个mp3文件一天就可以上G流量,要是以后多点mp3,我还怎么活啊。

所以,我们必须对百度疯狂盗链说不!(其实盗链不光百度,但目前来看,就百度的mp3搜索最无耻)
下面是对.htaccess文件的设置,如果有使用apache服务器的网站站长深受百度mp3搜索的骚扰,可以试一试下面的方法。

1.是屏蔽来自百度mp3的搜索。
2.是防盗链设置,禁止除了白名单中地址外,其他所有地址对mp3文件的直接访问。

我就不信百度现在还能来盗我的链, :evil:

RewriteEngine on
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://(www\.)?znsun.com(/)?.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://www\.znsun\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://blog\.znsun\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://click\.znsun\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://gallery\.znsun\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://(.*)\.spaces\.live\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://(.*)\.wordpress\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://web\.hku\.hk/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://www\.hku\.hk/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://forum\.xitek\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://forum\.pixelpost\.org/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://del\.icio\.us/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://(.*)\.feedburner\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} mp3\.baidu\.com [NC,OR]
RewriteCond %{HTTP_REFERER} 202\.108\.23\.172 [NC,OR]
RewriteCond %{HTTP_REFERER} www\.xqxp\.com [NC,OR]
RewriteRule .*\.(mp3|mp4|rar|jepg|jpg|pdf)$ - [F]

注:robots文件标准是给各个搜索引擎的规范,是所有搜索引擎必须遵守的国际准则。和百度比,google,yahoo的机器人都很乖,都是先访问robots文件才进行抓取。baidu的行为不是无耻,是相当的无耻~

Tags:
Post by SUN @ 11:43 am | 与时俱进, 网站更新 | Comments (7) | Add to del.icio.us | Digg This!
  • At 2006.03.11 16:00, cylee said:

    Dr SUN那是相当的气氛。

    [Reply]      

  • At 2006.03.12 00:45, fox said:

    我是相当的看不懂。
    哈哈。

    嘻嘻,暂时你还用不到啦。
    SUN

    [Reply]      

  • At 2006.03.12 11:52, LeiLei said:

    好恐怖呀``~不过败毒好牛呀,你都禁了它还能偷窥你隐私.

    也不是隐私,来这里的话,都能看到的。
    我是不想让搜索引擎收录我的mp3,到时候流量大了,我会被charge很多钱的……
    SUN

    [Reply]      

  • At 2009.03.12 07:28, lewphee said:

    不管用呐,百度的在线播放Mediaplayer的REFERER是空的,这样不成的

    [Reply]      

  • At 2010.02.28 12:35, bb said:

    百度没有报复你吗 比如给 你网站降权等

    [Reply]      

    • At 2010.02.28 12:40, SUN said:

      这种垃圾公司的东西我不care

      [Reply]      

  • At 2011.05.09 21:20, Ruxiao Ma said:

    我觉得 robots.txt 不管用的原因是 百度从抓取的网页中分析 mp3 而不是直接扫描 /music 目录。何况没有 dir listing 也没法直接扫描。

    [Reply]      

(Required)
(Required, will not be published)