由 徐永久 发表于 2006年02月27日 00:33。
为什么要调戏 Baidu ,因为它愚蠢。
为什么他愚蠢? 因为它会集中,大批量的发送 Spider 信息给一个网站。
怎么调戏?两个方法:
第一个:如果是通过 Baidu 网站引用过来的,利用 Squid 的 功能提示错误信息,让用户再次点击连接才能阅读文章。 Squid 实现方法:
acl BAIDU referer_regex baidu.com
http_access deny BAIDU
deny_info ERR_BAIDU BAIDU
例如: http://www.baidu.com/s?th=baidu&cl=3&word=site%3Afreelamp.com+linux
第二,利用 Apache , mod_rewrite 把来自 Baiduspider 的请求定向到 Baidu 上的某篇文章:
http://post.baidu.com/f?ct=335675392&tn=baiduPostBrowser&sc=84053900&z=10106113&pn=0&rn=50&lm=0&word=%B0%D9%B6%C8%B5%C7%C2%BC#84053900
让他自己去爬自己。去年 8848 恶意修改百度、搜狐、中搜在线等网站的搜索,后来被 Baidu 利用,其实也就是用了这项技术。
这样,在日志里就可以看到 302 记录:
202.108.22.85 – - [27/Feb/2006:00:09:52 +0800] “GET http://xxx.net/content/view/316161/35/ HTTP/1.1″ 302 803 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.145.219 – - [27/Feb/2006:00:09:54 +0800] “GET http://xxx.net/content/view/316139/31/ HTTP/1.1″ 403 1457 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
202.108.22.85 – - [27/Feb/2006:00:09:55 +0800] “GET
2006-02-27 22:57
老徐
发表于
标签: 