谁养玉蜂:用 Apache 拒絕網路流氓的騷擾
来源:百度文库 编辑:九乡新闻网 时间:2024/05/01 16:52:55
Google, Yahoo 的搜尋引擎之所以可以搜尋到很多資料,是因為他們時時刻刻都派著 “robot” 在網路上巡邏,Google
的叫 googlebot, MSN 叫 msnbot, Yahoo! 叫 Yahoo Slurp
等等,任務就是捉新的網頁或更新的網頁回去資料中心. 為了隱私之類的原因,
國際組織訂有規則
,規範 robot 的行為 — 基本上是 robot 要先參考網站根目錄的一個 robots.txt 的檔案,內容寫著 robot 的名稱及禁止捉取的目錄或檔案,例如:
User-agent: abc
Disallow: /not_for_abc/
User-agent: *
Disallow: /secret/
意思是禁止 abc 這個 robot 捉 /not_for_abc/ 目錄,及禁止所有的 robots 捉 /secret/ 目錄. 網站管理者理論上可以將不喜歡的 robot,或是禁止 robot 捉取的目錄或檔案,寫在這個檔案中.
但是這個只防君子不防小人,碰到網路流氓就沒轍了,有些搜尋引擎的 robot 根本不看網站的 robots.txt,就一路抓下去,實在另人髮指.
網路流氓是什麼,就是這些不遵守遊戲規則,到處亂捉別人網站的內容的壞蛋,這樣會造成網站的流量增加,也就是費用的增加,或是不想被搜尋的資料也被捉走
了,侵犯網站的隱私. 很可惡是吧. 下面是幾個例子:
iaskspider 是「愛問」屬於中國新浪網的 robot,完全不管 robots.txt
60.28.164.87 - - [06/Jan/2007:06:28:47 +0800] "GET
/wp/archives/2005/08/13/12/46/48/ HTTP/1.0" 200 20969 "-" "Mozilla/5.0
(compatible; iaskspider/1.0; MSIE 6.0)"
60.28.164.87 - - [06/Jan/2007:06:29:34 +0800] "GET
/wp/archives/2005/08/13/21/28/00/ HTTP/1.0" 200 19601 "-" "Mozilla/5.0
(compatible; iaskspider/1.0; MSIE 6.0)"
60.28.164.87 - - [06/Jan/2007:06:31:45 +0800] "GET
/wp/archives/2005/07/06/22/47/17/ HTTP/1.0" 200 39200 "-" "Mozilla/5.0
(compatible; iaskspider/1.0; MSIE 6.0)"
QihooBot,也是來自中國的「奇虎網」,也是垃圾一個,浪費一堆頻寬,來源 IP 有很多個:
220.181.34.162 - - [03/Jan/2007:11:36:27 +0800] "GET /wp/feed/
HTTP/1.1" 200 21947 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT
5.1; QihooBot 1.0)"
220.181.34.170 - - [03/Jan/2007:11:38:14 +0800] "GET
/wp/archives/2006/12/ HTTP/1.1" 200 5373 "-" "Mozilla/4.0 (compatible;
MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"
220.181.34.177 - - [03/Jan/2007:11:38:30 +0800] "GET
/wp/archives/category/childtalking/ HTTP/1.1" 200 6554 "-" "Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"
另有 larbin,iearthworm,yodaoice,lanshanbot,Outfoxbot 等等一堆,到網路上徵信一下,這些通通不是什麼好東西,還有一個 WebClipping.com 不知是好人壞人…
碰到這種網路流氓,說實在的也沒什麼積極的辦法,不能叫網路警察把它捉起來...不過消極的辦法還是有的,把網站門戶看好 — Apache
可以擋住特定 IP,但因為 robots 大多有多重 IP,過濾壞蛋的姓名比較有效,可以用 BrowserMatchNoCase
來過濾,用法像是:
Order allow,deny
Allow from all
BrowserMatchNoCase "iaskspider" badguy
BrowserMatchNoCase "QihooBot" badguy
BrowserMatchNoCase "larbin" badguy
deny from env=badguy
如此,它們就會收到 Apache 丟回 403 碼:Forbidden
但是,有些更沒品的還會隱姓埋名,不敢用真面目見人的…
的叫 googlebot, MSN 叫 msnbot, Yahoo! 叫 Yahoo Slurp
等等,任務就是捉新的網頁或更新的網頁回去資料中心. 為了隱私之類的原因,
國際組織訂有規則
,規範 robot 的行為 — 基本上是 robot 要先參考網站根目錄的一個 robots.txt 的檔案,內容寫著 robot 的名稱及禁止捉取的目錄或檔案,例如:
User-agent: abc
Disallow: /not_for_abc/
User-agent: *
Disallow: /secret/
意思是禁止 abc 這個 robot 捉 /not_for_abc/ 目錄,及禁止所有的 robots 捉 /secret/ 目錄. 網站管理者理論上可以將不喜歡的 robot,或是禁止 robot 捉取的目錄或檔案,寫在這個檔案中.
但是這個只防君子不防小人,碰到網路流氓就沒轍了,有些搜尋引擎的 robot 根本不看網站的 robots.txt,就一路抓下去,實在另人髮指.
網路流氓是什麼,就是這些不遵守遊戲規則,到處亂捉別人網站的內容的壞蛋,這樣會造成網站的流量增加,也就是費用的增加,或是不想被搜尋的資料也被捉走
了,侵犯網站的隱私. 很可惡是吧. 下面是幾個例子:
iaskspider 是「愛問」屬於中國新浪網的 robot,完全不管 robots.txt
60.28.164.87 - - [06/Jan/2007:06:28:47 +0800] "GET
/wp/archives/2005/08/13/12/46/48/ HTTP/1.0" 200 20969 "-" "Mozilla/5.0
(compatible; iaskspider/1.0; MSIE 6.0)"
60.28.164.87 - - [06/Jan/2007:06:29:34 +0800] "GET
/wp/archives/2005/08/13/21/28/00/ HTTP/1.0" 200 19601 "-" "Mozilla/5.0
(compatible; iaskspider/1.0; MSIE 6.0)"
60.28.164.87 - - [06/Jan/2007:06:31:45 +0800] "GET
/wp/archives/2005/07/06/22/47/17/ HTTP/1.0" 200 39200 "-" "Mozilla/5.0
(compatible; iaskspider/1.0; MSIE 6.0)"
QihooBot,也是來自中國的「奇虎網」,也是垃圾一個,浪費一堆頻寬,來源 IP 有很多個:
220.181.34.162 - - [03/Jan/2007:11:36:27 +0800] "GET /wp/feed/
HTTP/1.1" 200 21947 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT
5.1; QihooBot 1.0)"
220.181.34.170 - - [03/Jan/2007:11:38:14 +0800] "GET
/wp/archives/2006/12/ HTTP/1.1" 200 5373 "-" "Mozilla/4.0 (compatible;
MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"
220.181.34.177 - - [03/Jan/2007:11:38:30 +0800] "GET
/wp/archives/category/childtalking/ HTTP/1.1" 200 6554 "-" "Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"
另有 larbin,iearthworm,yodaoice,lanshanbot,Outfoxbot 等等一堆,到網路上徵信一下,這些通通不是什麼好東西,還有一個 WebClipping.com 不知是好人壞人…
碰到這種網路流氓,說實在的也沒什麼積極的辦法,不能叫網路警察把它捉起來...不過消極的辦法還是有的,把網站門戶看好 — Apache
可以擋住特定 IP,但因為 robots 大多有多重 IP,過濾壞蛋的姓名比較有效,可以用 BrowserMatchNoCase
來過濾,用法像是:
Order allow,deny
Allow from all
BrowserMatchNoCase "iaskspider" badguy
BrowserMatchNoCase "QihooBot" badguy
BrowserMatchNoCase "larbin" badguy
deny from env=badguy
如此,它們就會收到 Apache 丟回 403 碼:Forbidden
但是,有些更沒品的還會隱姓埋名,不敢用真面目見人的…
用 Apache 拒絕網路流氓的騷擾
用 Apache 和 Subversion 搭建安全的版本控制环境
流氓!真的是流氓
APACHE服务器的配置方
会写诗的流氓
中国流氓的精神分析
流氓的历史
集大成的流氓术语
流氓政府的性质
集成的流氓术语
流氓的泡妞哲学
Android:Google的阳谋和Apache Harmony
apache开启.htaccess及.htaccess的使用方法
Ubuntu Linux Apache虚拟主机的安装配置
Apache fastcgi mysql服务器的配置实例
中国的爱国流氓和日本的爱国流氓
学学流氓的“泼皮哲学”
我的高學歷流氓老爸
关于“流氓”的北信源
宋江的流氓传奇
***宿舍的流氓舍记
美国:流氓国家的典范
集大成的流氓术语2
我的高學歷流氓老爸