PCZONE 討論區  遠傳 Seednet 2010 學生方案 終身優惠價 遠傳大寬頻半價方案  
PCZONE 版規 帳號無法發言?
首頁 註冊 個人設定 悄悄話 搜尋文章 最新文章 今日所有文章 會員登出

返回   PCZONE 討論區 > ▲ ADSL_CABLE_FTTH 寬 頻 上 網 討 論 > -- 網站架設 / 免費空間 / 虛擬主機 專區 > ☉ -- 虛 擬 主 機 討 論 版

☉ -- 虛 擬 主 機 討 論 版 付費虛擬主機選擇與使用心得交流。

回覆
 
主題工具 搜尋本主題
舊 2006-07-02, 01:10 PM   #1
會員
 
lulu1305174 的大頭照
 
註冊日期: 2003-06-07
住址: SEEDNET 2M/256K ADSL
文章: 647
lulu1305174
寄送 MSN 訊息給 lulu1305174 寄送 Yahoo! 訊息給 lulu1305174
【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

這是我在YAHOO搜尋找搜尋機器人時發現的文章
看了這幾天log的某個數字差點昏倒

今天回家後,花了一點時間看了一下這幾天網站的log報表,看到某個數字差點昏倒。

有一個使用者,他居然下載了高達1GB多的資料,創造了7萬多次的hits。

到底是誰?61.135.145.208這個IP到底是誰的?= =
透過APNIC查,IP是在中國北京沒錯,可是所屬單位中國網通實在是看不出來為什麼要下載那麼多資料。

只好上網找找看,結果好像是中國最大搜尋引擎百度的搜尋機器人。可是我還是不知道為什麼它要讀取那麼多資料,真的是超怪。網路上好像也有很多使用者碰到這個問題,同樣是機器人,為什麼yahoo、google的就不會這樣呢?

我再繼續自己網站看log報表中有關機器人的資料,Yahoo! Slurp搜尋機器人來訪的次數最高,與自己上次看的資料一致,但第二名就從Googlebot變成Baiduspider了,而MSN Robot從第四名升到第三名,Googlebot讀取本站的次數掉到第四名。

這樣的結果,只能說Yahoo、百度他們很拼命吧,要把搜尋做得更好些。


我看中國的百度
論起百度,中國都會說這是中文搜尋門戶網站的龍頭,在中國是超越Google的search engine。本來之前就想抱怨一下百度的,因為它的搜尋機器人讓我很火,不過因為我不是百度的日常用戶與主要觸及的族群,故隱忍不發。

日前瞥見互連網上有人評論百度的事情,既然有人起了頭,就跟吧。

我用百度來搜尋一些關鍵字,同樣會碰到一堆廣告為主的結果,真正要的東西往往不會是在前面的地方。Google確實在這方面就好很多,讓人很清楚知道哪些是廣告,雖然有些關鍵字還是會有廣告成分較高的網頁連結在前面,但只要關鍵字運用得體,還是很快能找到自己要的結果。

百度另一個問題是它的搜尋機器人。對搜尋引擎網站而言,網頁搜尋機器人能夠幫助它們建立各網站的索引檔案,讓使用者搜尋時能夠搜尋到。但百度的機器人逛過我的網站後,即便是某些網頁已經移除了,它還會持續不斷地找,嘗試著去訪問不存在的路徑。Google的搜尋機器人GoogleBot就比較沒這問題,很少有嘗試連接不存在頁面的情形,它會自己將不存在連結移自下次的索引。

百度抓取網頁資料的頻率很高,固然可以達到索引量大的結果,但會對一般網站造成負擔。有時候我發現伺服器的頻寬和處理時間,在每天的特定時刻,都是被自動搜尋機器人給吃掉的。

曾經,我萌生了把百度機器人排除在外的念頭,但後來想想這樣百度的用戶搜尋不到我的網頁索引,就有點猶豫。也許,禁止百度的機器人瀏覽,或許對網站會更好呢。

禁止中國百度存取
剛剛網站突然變得非常慢,伺服器效能都被吃掉了,發現又是該死的中國百度搜尋機器人baiduspider,這個惡名昭彰的robot同時大量在存取不同的頁面。

我覺得之前禁止百度機器人造訪沒什麼用,火大就把中國百度所有的IP通通檔掉。
我要叫所有朋友的大小網站把中國百度通通封鎖起來!
如果不想被讓百度蜘蛛這個機器人索引你網站的網頁,加上這一段即可:
User-agent: baiduspider
Disallow: /


lulu1305174 目前未上線   回覆時引用此篇文章
舊 2006-07-02, 01:27 PM   #2
拉登長官
 
dou0228 的大頭照
 
註冊日期: 2002-08-26
住址: 2M/256K
文章: 1,075
dou0228 有著人盡皆知的貢獻和榮耀dou0228 有著人盡皆知的貢獻和榮耀dou0228 有著人盡皆知的貢獻和榮耀dou0228 有著人盡皆知的貢獻和榮耀dou0228 有著人盡皆知的貢獻和榮耀dou0228 有著人盡皆知的貢獻和榮耀dou0228 有著人盡皆知的貢獻和榮耀
回覆: 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

加那個是沒有用的, 百度一樣會 search

檔住 User-Agent BaiDuSpider 吧
__________________
O/S: XPro SP2;Gentoo 05-r1;F-BSD 5.4/N-BSD 2.0.2
替代役第一梯次, 矯正役笨蛋
Bug !?
Red Hat 技術支援的改變引起眾怒_原文出處
echo $(echo 4jp022f@n5549i5o9or | tr 0-9a-z 0-3d-l6-9m-w4-5) | tr i .
就讓 LP 去耍, 我們好在旁邊笑
QoS 沒中文資料!?
dou0228 目前未上線   回覆時引用此篇文章
舊 2006-07-02, 01:45 PM   #3
會員
 
cappella 的大頭照
 
註冊日期: 2001-02-12
住址: MODEM 14400
文章: 624
cappella
回覆: 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

請問 IIS 的 網站
要怎麼來擋 這個
__________________
cappella 目前未上線   回覆時引用此篇文章
舊 2006-07-02, 02:52 PM   #4
會員
 
JXPC 的大頭照
 
註冊日期: 2001-12-04
住址: ADSL 2M/256K
文章: 38
JXPC 正向著好的方向發展
回覆: 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

百x的豬豬人是和其他搜尋(如SOxGU、Yxhoo.cn)引擎一樣非常沒有禮貌的
即使有ROBOTS.TXT,照樣狂抓。

目前除了消極封鎖其整個網段IP外,還有一種阻擋方式供參考。
http://twntwn.info/blog/ajer001/archives/931
http://blog.gslin.org/archives/2006/02/26/416/

而GOOGLE的豬豬人就值得稱讚了。
因為當它看到ROBOTS.TXT時,就會禮貌性的迴避。

目前小弟會檢視虛擬主機的紀錄,如果一個IP來拜訪時發現它只有看REBOTS.TXT或是識別不明,通常都會拒絕該網段。

此篇文章於 2006-07-06 10:42 PM 被 JXPC 編輯。
JXPC 目前未上線   回覆時引用此篇文章
舊 2006-07-02, 08:41 PM   #5
會員
 
lulu1305174 的大頭照
 
註冊日期: 2003-06-07
住址: SEEDNET 2M/256K ADSL
文章: 647
lulu1305174
寄送 MSN 訊息給 lulu1305174 寄送 Yahoo! 訊息給 lulu1305174
回覆: 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

再沒用就封鎖百度的IP網段。
lulu1305174 目前未上線   回覆時引用此篇文章
舊 2006-07-03, 08:22 AM   #6
會員
 
註冊日期: 2005-08-02
文章: 5
checko 正向著好的方向發展
回覆: 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

其實不用這麼麻煩啦,
在內容寫一些 法X功,自游,民煮 之類的 ,GFW 就會自動把你擋下來了。
checko 目前未上線   回覆時引用此篇文章
舊 2006-07-03, 09:07 AM   #7
會員
 
lulu1305174 的大頭照
 
註冊日期: 2003-06-07
住址: SEEDNET 2M/256K ADSL
文章: 647
lulu1305174
寄送 MSN 訊息給 lulu1305174 寄送 Yahoo! 訊息給 lulu1305174
回覆: 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

引用:
作者: checko
其實不用這麼麻煩啦,
在內容寫一些 法X功,自游,民煮 之類的 ,GFW 就會自動把你擋下來了。
我試過,中國國家防火牆大部分的正體字都不會擋,簡體字全擋。
lulu1305174 目前未上線   回覆時引用此篇文章
舊 2006-07-03, 10:07 AM   #8
會員
 
smallway 的大頭照
 
註冊日期: 2001-08-15
住址: SEEDNET ADSL 8M/640K
文章: 864
smallway
寄送 ICQ 訊息給 smallway 寄送 MSN 訊息給 smallway 寄送 Yahoo! 訊息給 smallway
回覆: 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

請問用windows系統架的apache要怎麼設定?
__________________
WinFast PX6600TD 在 3DMARK2000的結果:
http://www.smallway.idv.tw/share/Win...3DMARK2000.jpg
在 3DMARK2001的結果:
http://www.smallway.idv.tw/share/Win...3DMARK2001.jpg
在 3DMARK2003的結果:
http://www.smallway.idv.tw/share/Win...3DMARK2003.jpg
smallway 目前未上線   回覆時引用此篇文章
舊 2006-07-06, 10:28 PM   #9
會員
 
註冊日期: 2006-04-19
住址: 1M
文章: 9
kyo73113 正向著好的方向發展
回覆: 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

請問那個.htaccess放在/var/www/html裡頭就可以了嗎


kyo73113 目前未上線   回覆時引用此篇文章
舊 2006-07-07, 04:18 AM   #10
會員
 
註冊日期: 2002-06-10
文章: 74
ismile 正向著好的方向發展
回覆: 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

可以看看這篇
http://www.baidu.com/search/spider.htm

如果有用 mod_security, 可以加
SecFilterSelective "HTTP_USER_AGENT" "Baiduspider"
__________________
iSmile 虛擬主機VPS
ismile 目前未上線   回覆時引用此篇文章
回覆



書籤

主題工具 搜尋本主題
搜尋本主題:

進階搜尋

發文規則
不可以發表新主題
不可以發表回覆
不可以上傳附加檔案
不可以編輯自己的文章

啟用 BB 語法
論壇啟用 表情符號
論壇啟用 [IMG] 語法
論壇禁用 HTML 語法



所有時間均為台北時間。現在的時間是 10:45 PM


 XML   RSS 2.0   RSS 
本站使用 vBulletin 合法版權程式
站務信箱 : www@pczone.com.tw

本論壇所有文章僅代表留言者個人意見,並不代表本站之立場,討論區以「即時留言」方式運作,故無法完全監察所有即時留言,若您發現文章可能有異議,請 email : www@pczone.com.tw 處理。