lulu1305174
2006-07-02, 01:10 PM
這是我在YAHOO搜尋找搜尋機器人時發現的文章
看了這幾天log的某個數字差點昏倒
今天回家後,花了一點時間看了一下這幾天網站的log報表,看到某個數字差點昏倒。
有一個使用者,他居然下載了高達1GB多的資料,創造了7萬多次的hits。
到底是誰?61.135.145.208這個IP到底是誰的?= =
透過APNIC查,IP是在中國北京沒錯,可是所屬單位中國網通實在是看不出來為什麼要下載那麼多資料。
只好上網找找看,結果好像是中國最大搜尋引擎百度的搜尋機器人。可是我還是不知道為什麼它要讀取那麼多資料,真的是超怪。網路上好像也有很多使用者碰到這個問題,同樣是機器人,為什麼yahoo、google的就不會這樣呢?
我再繼續自己網站看log報表中有關機器人的資料,Yahoo! Slurp搜尋機器人來訪的次數最高,與自己上次看的資料一致,但第二名就從Googlebot變成Baiduspider了,而MSN Robot從第四名升到第三名,Googlebot讀取本站的次數掉到第四名。
這樣的結果,只能說Yahoo、百度他們很拼命吧,要把搜尋做得更好些。
我看中國的百度
論起百度,中國都會說這是中文搜尋門戶網站的龍頭,在中國是超越Google的search engine。本來之前就想抱怨一下百度的,因為它的搜尋機器人讓我很火,不過因為我不是百度的日常用戶與主要觸及的族群,故隱忍不發。
日前瞥見互連網上有人評論百度的事情,既然有人起了頭,就跟吧。
我用百度來搜尋一些關鍵字,同樣會碰到一堆廣告為主的結果,真正要的東西往往不會是在前面的地方。Google確實在這方面就好很多,讓人很清楚知道哪些是廣告,雖然有些關鍵字還是會有廣告成分較高的網頁連結在前面,但只要關鍵字運用得體,還是很快能找到自己要的結果。
百度另一個問題是它的搜尋機器人。對搜尋引擎網站而言,網頁搜尋機器人能夠幫助它們建立各網站的索引檔案,讓使用者搜尋時能夠搜尋到。但百度的機器人逛過我的網站後,即便是某些網頁已經移除了,它還會持續不斷地找,嘗試著去訪問不存在的路徑。Google的搜尋機器人GoogleBot就比較沒這問題,很少有嘗試連接不存在頁面的情形,它會自己將不存在連結移自下次的索引。
百度抓取網頁資料的頻率很高,固然可以達到索引量大的結果,但會對一般網站造成負擔。有時候我發現伺服器的頻寬和處理時間,在每天的特定時刻,都是被自動搜尋機器人給吃掉的。
曾經,我萌生了把百度機器人排除在外的念頭,但後來想想這樣百度的用戶搜尋不到我的網頁索引,就有點猶豫。也許,禁止百度的機器人瀏覽,或許對網站會更好呢。
禁止中國百度存取
剛剛網站突然變得非常慢,伺服器效能都被吃掉了,發現又是該死的中國百度搜尋機器人baiduspider,這個惡名昭彰的robot同時大量在存取不同的頁面。
我覺得之前禁止百度機器人造訪沒什麼用,火大就把中國百度所有的IP通通檔掉。
我要叫所有朋友的大小網站把中國百度通通封鎖起來!
如果不想被讓百度蜘蛛這個機器人索引你網站的網頁,加上這一段即可:
User-agent: baiduspider
Disallow: /
贊助商連結
看了這幾天log的某個數字差點昏倒
今天回家後,花了一點時間看了一下這幾天網站的log報表,看到某個數字差點昏倒。
有一個使用者,他居然下載了高達1GB多的資料,創造了7萬多次的hits。
到底是誰?61.135.145.208這個IP到底是誰的?= =
透過APNIC查,IP是在中國北京沒錯,可是所屬單位中國網通實在是看不出來為什麼要下載那麼多資料。
只好上網找找看,結果好像是中國最大搜尋引擎百度的搜尋機器人。可是我還是不知道為什麼它要讀取那麼多資料,真的是超怪。網路上好像也有很多使用者碰到這個問題,同樣是機器人,為什麼yahoo、google的就不會這樣呢?
我再繼續自己網站看log報表中有關機器人的資料,Yahoo! Slurp搜尋機器人來訪的次數最高,與自己上次看的資料一致,但第二名就從Googlebot變成Baiduspider了,而MSN Robot從第四名升到第三名,Googlebot讀取本站的次數掉到第四名。
這樣的結果,只能說Yahoo、百度他們很拼命吧,要把搜尋做得更好些。
我看中國的百度
論起百度,中國都會說這是中文搜尋門戶網站的龍頭,在中國是超越Google的search engine。本來之前就想抱怨一下百度的,因為它的搜尋機器人讓我很火,不過因為我不是百度的日常用戶與主要觸及的族群,故隱忍不發。
日前瞥見互連網上有人評論百度的事情,既然有人起了頭,就跟吧。
我用百度來搜尋一些關鍵字,同樣會碰到一堆廣告為主的結果,真正要的東西往往不會是在前面的地方。Google確實在這方面就好很多,讓人很清楚知道哪些是廣告,雖然有些關鍵字還是會有廣告成分較高的網頁連結在前面,但只要關鍵字運用得體,還是很快能找到自己要的結果。
百度另一個問題是它的搜尋機器人。對搜尋引擎網站而言,網頁搜尋機器人能夠幫助它們建立各網站的索引檔案,讓使用者搜尋時能夠搜尋到。但百度的機器人逛過我的網站後,即便是某些網頁已經移除了,它還會持續不斷地找,嘗試著去訪問不存在的路徑。Google的搜尋機器人GoogleBot就比較沒這問題,很少有嘗試連接不存在頁面的情形,它會自己將不存在連結移自下次的索引。
百度抓取網頁資料的頻率很高,固然可以達到索引量大的結果,但會對一般網站造成負擔。有時候我發現伺服器的頻寬和處理時間,在每天的特定時刻,都是被自動搜尋機器人給吃掉的。
曾經,我萌生了把百度機器人排除在外的念頭,但後來想想這樣百度的用戶搜尋不到我的網頁索引,就有點猶豫。也許,禁止百度的機器人瀏覽,或許對網站會更好呢。
禁止中國百度存取
剛剛網站突然變得非常慢,伺服器效能都被吃掉了,發現又是該死的中國百度搜尋機器人baiduspider,這個惡名昭彰的robot同時大量在存取不同的頁面。
我覺得之前禁止百度機器人造訪沒什麼用,火大就把中國百度所有的IP通通檔掉。
我要叫所有朋友的大小網站把中國百度通通封鎖起來!
如果不想被讓百度蜘蛛這個機器人索引你網站的網頁,加上這一段即可:
User-agent: baiduspider
Disallow: /
贊助商連結