‹‹ 上一主題 打印 下一主題 ›› 什麼是robots.txt和Robots META標籤【中集】

 

palada

新手上路
Rank: 1

發表於 2008-11-28 23:14 | 1# TOP 只看該作者

什麼是robots.txt和Robots META標籤【中集】





任何一條Disallow記錄為空,說明該網站的所有部分都允許被訪問,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果 「/robots.txt"是一個空文件,則對於所有的搜尋引擎robot,該網站都是開放的。

下面是一些robots.txt基本的用法:

l 禁止所有搜尋引擎訪問網站的任何部分:

User-agent: *
Disallow: /

l 允許所有的robot訪問
User-agent: *
Disallow:
或者也可以建一個空文件 「/robots.txt」 file


l 禁止所有搜尋引擎訪問網站的幾個部分(下例中的cgi-bin、tmp、private目錄)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/


l 禁止某個搜尋引擎的訪問(下例中的BadBot)
User-agent: BadBot
Disallow: /


l 只允許某個搜尋引擎的訪問(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /


3、 常見搜尋引擎機器人Robots名字

名稱 搜尋引擎
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com

4、 robots.txt舉例
下面是一些著名站點的robots.txt:
http://www.cnn.com/robots.txt
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt


5、 常見robots.txt錯誤

l 顛倒了順序:
錯誤寫成
User-agent: *
Disallow: GoogleBot

正確的應該是:
User-agent: GoogleBot
Disallow: *


l 把多個禁止命令放在一行中:
例如,錯誤地寫成
Disallow: /css/ /cgi-bin/ /images/


正確的應該是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/


文章原創:拍樂得數位行銷有限公司
本公司專精於網路行銷、關鍵字seo、seo優化教學顧問服務、各種應用軟體的設計開發
有需要的朋友,洽詢電話:02-2368-8183 0966-350-390 麥克先生
MSN:palada168@yahoo.com.tw
e-mail:palada168@yahoo.com.tw