robots.txt作為所有搜索引擎共同遵循的規則協議書,當搜索引擎蜘蛛爬行站點時先檢測網站有無robots其次依照robots規則范圍進行爬行,如果沒有robots.txt,那么蜘蛛就會沿著鏈接抓取。
請牢牢記住:robots.txt必須放置在站點的根目錄下,而且文件名必須全部小寫。Disallow后面的冒號必須為英文狀態的。
我們先來理解User-agent和Disallow的定義。
User-agent:該項用于描述搜索引擎蜘蛛的名字。(1)規定所有蜘蛛:User-agent:*;(2)規定某一個蜘蛛:User-agent:BaiduSpider。
Disallow:該項用于描述不希望被抓取和索引的一個URL,這個URL可以是一條完整的路徑。這有幾種不同定義和寫法:(1)Disallow:/AAA.net,任何以域名+Disallow描述的內容開頭的URL均不會被蜘蛛訪問,也就是說以AAA.net目錄內的文件均不會被蜘蛛訪問;(2)Disallow:/AAA.net/則允許robots抓取和索引AAA.net/index.html,而不能抓取和索引AAA.net/admin.html;(3)如果Disallow記錄為空,說明該網站的所有部分都允許被訪問。在robots.txt文件中,至少應有Disallow記錄,如果robots.txt為空文件,則對所有的搜索引擎robot來說,該網站都是開放的。
1、國內建站需要用到的常見搜索引擎robot的名稱。
有時候我們覺得網站訪問量(IP)不多,但是網站流量為什么耗的快?有很多的原因是垃圾(沒有)蜘蛛爬行和抓取消耗的。而網站要屏蔽哪個搜索引擎或只讓哪個搜索引擎收錄的話,首先要知道每個搜索引擎robot的名稱。
2、robots.txt文件基本常用寫法:
首先,你先建一個空白文本文檔(記事本),然后命名為:robots.txt。
(1)禁止所有搜索引擎訪問網站的任何部分。
User-agent: *
Disallow: /
(2)允許所有的robots訪問,無任何限制。
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
還可以建立一個空文件robots.txt或者不建立robots.txt。
(3)僅禁止某個搜索引擎的訪問(例如:百度baiduspider)
User-agent: BaiduSpider
Disallow:/
(4)允許某個搜索引擎的訪問(還是百度)
User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /
這里需要注意,如果你還需要允許谷歌bot,那么也是在“User-agent: *”前面加上,而不是在“User-agent: *”后面。
(5)禁止Spider訪問特定目錄和特定文件(圖片、壓縮文件)。
User-agent: *
Disallow: /AAA.net/
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$
這樣寫之后,所有搜索引擎都不會訪問這2個目錄。需要注意的是對每一個目錄必須分開說明,而不要寫出“Disallow:/AAA.net/ /admin/”。
3、robots特殊參數(這一部分不熟者不要輕易使用)
(1)Allow
Allow與Disallow是正好相反的功能,Allow行的作用原理完全與Disallow行一樣,所以寫法是一樣的,只需要列出你要允許的目錄或頁面即可。
Disallow和Allow可以同時使用,例如,需要攔截子目錄中的某一個頁面之外的其他所有頁面,可以這么寫:
User-agent: *
Disallow: /AAA.net/
Allow: /AAA.net/index.html
這樣說明了所有蜘蛛只可以抓取/AAA.net/index.html的頁面,而/AAA.net/文件夾的其他頁面則不能抓取,還需要注意以下錯誤的寫法:
User-agent: *
Disallow: /AAA.net
Allow: /AAA.net/index.html
原因請看上面Disallow值的定義說明。
(2)使用“*”號匹配字符序列。
例1.攔截搜索引擎對所有以admin開頭的子目錄的訪問,寫法:
User-agent: *
Disallow: /admin*/
例2.要攔截對所有包含“?”號的網址的訪問,寫法:
User-agent: *
Disallow: /*?*
(3)使用“$”匹配網址的結束字符
例1.要攔截以.asp結尾的網址,寫法:
User-agent: *
Disallow:/*.asp$
例2.如果“:”表示一個會話ID,可排除所包含該ID的網址,確保蜘蛛不會抓取重復的網頁。但是,以“?”結尾的網址可能是你要包含的網頁版本,寫法:
User-agent: *
Allow: /*?$
Disallow: /*?
也就是只抓取.asp?的頁面,而.asp?=1,.asp?=2等等都不抓取。
4、網站地圖(sitemap)
對于提交網站地圖,我們可以到谷歌站長工具提交,也可以用robots.txt文件中提示蜘蛛抓取:
sitemap:AAA.net/sitemaps.xml
5、robots.txt的好處與壞處(解決方法)。
好處:
(1)有了robots.txt,spider抓取URL頁面發生錯誤時則不會被重定向至404處錯誤頁面,同時有利于搜索引擎對網站頁面的收錄。
(2)robots.txt可以制止我們不需要的搜索引擎占用服務器的寶貴寬帶。
(3)robots.txt可以制止搜索引擎對非公開的爬行與索引,如網站的后臺程序、管理程序,還可以制止蜘蛛對一些臨時產生的網站頁面的爬行和索引。
(4)如果網站內容由動態轉換靜態,而原有某些動態參數仍可以訪問,可以用robots中的特殊參數的寫法限制,可以避免搜索引擎對重復的內容懲罰,保證網站排名不受影響。
壞處:
(1)robots.txt輕松給黑客指明了后臺的路徑。
解決方法:給后臺文件夾的內容加密,對默認的目錄主文件inde.html改名為其他。
(2)如果robots.txt設置不對,將導致搜索引擎不抓取網站內容或者將數據庫中索引的數據全部刪除。
User-agent: *
Disallow: /
這一條就是將禁止所有的搜索引擎索引數據。
數字營銷人員和搜索引擎優化專業人士都應該知道搜索引擎索引的重要性,這正是他們盡力幫助各大搜索引擎正確抓取并索引其網站,并將時間和資源投入到頁內和頁外優化(如內容,鏈接,標簽,元描述,圖像優化,網站結構等)的原因。
但是,雖然不排除高級網站優化是搜索成功的基礎,但忘記搜索引擎優化的技術部分可能是一個嚴重的錯誤。如果您從未聽說過有關robots.txt,機器人標簽,XML站點地圖,微格式和X-Robot標簽的信息,則可能會遇到麻煩。
不過,請不要驚慌。在本文中,我將解釋如何使用和設置robots.txt標簽。我也會提供幾個實際的例子。開始吧!
什么是robots.txt?
robots.txt是一個文本文件,用于指示搜索引擎機器人(也稱為抓取工具,機器人或蜘蛛)如何抓取和索引網站頁面。理想情況下,robots.txt文件放置在您網站的頂級目錄中,以便機器人可以立即訪問其說明。
為了將命令傳達給不同類型的搜索爬蟲,robots.txt文件必須遵循機器人排除協議(REP)中的特定標準,該協議于1994年創建,然后在1996年,1997年和2005年大幅擴展。
縱觀他們的歷史,robots.txt文件已經逐漸改進,以支持特定的抓取工具指令,URI模式擴展,索引指令(也稱為REP標簽或機器人元標簽)以及微格式rel=“nofollow”。
由于robots.txt文件為搜索漫游器提供了關于如何抓取或如何不抓取本網站或該部分網站的指導,因此了解如何使用和設置這些文件非常重要。如果robots.txt文件設置不正確,可能會導致多個索引錯誤。所以,每次你開始一個新的SEO活動時,請使用手動檢查你的robots.txt文件。
不要忘記:如果一切正常,robots.txt文件將加快索引過程。
用robots.txt隱藏
robots.txt文件可用于從搜索中排除某些目錄,類別和頁面。為此,請使用“disallow”指令。
以下是一些您應該使用robots.txt文件隱藏的頁面:
包含重復內容的網頁
分頁頁面
動態產品和服務頁面
帳戶頁面
管理頁面
購物車
聊天
基本上,它看起來像這樣:
在上面的示例中,我指示避免對用戶帳戶,購物車和用戶在搜索欄中查找產品或按價格排序時生成的多個動態頁面的所有頁面進行爬網和索引,等等。
但是,請不要忘記,任何robots.txt文件都可以在網上公開獲得。要訪問robots.txt文件,只需輸入:
www.simcf.cc/robots.txt(替換自己的域名即可);
此可用性意味著您無法保護或隱藏其中的任何數據。此外,惡意機器人和惡意抓取工具可以利用robots.txt文件,將其用作詳細地圖來瀏覽最有價值的網頁。
另外,請記住,robots.txt命令實際上是指令。這意味著即使您指示他們不要,搜索漫游器也可以抓取您的網站并將其編入索引。好消息是,大多數搜索引擎(如百度、360、Google、Bing、Yahoo和Yandex)都會遵守robots.txt指令。
robots.txt文件肯定有缺點。盡管如此,我強烈建議您將它們作為每個SEO活動的組成部分。各大搜索引擎承認并遵守robots.txt指令,并且在大多數情況下,讓搜索引擎承擔您的責任已經足夠了。
如何使用Robots.txt
Robots.txt文件非常靈活,可以以多種方式使用。然而,他們的主要好處是可以讓SEO專家一次性“允許”或“禁止”多個頁面,而無需逐一訪問每個頁面的代碼。
例如,您可以阻止來自內容的所有搜索抓取工具。喜歡這個:
用戶代理: *
不允許: /
或隱藏您網站的目錄結構和特定類別,如下所示:
用戶代理: *
禁止:/ no-index /
從搜索中排除多個頁面也很有用。只需解析您想要從搜索抓取工具中隱藏的網址。然后,在您的robots.txt中添加“disallow”命令,列出這些URL,并且,瞧!?– 各大搜索引擎不再顯示這些網頁。
但更重要的是,robots.txt文件允許您優先考慮某些頁面,類別,甚至是CSS和JS代碼。看看下面的例子:
在這里,我們不允許使用WordPress頁面和特定類別,但是允許使用wp-content文件,JS插件,CSS樣式和博客。這種方法可以保證蜘蛛抓取并索引有用的代碼和類別。
還有一件重要的事情:robots.txt文件是您的sitemap.xml文件的可能位置之一。它應放置在用戶代理,禁止,允許和主機命令之后。喜歡這個:
注意:您還可以將您的robots.txt文件手動添加到站長管理平臺,并且如果您的目標是百度站長工具。這是一種更安全的方法,因為這樣做可以保護您的內容免受競爭對手網站的網站管理員的影響。
盡管robots.txt結構和設置非常簡單,但正確設置的文件可以制作或打破您的SEO活動。小心使用設置:您可以輕易“不允許”整個網站,然后等待流量和客戶無濟于事。
結論
搜索引擎優化不僅僅是關鍵字,鏈接和內容。SEO的技術部分也很重要。事實上,它可以為您的整個數字營銷活動帶來不同。因此,請盡快學習如何正確使用和設置robots.txt文件協議。我希望我在本文中描述的做法和建議能夠指導您順利完成這一過程。
上一篇:做網站地圖需要注意的6個方面
下一篇:什么是關鍵詞,怎么找關鍵詞