搜索引擎的目的是從互聯網上可用資源的龐大數據庫中提取所請求的信息,搜索引擎成為日常的重要工具,用于查找所需信息,而無需知道存儲的確切位置。有不同類型的搜索引擎可以獲取您正在尋找的信息。
不同類型的搜索引擎,搜索引擎根據其工作原理分為以下三類。
1.基于爬蟲的搜索引擎
所有基于爬蟲的搜索引擎都使用爬蟲或機器人或蜘蛛來抓取新內容并將其編入索引數據庫,有四個基本步驟。
1.1:爬行
搜索引擎抓取整個網絡以獲取可用的網頁,一個名為crawler或bot或spider?的軟件可以執行整個Web的爬網。抓取頻率取決于搜索引擎,抓取間隔可能需要幾天時間。這就是有時您可以在搜索結果中看到舊的或已刪除的頁面內容的原因。一旦搜索引擎再次抓取您的網站,搜索結果就會顯示新的更新內容。
1.2:索引
索引是爬網后的下一步,這是識別能描述頁面的單詞和表達式的過程。所識別的單詞被稱為關鍵字,并且頁面被分配給所識別的關鍵字。有時,當抓取工具無法理解網頁的含義時,您的網站可能會在搜索結果中排名較低。在這里,您需要針對搜索引擎抓取工具優化網頁,以確保內容易于理解。一旦抓取工具提取正確的關鍵字,網頁就會被分配到這些關鍵字并在搜索結果中排名靠前。
1.3:計算相關性
搜索引擎將搜索請求中的搜索字符串與數據庫中的索引頁面進行比較。由于可能有多個頁面包含搜索字符串,因此搜索引擎開始計算其索引中每個頁面與搜索字符串的相關性。
1.4:檢索結果
搜索引擎活動的最后一步是檢索結果。基本上,它只是按順序在瀏覽器中顯示。搜索引擎按照最相關的順序對搜索結果的無限頁面進行排序。
2.人力資源目錄
人力目錄也稱為開放目錄系統,取決于基于人類的列表活動。以下是人力資源目錄中索引的工作原理:
站點所有者向目錄提交站點的簡短描述以及要列出的類別。
然后手動審查提交的網站并將其添加到適當的類別中。
在搜索框中輸入的關鍵字將與網站的描述相匹配,這意味著不考慮對網頁內容所做的更改,因為它只是關于描述。
雅虎目錄和DMOZ是人力資源目錄的示例。不幸的是,像Google這樣的自動搜索引擎將所有這些人性化的目錄式搜索引擎從網絡中刪除了。
3.混合搜索引擎
混合搜索引擎使用基于爬蟲和手動索引的方式在搜索結果中列出網站。大多數基于爬蟲的搜索引擎(如谷歌)基本上都使用爬蟲作為主要機制,將人力驅動目錄作為輔助機制。例如,Google可以從人力資源目錄中獲取網頁的描述并顯示在搜索結果中。隨著人力資源目錄的消失,混合類型正在成為越來越多基于爬蟲的搜索引擎。
4.其他類型的搜索引擎
除了上述三種主要類型之外,搜索引擎可以根據用途分為許多其他類別。以下是一些示例:
搜索引擎具有不同類型的機器人,用于專門顯示圖像,視頻,新聞,產品和本地列表。例如,百度新聞頁面可用于僅搜索來自不同新聞源站點的新聞。
一些像Dogpile這樣的搜索引擎從其他搜索引擎和目錄中收集頁面的元信息,以顯示在搜索結果中,這種類型的搜索引擎稱為元搜索引擎。
像Swoogle這樣的語義搜索引擎通過了解搜索查詢的上下文含義,在特定區域提供準確的搜索結果。
結論
在互聯網的早期階段,人力搜索引擎是流行的重要信息來源。技術世界正朝著自動化和人工智能的方向發展,像谷歌和百度這樣擁有熱門搜索引擎的大型科技公司正在推動這一變革并從中獲益。
沒有一個人力搜索引擎能夠在這種快速轉變中幸存下來。雖然人們使用非常小規模的專用搜索引擎,但在這個時間點,基于人工或基于爬蟲的搜索引擎充當信息的主要來源,而人為干預最少。
上一篇:搜索引擎優化seo的五大基礎知識
下一篇:Google特色片段優化指南