中国白嫩的18sex少妇hd,色网av,欧美黄色三级,一本色道久久88综合日韩精品

滄州seo搜索引擎如何索引頁面

  今天互聯網上有大約3.5億個注冊域名,數十億個子域名和數萬億個不同的網頁。搜索引擎收集這些頁面包含的所有文本,將數百萬臺專業計算機組合成所謂的搜索引擎蜘蛛,下載所有可以訪問的網頁,解析這些頁面的內容,并將它們存儲在遍布整個網絡的大型數據庫中。

  然后,他們的任務是獲取存儲在這些數據庫中的所有內容,并找到使用它來對與用戶按相關性排序的任何可能的關鍵字或短語匹配的網頁進行排名的方法。

  解析網頁的內容

  搜索引擎試圖從人類用戶的角度查看網頁,但在確定頁面的內容時必須推斷出頁面上的哪些單詞或短語最為重要。網頁包含HTML標記,并且在根據諸如字體大小,頁面上的位置和字體可讀性等因素進行索引時,網頁上的術語可以被賦予更多權重。

  網頁還可以指定內容所在的語言,但是大多數搜索引擎現在能夠執行語言識別以自動確定網頁的語言。此外,頁面上出現的術語可能會受到稱為詞干的過程,該過程采用“戰斗力”,“戰斗”和“戰斗機”之類的術語,并將其縮減為“戰斗”的詞干。

  創建倒置索引

  大多數搜索引擎使用倒排索引來存儲網頁內容。考慮倒排索引如何存儲和處理所有內容的方法是將搜索引擎的索引視為教科書背面的索引。書的索引包含書中使用的單詞列表及其出現的頁面(例如:生物書的索引可能包含滲透作用:65,573-578,654,以便讓您知道“滲透”這個詞在那些頁碼)。如果您要列出所有網頁上顯示的所有唯一字詞列表,則該列表將比所有網頁的內容長度小得多,因為大多數字詞都顯示在多個網頁上。

  存儲數十億的關鍵詞和短語

  搜索互聯網上顯示的所有唯一術語列表比搜索所有網頁的完整內容要快得多,但該列表仍然太大,無法用于將網站與顯示在上面的關鍵字進行實時匹配。對此的解決方案是將網頁的內容存儲為具有n個長度的子串的n?-gram,并且大多數搜索引擎可能使用三元組來執行此操作。文檔的三元組表示形式是將該文檔分解為其所有3個字符組合,例如:

  “毛衣”={?swe,wea,eat,ate,ter?}

  由于一個術語可以包含26個字母,10個數字和~10個符號的任意組合,所以可以存在的唯一三元組的總數是(26 + 10 + 10)^ 3,等于97,336,創建一個明顯更小的術語列表實時搜索,而不是互聯網上所有獨特術語的列表,這些術語將在數千億中。

  優化重要關鍵字的內容

  為了確保網頁顯示在為給定關鍵字返回的結果列表中,您可以做的最重要的事情是將該關鍵字放在頁面上的可見位置,然后在頁眉中使用它,元信息,頁面的標題,以及相關上下文中的正文文本。

  可能影響搜索引擎如何確定術語在頁面上的相關性的其他因素是該術語出現的頻率,逆文檔頻率和長度歸一化等。

收藏
0
有幫助
0
沒幫助
0