谷歌已經使用TF-IDF作為內容排名因素很長一段時間,因為搜索引擎似乎更關注術語頻率而不是而不是計算關鍵字。雖然算法的視覺復雜性可能會讓很多人失望,但重要的是要認識到理解TF-IDF并不像知道它如何工作那么重要。
搜索引擎使用TF-IDF來更好地理解被低估的內容。例如,如果您想在Google上搜索“可口可樂”一詞,Google就可以確定標題為“COKE”的頁面是關于:
a)可口可樂。
b)可卡因
c)源自原油蒸餾的固體富碳殘余物
d)德克薩斯州的一個縣
本文的目的是通過TF-IDF的未知主題指導所有內容編寫者和SEO專家。通過更好地了解Google如何利用此算法,內容編寫者可以對TF-IDF進行逆向工程,從而優化網站內容,使其更好地適用于用戶和搜索引擎。并且SEO可以將其用作搜索具有更高搜索量和相對較低競爭的關鍵字的工具。
TF-IDF是什么?
TF-IDF是一種信息檢索技術,它對術語的頻率(TF)和逆文檔頻率(IDF)進行加權。每個單詞或術語都有其各自的TF和IDF分數。術語的TF和IDF得分的乘積稱為該術語的TF-IDF權重。
簡而言之,TF-IDF得分(重量)越高,該術語越罕見,反之亦然。
TF-IDF算法用于權衡任何內容中的關鍵字,并根據該關鍵字在文檔中出現的次數指定該關鍵字的重要性。更重要的是,它會檢查關鍵字在整個網絡中的相關程度,即所謂的語料庫。
對于術語噸在文檔d,重量重量%,d的文件中術語d t通過下式給出:
Wt,d=TFt,d log(N / DFt)
哪里:
TFt,d是文檔d中t的出現次數。
DFt是包含術語t的文檔數。
N是語料庫中的文檔總數。
好吧。如果您感到頭痛,請不要驚慌。
讓我們更具體地定義它。
TF-IDF定義
單詞的TF(術語頻率)是文檔中單詞的頻率(即它出現的次數)。當你知道它時,你就可以看到你使用的術語是太多還是太少。
例如,當一個100字的文檔包含12次“cat”這個詞時,“cat”這個詞的TF就是
TFcat=12/100即0.12
單詞的IDF(逆文檔頻率)是該術語在整個語料庫中的重要程度的度量。
例如,假設術語“cat”在10,000,000,000文檔大小的語料庫(即web)中出現x次。假設有30萬個文檔包含術語“cat”,那么IDF(即log {DF})由文檔總數(10,000,000)除以包含術語“cat”的文檔數量(300,000) )。
IDF(cat)=log(10,000,000 / 300,000)=1.52
∴Wcat=(TF * IDF)cat=0.12 * 1.52=0.182
既然你想出了這個(對吧?),讓我們來看看這對你有什么好處。
如何使用TF-IDF獲益
收集話語。寫下你的內容,為您的單詞運行TF-IDF報告并獲取其權重。數值權重值越高,該項越少。重量越小,該術語越常見。比較所有具有高TF-IDF權重的術語與其在Web上的搜索量。選擇搜索量較高,競爭較慢的用戶。
一個好的經驗法則是,您的內容對用戶“有意義”越多,搜索引擎分配的權重就越大。對于內容中TF-IDF較高的單詞,您的內容將始終位于搜索結果中,因此您可以:
不要擔心使用停用詞,成功搜索具有更高搜索量和更低競爭力的詞匯,
請確保使用能使您的內容與用戶相關且與用戶相關的單詞等。
上一篇:SEO優化外包服務價格參考
下一篇:語義搜索的基礎知識