編者按:本月主題旨在探討數據與媒體中的內容關系,本文系《媒介雜志》4月號封面文章,全文深入淺出地剖析了數據與內容之間的關系,分為“數據與內容生產”、“數據與內容優化”以及“數據與內容市場”三部分。因原文較長,考慮到微信閱讀體驗,故分篇推送,本篇系“數據與內容優化”。當前媒體面臨怎樣的時代技術升級、場景變遷、產品迭代、社交遷徙......在這樣的環境下,昨天還只是寓居于想象的未來蜃景,今天能夠迅速具象為可感現實。但無論媒體產業如何發展、技術如何迭代,我們發現,“內容”始終是這條產業鏈中重要的一環。內容產業似乎從傳統時代走來,卻也被這個新的時代賦予了新的能量。所以,當前的內容運營者面對的似乎是一個既光怪陸離又一脈相承的時代,它似乎輕車熟路又遍地希望,卻也時常讓人充滿無力感與困惑。那內容行業該如何解決這份痛點目前,內容的概念包括得更加寬泛,除了常規意義上的新聞、劇集、圖片等,社交內容、廣告、搜索頁面、交互信息都是我們界定的整體內容行業所能涵蓋的范疇。而內容運營的智能化、數據化、程序化等發展的基礎也在于對數據的長期積累、挖掘和運用。那么,數據技術是否會成為未來內容行業中的執牛耳者數據究竟能為內容帶來什么我們需要從行業的實踐中找到方向。從有到優標簽與算法優化內容分發與管理監察如果說,數據工具在內容生產環節是提供素材渠道與模版,那么在生產的基礎上,在分發、管理等優化環節,數據就更加能大施拳腳。在從有到優的環節,生產專業性上的壁壘被打破,互聯網平臺涉入其中,通過其數據算法等的積累,為內容產業延伸出越來越豐富的優化管理平臺。分發精準化:數據標簽算法實現內容與人的匹配新聞推薦、社交推薦、廣告投放、文娛內容推薦、智能互動等方面,生產出來的內容如何更快速、精準地抵達讀者,又如何爭取讀者更多的注意力資源,是各大機構正在努力用技術革新回答的問題。其中以全球最大的社交平臺之一Facebook為例,Facebook借助算法收集用戶、企業等信息,調整用戶首頁展示內容,影響了用戶的在線行為習慣,甚至改變歐美新聞分發和社交媒體盈利的模式。Facebook也有自己的排序規則——FacebookEdgeRank。Facebook收集每位用戶發布的內容(包括分享的內容),關注好友的狀態更新,加入的群組,點贊、評論、分享等行為信息。根據權重(早期標準有:互動/親密度/時間等)對監測數據進行評級,展示信息流排名評級高的內容推送用戶,也即用戶最感興趣的內容。后來,Facebook在原來EdgeRank的基礎上,更加細致地定義了不同層級的親密度。用深度神經網絡理解圖片內容和文字內容,從而可以知道相片中的物體是不是用戶感興趣的。隨著產品迭代,也加入了更多產品特征,諸如閱讀時間長短、視頻內容、鏈接內容;取關、隱藏等。FacebookEdgeRank2017年上半年,《紐約時報》對其網站和App進行個性化改造,被用戶稱為“模仿Facebook”。在后續的幾個月里,它陸續進行了一些個性化實驗,比如根據用戶的閱讀習慣、訪問時間、地理定位來決定推送內容,最終希望達到的是,在傳統報紙編輯選薦與網絡個性化模式之間達到平衡。在國內,今日頭條的推薦算法是其產品的靈魂。頭條用機器給文章打標簽,追蹤用戶的閱讀行為和習慣,再用算法完成兩者之間的匹配,根據用戶關注的內容分類進行推薦。數據積累到一定程度,最終想達到的效果就是系統越來越了解用戶的品味,推薦的內容用戶都喜歡看。頭條的標簽基本有兩種方式,一種是機器判定,一種是人工添加,目前機器判定的比例更高。以電影為例,一部電影可以細分出影片類型、年代、演員、導演等等多種元素。用戶標注了某一部電影,算法就會為他推薦同一導演的作品。這樣的推薦模式大多被適用于識別結構化數據——算法并不知道文章、影片中到底說了什么,只能根據結構化數據標注判斷。這個結構化數據,也就是關鍵詞。社會和娛樂這兩大標簽是受眾最為廣泛的標簽。頭條會對關鍵詞進行收集和整合,如果發現這些關鍵詞熱度比較高,就會生成一定的頻道。比如體育底下其實還是包含很多的子頻道。這也算對用戶定制的一種反饋,更便于網民能夠直接查看相關的文章。不過關鍵詞的不精準也帶來了一些問題。隨著資訊類平臺中的內容越來越豐富,短消息、圖文、問答都有。關鍵詞標注只能對內容進行浮于表面的理解,而內容中暗含的情緒往往會冒犯到用戶。在流量的誘惑下,很多創作者會更傾向于生產具有刺激性情緒的內容,這就增加了用戶被冒犯的幾率。基于算法推薦機制的個性化分發嘗試一如既往,算法所代表的精準滿足信息需求、擴展細分市場的概念起初非常理想,所以很多媒體紛紛做出相應嘗試。但熱趨勢中,算法正在面臨讀者“過濾氣泡”、“信息繭房”等質疑,難以達到預期效果。近期,哈佛尼曼實驗室的一篇報告詳細地探討了這一技術機制,承認個性化算法的力量,但也不能只將個性化留給算法,“你仍然需要一個人類編輯”。管理與監察數據化:促進機構走向規模與成熟當內容發展到一定規模之后,內容本身就成長為有一定規模的數據庫。如何實現內容的數據化管理以及如何識別因數據的中立性而帶來的虛假和錯誤也是媒體機構承擔社會責任,完善用戶體驗的重要環節。被Google并購后,YouTube對內容版權問題越來越被重視。為了提供一套可行的版權及內容管理方式,Google于2011年上線了ContentID。ContentID為版權所有者提供免費的內容數據管理方式,并提供封鎖、追蹤和獲利三種方式,讓版權所有者自行決定所擁有的版權內容以何種形式出現在YouTube上。YouTubeContentID功能包含了影片ID(VideoID)和音頻ID(AudioID)兩種數據標簽化管理功能,分別具有比對視頻、音頻是否侵權的功能。YouTubeContendID以熱圖(Heatmap)的數據處理方式比對影片,因此即使不是完全符合的影片,如內容包含加框、影音歪斜、左右鏡象、水印、質量不佳的影片,一樣可進行比對是否侵權。Heatmap用顏色變化來反映二維矩陣或表格中的數據信息,它可以直觀地將數據值的大小以定義的顏色深淺表示出來。常根據需要將數據進行樣品間豐度相似性的聚類,將聚類后數據表示在Heatmap圖上,可將高豐度和低豐度的樣品分塊聚集,通過顏色梯度及相似程度來反映多個樣品的相似性和差異性。YouTube熱圖(Heatmap)另外,YouTube也會篩選監察自身的內容,如果使用者有重復侵權的情況,帳號還可能被終止。藉由ContentID的禁播功能設定,可以讓包含侵權內容的影片可在特定的區域中觀看,如此可以符合版權擁有者的區域利益,也不致讓所有的使用者都看不到影片的內容。將內容也視為一種數據,并利用工具為內容制定考量的標簽和標準,讓內容實現數據化管理,幾乎成為所有形成規模的媒體機構的必修課。其中還包括Facebook的反垃圾系統Sigma和Immune、今日頭條的內容攔截算法等都是媒體內容管理與監察開始趨于完善的重要標志。
上一篇:2019年黑帽SEO是怎么樣的
下一篇:網站優質內容建設需要考慮哪些
欄目索引
相關內容
欄目推薦