西西軟件下載最安全的下載網站、值得信賴的軟件下載站!

首頁業(yè)內動態(tài) 業(yè)內資訊 → Google新聞排名算法透視

Google新聞排名算法透視

前往專題相關軟件相關文章發(fā)表評論 來源:西西整理時間:2013/2/23 10:59:19字體大。A-A+

作者:西西小熊點擊:3次評論:0次標簽: Google

自 2002 年推出以來,Google News 已成為 Web 上最大的新聞內容聚合器。在去年 9 月《大西洋月刊》的一篇文章中,Google News 的主管曾說該網站收集的新聞來源超過 5 萬個,每周的獨立訪客超過 10 億。該網站完全由計算機生成,每天都會收集和展示從全球數千個新聞來源的頭條新聞。

Google 甚少透露相關的算法和規(guī)則,只是說為了保證顯示的內容質量會定期調整新聞排名。據信,Google 自 2003 年以來已經三次調整了排名算法。

Computerworld 在美國專利辦公室網站查詢時碰巧發(fā)現了 Google 去年的一項專利申請—《改進新聞文章排名的算法與系統》,專利申請?zhí)枮?20120158711。通過對申請文檔的分析,從中可以了解到 Google 對新聞故事排名的一些指標。這些指標決定了哪些新聞可以被放在 Google News 的顯著位置。

專利申請中運用了超過 12 項指標來對其他網站的新聞文章進行排名。包括新聞網站定期產生的新聞數量、新聞來源的平均長度、新聞來源新聞報道的重要性、突發(fā)新聞得分、使用模式、輿論意見、流通量、相關新聞組織的員工數量、新聞來源的辦事處數量、新聞報道的廣度、新聞中使用的原創(chuàng)命名實體的數量、國際多樣性、甚至還包括寫作風格。

以下就是部分算法規(guī)則:

用原創(chuàng)文章數或原創(chuàng)句子數來衡量新聞來源的質量

用“故事規(guī)模得分”確定某組織一周、一個月或更長時間撰寫的原創(chuàng)文章的重要性。比方說,如果 D 是關于哥倫比亞航天飛機失事的文章,而相關主題的其他不同文章還有 500 篇,那么這個故事的規(guī)模就是 500

突發(fā)新聞得分的計算是通過衡量新聞來源發(fā)布重大事件的速度來確定的

而新聞機構(尤其是未受廣泛引用的那些)制作高品質、原創(chuàng)內容的能力,則可以通過故事提及人物的數量等來衡量

哥倫比亞大學新聞學院的教授 Sree Sreenivasan 稱,技術世界有很多不透明的地方。此項專利申請可以讓人了解像 Google 這樣的公司是如何選擇在線內容并對其排名的。他指出,Google 用來判斷新聞來源質量的某些指標,跟編輯用來確定某出版物是否值得信任是一樣的。

比方說員工數量和受眾多樣性。故事長度也是一個好指標。盡管乍一看似乎 Google 對量的重視程度要高于質。但事實上許多高品質的媒體現在制作的內容都比以往要多。這反映了當前新聞業(yè)的現實。

由于此前 Google 對新聞文章的熱度評定經常引起媒體公司的爭議,這份文檔也許能澄清部分事實。不過,Google 在電子郵件回復中稱專利申請不代表產品就是這么做的。

    相關評論

    閱讀本文后您有什么感想? 已有人給出評價!

    • 8 喜歡喜歡
    • 3 頂
    • 1 難過難過
    • 5 囧
    • 3 圍觀圍觀
    • 2 無聊無聊

    熱門評論

    最新評論

    發(fā)表評論 查看所有評論(0)

    昵稱:
    表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
    字數: 0/500 (您的評論需要經過審核才能顯示)