自 2002 年推出以來,Google News 已成為 Web 上最大的新聞內(nèi)容聚合器。在去年 9 月《大西洋月刊》的一篇文章中,Google News 的主管曾說該網(wǎng)站收集的新聞來源超過 5 萬個(gè),每周的獨(dú)立訪客超過 10 億。該網(wǎng)站完全由計(jì)算機(jī)生成,每天都會(huì)收集和展示從全球數(shù)千個(gè)新聞來源的頭條新聞。
Google 甚少透露相關(guān)的算法和規(guī)則,只是說為了保證顯示的內(nèi)容質(zhì)量會(huì)定期調(diào)整新聞排名。據(jù)信,Google 自 2003 年以來已經(jīng)三次調(diào)整了排名算法。
Computerworld 在美國專利辦公室網(wǎng)站查詢時(shí)碰巧發(fā)現(xiàn)了 Google 去年的一項(xiàng)專利申請—《改進(jìn)新聞文章排名的算法與系統(tǒng)》,專利申請?zhí)枮?20120158711。通過對申請文檔的分析,從中可以了解到 Google 對新聞故事排名的一些指標(biāo)。這些指標(biāo)決定了哪些新聞可以被放在 Google News 的顯著位置。
專利申請中運(yùn)用了超過 12 項(xiàng)指標(biāo)來對其他網(wǎng)站的新聞文章進(jìn)行排名。包括新聞網(wǎng)站定期產(chǎn)生的新聞數(shù)量、新聞來源的平均長度、新聞來源新聞報(bào)道的重要性、突發(fā)新聞得分、使用模式、輿論意見、流通量、相關(guān)新聞組織的員工數(shù)量、新聞來源的辦事處數(shù)量、新聞報(bào)道的廣度、新聞中使用的原創(chuàng)命名實(shí)體的數(shù)量、國際多樣性、甚至還包括寫作風(fēng)格。
以下就是部分算法規(guī)則:
用原創(chuàng)文章數(shù)或原創(chuàng)句子數(shù)來衡量新聞來源的質(zhì)量
用“故事規(guī)模得分”確定某組織一周、一個(gè)月或更長時(shí)間撰寫的原創(chuàng)文章的重要性。比方說,如果 D 是關(guān)于哥倫比亞航天飛機(jī)失事的文章,而相關(guān)主題的其他不同文章還有 500 篇,那么這個(gè)故事的規(guī)模就是 500
突發(fā)新聞得分的計(jì)算是通過衡量新聞來源發(fā)布重大事件的速度來確定的
而新聞機(jī)構(gòu)(尤其是未受廣泛引用的那些)制作高品質(zhì)、原創(chuàng)內(nèi)容的能力,則可以通過故事提及人物的數(shù)量等來衡量
哥倫比亞大學(xué)新聞學(xué)院的教授 Sree Sreenivasan 稱,技術(shù)世界有很多不透明的地方。此項(xiàng)專利申請可以讓人了解像 Google 這樣的公司是如何選擇在線內(nèi)容并對其排名的。他指出,Google 用來判斷新聞來源質(zhì)量的某些指標(biāo),跟編輯用來確定某出版物是否值得信任是一樣的。
比方說員工數(shù)量和受眾多樣性。故事長度也是一個(gè)好指標(biāo)。盡管乍一看似乎 Google 對量的重視程度要高于質(zhì)。但事實(shí)上許多高品質(zhì)的媒體現(xiàn)在制作的內(nèi)容都比以往要多。這反映了當(dāng)前新聞業(yè)的現(xiàn)實(shí)。
由于此前 Google 對新聞文章的熱度評定經(jīng)常引起媒體公司的爭議,這份文檔也許能澄清部分事實(shí)。不過,Google 在電子郵件回復(fù)中稱專利申請不代表產(chǎn)品就是這么做的。