微信 5.0“掃一掃”發(fā)布的時(shí)候,被討論得最多的是它所承載的商業(yè)化重任。
被忽視的,是背后的技術(shù),及技術(shù)蘊(yùn)藏的趨勢(shì)。
同樣地,這個(gè)版本亮相的微信自主研發(fā)語(yǔ)音識(shí)別技術(shù),也為外界所震驚和質(zhì)疑!膀v訊能夠一夜之間自研成功語(yǔ)音識(shí)別技術(shù)?”類似質(zhì)疑遍地都是。
在獨(dú)家采訪微信“模式識(shí)別中心”團(tuán)隊(duì)后,我們發(fā)現(xiàn)兩個(gè)產(chǎn)品功能并不是孤立地存在的,而是人工智能技術(shù)武裝微信的兩個(gè)投射。微信走向智能化,不是從這兩個(gè)功能起步,也顯然不以其為終點(diǎn)。
本文揭秘了微信產(chǎn)品背后的故事,介紹“模式識(shí)別技術(shù)”的未來(lái)形態(tài),以及科研與產(chǎn)品開(kāi)發(fā)的關(guān)系。而我們更關(guān)心的,是微信乃至整個(gè)移動(dòng)互聯(lián)網(wǎng)正在發(fā)生的變化:越來(lái)越智能化。這是由移動(dòng)設(shè)備和移動(dòng)產(chǎn)品豐富的連接性引發(fā)的變革。正是得益于如此豐富的連接性,人工智能基礎(chǔ)技術(shù)得以從多方面滲透進(jìn)來(lái),燃起穿戴設(shè)備的熱潮,掀起電視、汽車、家居、醫(yī)療各產(chǎn)業(yè)的變革,真正拉開(kāi)科技改變生活的序幕。
1/3 博士,2/3 碩士的高學(xué)歷團(tuán)隊(duì)
“模式識(shí)別”是人工智能的一個(gè)分支,在上個(gè)世紀(jì) 60 年代成為一門(mén)學(xué)科。所謂模式識(shí)別(pattern recognition)是指對(duì)表征事物或現(xiàn)象的各種形式信息進(jìn)行處理和分析,以實(shí)現(xiàn)對(duì)事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過(guò)程。模式識(shí)別對(duì)象包括文 字、語(yǔ)音、圖像、生物傳感器、心電圖、腦電圖、地震波等等。對(duì)應(yīng)到 IT 領(lǐng)域,主要是指文字、語(yǔ)音、圖像、與 IT 相關(guān)的傳感器等,如 iPhone 5s 新增的指紋識(shí)別功能,將來(lái)也會(huì)屬于“模式識(shí)別”研究的對(duì)象。
微信的模式識(shí)別中心也是一個(gè)研發(fā)中心。據(jù)團(tuán)隊(duì)負(fù)責(zé)人陳波介紹,他們隸屬于微信北京研發(fā)中心,研究方向包含語(yǔ)音識(shí)別、圖像識(shí)別、語(yǔ)音合成、音頻指紋、語(yǔ)義理解、數(shù)據(jù)挖掘等等。不過(guò)由于這個(gè)研究型團(tuán)隊(duì)轄屬于微信,他們不只負(fù)責(zé)理論研究,還對(duì)接產(chǎn)品功能開(kāi)發(fā)。
模式識(shí)別中心原先不屬于微信,其前身是騰訊研究院下屬模式識(shí)別小組,2010 年 9 月成立。這個(gè)小組面向整個(gè)騰訊公司提供基礎(chǔ)研究成果的服務(wù)。比如誕生之初就為 QQ 輸入法提供手寫(xiě)識(shí)別功能。2011 年騰訊內(nèi)部創(chuàng)新熱潮起來(lái)后,這個(gè)團(tuán)隊(duì)拓展研究領(lǐng)域,擴(kuò)展到人臉識(shí)別、圖像檢索、文字識(shí)別等,集多種圖像技術(shù)于一身“QQ 慧眼”就是這個(gè)團(tuán)隊(duì)研發(fā)的。2012 年 9 月,該團(tuán)隊(duì)正式劃歸微信管轄,隨他們一同到微信的是當(dāng)月發(fā)布的微信 4.3 版本中的通訊錄語(yǔ)音搜索功能。
為什么基礎(chǔ)研究團(tuán)隊(duì)要整合到微信團(tuán)隊(duì)?陳波給出的答案是:“一方面微信是引領(lǐng)移動(dòng)互聯(lián)網(wǎng)潮流的產(chǎn)品,對(duì)視覺(jué)、聽(tīng)覺(jué)延伸的東西需求很大;一方面技術(shù)成熟,到了基礎(chǔ)領(lǐng)域研究落地階段,微信是一個(gè)比較合適的平臺(tái)”。
目前微信模式識(shí)別團(tuán)隊(duì)有 40 多名成員,都是高學(xué)歷多能人才。據(jù)陳波介紹,40 多名同事中,有 1/3 是博士,2/3 是碩士。還有一個(gè)類似比例是:整個(gè)團(tuán)隊(duì) 1/3 從事前沿技術(shù)研究,2/3 從事現(xiàn)有技術(shù)研究和產(chǎn)品對(duì)接。
關(guān)于團(tuán)隊(duì)的研究方向,陳波介紹主要分為語(yǔ)音和圖像兩個(gè)小組,語(yǔ)音研究對(duì)應(yīng)的是手機(jī)上的麥克風(fēng),由博士生盧鯉帶領(lǐng) 12 個(gè)人負(fù)責(zé);圖像對(duì)應(yīng)的是手機(jī)攝像頭,由博士生劉海龍帶領(lǐng) 13 個(gè)人負(fù)責(zé)!靶〗M是比較成熟的方向。除了小組之外,我們也有其他研究方向”,陳波說(shuō),“包括文字識(shí)別、人臉識(shí)別、語(yǔ)義理解、視覺(jué)搜索、音頻指紋檢索等”。 除了科學(xué)研究團(tuán)隊(duì),模式識(shí)別中心還有一個(gè)工程團(tuán)隊(duì)與微信產(chǎn)品團(tuán)隊(duì)進(jìn)行對(duì)接。
據(jù)陳波介紹,她的團(tuán)隊(duì)不是純粹搞研究,不只會(huì)寫(xiě) paper,還有很好的開(kāi)發(fā)能力。他們沒(méi)有專門(mén)的手機(jī)開(kāi)發(fā)人員,都是自己搞 iPhone 開(kāi)發(fā),把 demo 秀出來(lái);遇到產(chǎn)品問(wèn)題,也要與產(chǎn)品團(tuán)隊(duì)共同解決。在招聘人才方面,模式識(shí)別中心也是把關(guān)嚴(yán)格,要求研究與工程能力兼?zhèn),所以團(tuán)隊(duì)過(guò)即使加入微信后也沒(méi)有膨 脹發(fā)展:團(tuán)隊(duì)成立之初是 2、3 個(gè)人,去年加入微信大家庭的時(shí)候是 30 人左右;加入微信后,現(xiàn)在團(tuán)隊(duì)是 40 人出頭。相對(duì)于競(jìng)爭(zhēng)對(duì)手,這仍然是一個(gè)精干的團(tuán)隊(duì)。
“兩盒煙,三個(gè)月”,一諾千金
微信 5.0 加入自主研發(fā)語(yǔ)音識(shí)別技術(shù),引起震動(dòng)。很多人不相信騰訊能在一夜之間靠自己研發(fā)出這種高門(mén)檻、長(zhǎng)周期、重積累的技術(shù)。行業(yè)龍頭老大科大訊飛創(chuàng)業(yè) 10 多年還在不斷完善這種技術(shù)——當(dāng)然,訊飛在語(yǔ)義識(shí)別、云平臺(tái)服務(wù)、串聯(lián)產(chǎn)業(yè)鏈方面扎得更深。
但是,世界上沒(méi)有奇跡,也沒(méi)有“一夜之間”的傳奇故事。
騰訊模式識(shí)別團(tuán)隊(duì)成立于 2010 年 9 月,前期圖像技術(shù)成熟,較早落地。但它的語(yǔ)音識(shí)別技術(shù)起步晚,2011 年底才正式啟動(dòng)語(yǔ)音識(shí)別自研項(xiàng)目。顯然,這個(gè)項(xiàng)目的啟動(dòng)受到了當(dāng)年蘋(píng)果發(fā)布 Siri 語(yǔ)音助手的影響,后者引發(fā)語(yǔ)音產(chǎn)業(yè)熱潮——科大訊飛的股票迄今已經(jīng)翻番。
到今年 8 月,語(yǔ)音識(shí)別自研項(xiàng)目歷時(shí)一年半,模式識(shí)別中心終于攻克語(yǔ)音識(shí)別技術(shù)難題,并在微信 5.0 產(chǎn)品中正式亮相(“語(yǔ)音輸入”功能)。由于模式識(shí)別團(tuán)隊(duì)屬于研究型隊(duì)伍,在前期主要集中于積累基礎(chǔ)技術(shù),加上騰訊的低調(diào)作風(fēng),才給外界造成“一夜之間冒出來(lái)”的感覺(jué)。
事實(shí)上,在此之前模式識(shí)別團(tuán)隊(duì)曾為微信開(kāi)發(fā)多項(xiàng)人工智能技術(shù)。比如 2012 年 9 月發(fā)布的 4.3 版本中的通訊錄語(yǔ)音搜索功能,2013 年 2 月發(fā)布的 4.5 版本中的語(yǔ)音提醒和“搖一搖”搜歌。但微信 4.5 版本中的“語(yǔ)音提醒”功能才引起外界對(duì)其語(yǔ)音技術(shù)的關(guān)注,一方面與微信受到的關(guān)注度相關(guān)——微信 1 月剛剛中旬宣布達(dá)到 3 億用戶,成為一個(gè)龐大的移動(dòng) IM 平臺(tái);另一方面“語(yǔ)音提醒”功能非常顯眼,不像“搖一搖”搜歌或“掃一掃”那么隱蔽或難于理解。
關(guān)于微信 4.5 版本的“語(yǔ)音提醒”功能,外界所不知道的是,它差點(diǎn)無(wú)法在該版本中發(fā)布。最終順利發(fā)布,這后面有一個(gè)“兩盒煙,三個(gè)月”的故事。
去 年 10 月 8 日,國(guó)慶長(zhǎng)假剛剛結(jié)束,模式識(shí)別中心語(yǔ)音組組長(zhǎng)盧鯉與團(tuán)隊(duì)負(fù)責(zé)人陳波到廣州與張小龍交流工作!皬埿↓埾MZ(yǔ)音提醒在 4.5 版本上,我說(shuō)技術(shù)不成熟,做這個(gè)事情沒(méi)把握。我說(shuō)了半個(gè)小時(shí),小龍一言不發(fā),最后說(shuō)‘那你們覺(jué)得需要多長(zhǎng)?’我咬咬牙說(shuō)起碼得 6 個(gè)月。小龍又一言不發(fā),走開(kāi)了”,盧鯉回憶到,“他回來(lái)后,手里拿了 4 包煙,開(kāi)會(huì)的人有 4 個(gè)人抽煙,一人一包,包括他自己。這煙我沒(méi)抽過(guò),我看了煙,又咬咬牙,說(shuō)‘要不 3 個(gè)月’,他聽(tīng)了之后,把他手里那包煙也留給了我。”
(微信模式識(shí)別中心語(yǔ)音組負(fù)責(zé)人盧鯉)
從 10 月中旬到 2 月初,除去春節(jié)假期,產(chǎn)品上線差不多就是 3 個(gè)月(期間進(jìn)行一次封閉開(kāi)發(fā)),盧鯉順利完成了任務(wù)。煙為什么對(duì)盧鯉有這么大的吸引力?答案在這個(gè)對(duì)話里:
ifanr:平時(shí)通過(guò)什么方式來(lái)放松?
盧鯉:我的方式是抽煙。
微信 4.5 版本發(fā)布的“語(yǔ)音提醒”功能,使用到較復(fù)雜的語(yǔ)義識(shí)別技術(shù)。比如“早上 7 點(diǎn)半起床坐 718 路公交車上班”,需要把“7 點(diǎn)半”理解為時(shí)間,把“起床坐 718 路公交上班”理解為事件。這在語(yǔ)音識(shí)別中反而是較復(fù)雜的。今年 2 月該功能發(fā)布后,它對(duì)語(yǔ)義的理解能力做得不錯(cuò),但會(huì)有一些錯(cuò)別字,說(shuō)明語(yǔ)音識(shí)別還不太完善。微信 5.0 發(fā)布的“語(yǔ)音輸入”功能,識(shí)別率很準(zhǔn)確,甚至在人名、地名、專有名詞識(shí)別方面給人以驚喜。說(shuō)明通過(guò)一年半時(shí)間的努力,模式識(shí)別團(tuán)隊(duì)在語(yǔ)音識(shí)別領(lǐng)域趕上了行 業(yè)水平。
技術(shù)與產(chǎn)品,誰(shuí)驅(qū)動(dòng)誰(shuí)?
上個(gè)月在日本 NTT Docomo 總部采訪的時(shí)候,我們了解到 NTT Docomo 由于對(duì) 3G 技術(shù)做了非常深入的研究(它是全球第一家商用 WCDMA 3G 網(wǎng)絡(luò)的運(yùn)營(yíng)商),忽略了配套產(chǎn)業(yè)的建設(shè),反而制約了 3G 業(yè)務(wù)的發(fā)展。Docomo 提給中國(guó)運(yùn)營(yíng)商的建議就是要與終端廠商做好溝通,與產(chǎn)業(yè)協(xié)同發(fā)展。
相 反的一個(gè)例子是,我們今年 5 月在上海采訪來(lái)自 Kickstarter 的創(chuàng)業(yè)團(tuán)隊(duì)SmartWallit,他們很早就想利用藍(lán)牙技術(shù)做防丟設(shè)備,但由于藍(lán)牙 4.0 技術(shù)(更省電)一直沒(méi)有大范圍商用(2010 年 7 月公布技術(shù)規(guī)范),一直拖到 iPhone 去年 9 月真正支持藍(lán)牙 4.0,及 Galaxy S3、Note 2 機(jī)型出現(xiàn),他們才覺(jué)得時(shí)機(jī)到了。
這類技術(shù)與產(chǎn)品誰(shuí)主導(dǎo)的矛盾經(jīng)常存在。那么對(duì)于隸屬于微信的一個(gè)科學(xué)基礎(chǔ)研究團(tuán)隊(duì)來(lái)說(shuō),是技術(shù)驅(qū)動(dòng)產(chǎn)品,還是產(chǎn)品驅(qū)動(dòng)技術(shù)?
陳波的答案是:更多情況是技術(shù)驅(qū)動(dòng)產(chǎn)品!爱a(chǎn)品在定需求的時(shí)候,往往不知道一種技術(shù)能做到什么程度,需要通過(guò)足夠的時(shí)間預(yù)研、探索才能知曉”,陳波說(shuō),“預(yù)研成熟后,產(chǎn)品的主導(dǎo)會(huì)比較多。比如技術(shù)本身有很多弱點(diǎn),那么產(chǎn)品上就要想如何去揚(yáng)長(zhǎng)避短”。
據(jù)陳波介紹,騰訊做產(chǎn)品比較講究敏捷開(kāi)發(fā),但他們搞基礎(chǔ)研究并不完全倡導(dǎo)敏捷開(kāi)發(fā),要以技術(shù)的成熟為前提!安贿^(guò)一旦技術(shù)差不多 OK 了,可以面向用戶,接下來(lái)就走迭代路線。我們讓研究跟著產(chǎn)品走,怎么做優(yōu)化、怎么做評(píng)測(cè)、發(fā)展到什么程度才能上線,都跟著產(chǎn)品的節(jié)奏來(lái)”,陳波說(shuō),“差不 多一半時(shí)間預(yù)研技術(shù),一半時(shí)間跟著產(chǎn)品節(jié)奏走”。
我 問(wèn)陳波前期做技術(shù)預(yù)研會(huì)不會(huì)參考其他產(chǎn)品的現(xiàn)有技術(shù)。比如微信“搖一搖”搜歌和 QQ 音樂(lè)的“聽(tīng)音辨曲”跟海外 App 產(chǎn)品 Shazam 功能很相似。陳波說(shuō)很多技術(shù)都有相關(guān)可參考的學(xué)術(shù)論文發(fā)表在國(guó)際期刊上,Shazam 有這樣的論文,Google 也有論文。她的團(tuán)隊(duì)經(jīng)常研究過(guò)去做到了什么階段!白龌A(chǔ)研究,大量的文獻(xiàn)閱讀是必要的”,陳波說(shuō)。
(微信模式識(shí)別中心總監(jiān)陳波)
做研究與做產(chǎn)品有很多不同。最大的不同是,基礎(chǔ)研究更講究“謀定而后動(dòng)”,要沉下心去想,臨門(mén)一腳揣不出靈光來(lái)。在我所認(rèn)識(shí)的產(chǎn)品團(tuán)隊(duì)中,“封閉開(kāi)發(fā)”一般 是指把團(tuán)隊(duì)拉到郊區(qū),吃喝拉撒睡全在一起,不與外界接觸,甚至與家人朋友也鮮有電話聯(lián)系,幾乎是與世隔絕的狀態(tài),這樣才能保持極其高效的開(kāi)發(fā)效率。陳波說(shuō) 他們的封閉開(kāi)發(fā)不是這種封閉形式,“封閉開(kāi)發(fā)是更像是一個(gè)口號(hào),態(tài)度上要更認(rèn)真,時(shí)間上要更緊迫”,她說(shuō),“基礎(chǔ)研究不是逼出來(lái)的,它要有一個(gè)認(rèn)真思考的 環(huán)境,要沉下心去想。如果催促著要上線,它是做不出東西來(lái)的”。
目前陳波的團(tuán)隊(duì)進(jìn)行過(guò)兩次封閉開(kāi)發(fā),一次是“兩盒煙,三個(gè)月”承諾之后,一次是為了保證微信 5.0 的語(yǔ)音功能上線。每次“封閉開(kāi)發(fā)”周期為兩個(gè)月,封閉開(kāi)發(fā)期間,下班會(huì)比較比較晚!拔覀儠(huì)把節(jié)奏盯得更緊,快速地達(dá)到目標(biāo),按產(chǎn)品的節(jié)奏去做研究!
“基礎(chǔ)研究沒(méi)有‘失敗’,只有時(shí)機(jī)”
模式識(shí)別團(tuán)隊(duì)從 2012 年 9 月加入微信團(tuán)隊(duì),至今一共開(kāi)發(fā)了五個(gè)大功能:通訊錄語(yǔ)音搜索(v4.3),語(yǔ)音提醒(v4.5),搖一搖搜歌(v4.5),增強(qiáng)版“掃一掃”(v5.0)和“語(yǔ)音輸入”功能(v5.0)。我問(wèn)陳波有沒(méi)有失敗的項(xiàng)目,她的回答很有意思:
很 多東西我們不認(rèn)為是失敗。有些技術(shù)目前沒(méi)有發(fā)布,不代表將來(lái)不需要;可能只是這個(gè)階段沒(méi)有,在未來(lái)一定會(huì)有。比如我們做的很多增強(qiáng)現(xiàn)實(shí)(AR)的東西,現(xiàn) 在無(wú)線帶寬不允許,因而沒(méi)有發(fā)布;但 2、3 年后網(wǎng)絡(luò)不再是問(wèn)題了,技術(shù)就能夠落地。我們不會(huì) care“你做的東西沒(méi)有用”或“短期沒(méi)有用處”,我們不以這個(gè)作為技術(shù)衡量的標(biāo)準(zhǔn)。
她以 4G 網(wǎng)絡(luò)的發(fā)展舉例!霸鰪(qiáng)現(xiàn)實(shí)和移動(dòng)視覺(jué)搜索技術(shù),現(xiàn)在費(fèi)了很大精力去做流量限制(比如“掃一掃”掃描封面 /CD/ 海報(bào)會(huì)有前端后端做各種判斷以減少流量,最終控制在幾 KB)”,陳波說(shuō),“但是以后在 4G 時(shí)代,流量更寬裕了,可以做很多事情,比如展現(xiàn)更酷炫的效果,把增強(qiáng)現(xiàn)實(shí)帶到前端來(lái)”。本月初我的同事何宗丞在美國(guó)參加高通 Uplinq 大會(huì)的時(shí)候就看到了高通這方面的技術(shù)研究成果。不過(guò)據(jù)愛(ài)范兒了解,國(guó)內(nèi) 4G 牌照要到 11 月才會(huì)發(fā)放,至少一年后 4G 才能迎來(lái)蓬勃發(fā)展,意味著受網(wǎng)絡(luò)條件的制約,各類創(chuàng)新技術(shù)要在國(guó)內(nèi)掀起熱潮仍有待時(shí)日。
回到微信的話題,“現(xiàn)階段沒(méi)有”的一個(gè)功能是“名片識(shí)別”。在 8 月 5 日微信 5.0 發(fā)布前,我們?cè)?tīng)說(shuō)微信可能發(fā)布名片識(shí)別功能,對(duì)名片全能王這類產(chǎn)品將形成沖擊;但這個(gè)版本發(fā)布后,名片識(shí)別功能不見(jiàn)蹤影,他們又松了一口氣。據(jù)陳波告訴愛(ài)范兒,名片識(shí)別功能確實(shí)將會(huì)發(fā)布,但目前還在提高準(zhǔn)確率,“有了良好的用戶體驗(yàn)后才會(huì)考慮發(fā)布”。
除了名片識(shí)別外,據(jù)說(shuō) 4.5 版本的“搖一搖”搜歌發(fā)布前陳波也經(jīng)歷煎熬。“當(dāng)時(shí)該功能在 4.5 版本中是一個(gè)不確定發(fā)布的功能,但大家積極性很高,經(jīng)常周末過(guò)來(lái)加班,當(dāng)時(shí)甚至想干脆不發(fā)了。不過(guò)最終還是做出來(lái)了,而且做得很不錯(cuò)”,陳波說(shuō)加入微信 后,感觸最深的是微信團(tuán)隊(duì)的執(zhí)行力,“微信團(tuán)隊(duì)的最大優(yōu)勢(shì)是超強(qiáng)的執(zhí)行力,大家都帶著夢(mèng)想做事。比如‘打飛機(jī)’游戲就是一個(gè)人兩個(gè)星期開(kāi)發(fā)出來(lái)的,人臉識(shí) 別也是 1 個(gè)人做出來(lái)的”。
我讓陳波用三個(gè)詞來(lái)形容自己的團(tuán)隊(duì),她使用的是“精益求精”、“興趣愛(ài)好”、“踏實(shí)”。并作出解釋:
精益求精:對(duì)于基礎(chǔ)技術(shù)研究來(lái)說(shuō),精益求精很重要。從測(cè)試級(jí)、訓(xùn)練級(jí)到評(píng)測(cè),準(zhǔn)確率能做到 99% 一定不做 98%。這從產(chǎn)品上可能沒(méi)什么概念,但從技術(shù)上來(lái)講,它意味著讓用戶失敗了很多次。
興趣愛(ài)好:很多創(chuàng)新是由興趣驅(qū)動(dòng)的,對(duì)這一行不熱愛(ài)、不喜歡,是創(chuàng)造不出好東西來(lái)的。比如我們?cè)谡腥诉^(guò)程中,不會(huì)為了擴(kuò)張而擴(kuò)張,而是每個(gè)人都要有他的價(jià)值,是否熱愛(ài)人工智能技術(shù)。
踏實(shí):搞基礎(chǔ)研究,一個(gè)小的方向,由 1、2 個(gè)人做,從頭到尾做很多事情,包括 demo、實(shí)驗(yàn)、效果總結(jié),需要踏實(shí)的心態(tài)去做。我們做研究,做到了 90%,如何把剩下的 10% 做好,就要耐得住寂寞,要有好的態(tài)度,持續(xù)的追求。
目前陳波的團(tuán)隊(duì)除了研究新功能外,日程表上排在前面的還有各種優(yōu)化工作,包括掃一掃中封面、條碼的識(shí)別率,語(yǔ)音識(shí)別的精度,本身庫(kù)的搭建等等。她說(shuō)團(tuán)隊(duì)也在 考慮如何做開(kāi)放平臺(tái),把他們的自研技術(shù)開(kāi)放出來(lái),供大家使用!案嗳藖(lái)使用,才能更好了解用戶需求,才能更容易看清未來(lái)趨勢(shì)”。
模式識(shí)別技術(shù)下一步怎么走?
出乎意料地,陳波說(shuō)團(tuán)隊(duì)面臨的最大困難竟是”用戶對(duì)人工智能(模式識(shí)別)的期待“。
“很多功能都很好,用戶會(huì)問(wèn)為什么不能實(shí)現(xiàn)”,陳波說(shuō)到,“我們做的事情是模仿人的大腦,但人腦神經(jīng)網(wǎng)絡(luò)非常復(fù)雜,目前的人工智能遠(yuǎn)不能匹敵,用戶對(duì)它的期望 很高,需要做引導(dǎo),讓用戶理解”。盧鯉舉語(yǔ)音轉(zhuǎn)文字(5.0 的“語(yǔ)音輸入”)的例子,“這相當(dāng)于一個(gè)初中生腦袋能干的事情,現(xiàn)在要讓機(jī)器去完成,是比較有難度的”。
陳波認(rèn)為雖然短期內(nèi)麥克風(fēng)、攝像頭和其他傳感器可能沒(méi)有大的爆發(fā)點(diǎn),但長(zhǎng)期來(lái)看,它們一定會(huì)非常重要。“攝像頭、麥克風(fēng)的應(yīng)用僅僅剛開(kāi)始,看起來(lái)很火,但與 大腦相比,差得好遠(yuǎn)”,陳波充滿信心,“比如穿戴設(shè)備,由于沒(méi)有很好的傳感器,還沒(méi)有被引爆。但是科技潮流的發(fā)展方向是不可逆的,它一定會(huì)在某個(gè)時(shí)間點(diǎn)爆 發(fā)”。
拿眼下的麥克風(fēng)和攝像頭這類“入口”來(lái)說(shuō),在移動(dòng)互聯(lián)網(wǎng)之前,它們是安防領(lǐng)域的標(biāo)配,到了移動(dòng)互聯(lián)網(wǎng)就成為移動(dòng)設(shè)備的標(biāo)配!皹(biāo)配是干嗎的?還不是讓人的生 活更方便嘛。標(biāo)配就有可能成為入口。”不過(guò)陳波認(rèn)為語(yǔ)音識(shí)別或圖像識(shí)別領(lǐng)域都還處于發(fā)展初期,無(wú)法成為替代性的東西;她說(shuō)將來(lái)也不可能完全替代現(xiàn)有交互方 式,只是所占比例會(huì)越來(lái)越多,比如 Google 就已有超過(guò) 10% 的搜索就來(lái)自語(yǔ)音搜索。
模式識(shí)別中心圖像組組長(zhǎng)劉海龍舉了一個(gè)例子,拿圖像識(shí)別領(lǐng)域的視覺(jué)搜索來(lái)說(shuō),除了完善現(xiàn)有的 5 個(gè)“掃一掃”功能的庫(kù)容量外,將來(lái)也可以掃描三維剛性物體,或由商家自定義用戶想找到的東西——類似于 Google Glass。這是微信的重要產(chǎn)品理念:所見(jiàn)即所得。在劉海龍看來(lái),攝像頭應(yīng)該是視覺(jué)的延伸,“它就是我們的一雙眼睛”。
(微信模式識(shí)別中心圖像組負(fù)責(zé)人劉海龍)
我問(wèn)陳波微信加入各種功能,包括模式識(shí)別技術(shù)領(lǐng)域的功能,會(huì)不會(huì)變得越來(lái)越臃腫?她說(shuō)微信的基本格局一直沒(méi)有變,只是在各種入口之下,承載了更多東西!安 是臃腫,而是添加了更多創(chuàng)新的東西,很多用戶喜歡!彼e的例子是搖一搖搜歌,“一開(kāi)始的時(shí)候我們還沒(méi)有信心,這個(gè)功能也做得很隱蔽,但是后來(lái)增長(zhǎng)曲線很 健康,認(rèn)可度和好評(píng)度都很高”。陳波說(shuō)這個(gè)功能每天的服務(wù)次數(shù)在千萬(wàn)次級(jí)別,大約有 10% 的人搜到歌曲后會(huì)去分享。這是一個(gè)不錯(cuò)的分享比例。
至于人工智能可能的發(fā)展方向,比如 20 年后會(huì)是什么樣子?陳波笑稱把想象空間留給好萊塢的科幻電影!颁撹F俠、碟中碟 4 中有大量語(yǔ)音、圖像識(shí)別技術(shù),對(duì)未來(lái)產(chǎn)品形態(tài)作了某種詮釋”,陳波會(huì)帶著團(tuán)隊(duì)集體去看這類科幻電影,“期待有一天真的達(dá)到那個(gè)效果”。
“小龍看得很遠(yuǎn)”
外界能看到,張小龍頂著“產(chǎn)品大拿”的光環(huán),產(chǎn)品能力、交互設(shè)計(jì)能力很強(qiáng)。
“外界所看不到的,是張小龍對(duì)未來(lái)看得非常清楚”,陳波說(shuō),“為什么他會(huì)重視我們這塊?哪些東西要做儲(chǔ)備,哪些東西未來(lái)很重要,他會(huì)給我們很多建議。他不僅僅 是告訴別人怎么做交互,他會(huì)看得更遠(yuǎn),他看得非常遠(yuǎn)。我們每次跟他交流都是一個(gè)學(xué)習(xí)的過(guò)程”。張小龍會(huì)在陳波的團(tuán)隊(duì)涉及到某項(xiàng)技術(shù)研究方向的時(shí)候給予優(yōu)先 級(jí)建議。不過(guò)她并沒(méi)有指具體哪類技術(shù)。
模式識(shí)別團(tuán)隊(duì)每月會(huì)去廣州和張小龍交流,有時(shí)駐扎在那邊做 2、3 個(gè)星期聯(lián)調(diào)。除了交流日常工作外,張小龍也會(huì)跟他們談未來(lái)的趨勢(shì)。比如穿戴式設(shè)備、身體健康相關(guān)、脈搏分析、人臉識(shí)別、Google Glass、物體檢索方面。不過(guò)在被問(wèn)到微信將來(lái)是不是與穿戴式設(shè)備聯(lián)系越來(lái)越緊密時(shí),陳波馬上予以否定,“更多是小龍個(gè)人的愛(ài)好”。
據(jù)愛(ài)范兒從 HTC 方面人士了解,張小龍確實(shí)對(duì)硬件領(lǐng)域確實(shí)非常感興趣,雙方時(shí)有探討未來(lái)的硬件形態(tài)。而在本月初三星發(fā)布 Galaxy Gear 智能手表后,張小龍?jiān)谂笥讶Π凳疚⑿趴赡苋腭v智能手表平臺(tái)。微信內(nèi)部還有一個(gè)前沿的硬件實(shí)驗(yàn)室,現(xiàn)已著手從 NFC 貼條、汽車中控臺(tái)等不同方向研究微信在物聯(lián)網(wǎng)平臺(tái)的應(yīng)用。此前,友寶自動(dòng)售貨機(jī)及印美圖這些基于微信平臺(tái)的硬件交互創(chuàng)新也得到關(guān)注和支持。
我們稍后問(wèn)到張小龍和微信團(tuán)隊(duì)具體關(guān)注哪些趨勢(shì)。陳波表示張小龍更關(guān)注微信帶來(lái)的交互變革及所依托的移動(dòng)互聯(lián)網(wǎng)對(duì)行業(yè)產(chǎn)生的影響!半S著硬件傳感器豐富以 后,可以帶來(lái)人與機(jī)器交互的革命性改變。”她講到兩個(gè)方面,一是硬件與軟件結(jié)合,兩者結(jié)合帶來(lái)的變革會(huì)更透徹;二是隨著語(yǔ)音、光學(xué)等傳感器的發(fā)展,機(jī)器人 研究會(huì)取得進(jìn)步!皺C(jī)器人長(zhǎng)時(shí)間發(fā)展不起來(lái),因?yàn)槊總(gè)傳感器都很貴。將來(lái)科學(xué)家、極客都去研究,傳感器本身就會(huì)發(fā)展很快,帶動(dòng)人工智能技術(shù)的發(fā)展”,陳波 說(shuō)。
她拿無(wú)人駕駛汽車舉例,“無(wú)人汽車擁有大量傳感器,很多人都崇尚這個(gè)東西,將來(lái)到了一定階段,無(wú)人駕駛汽車會(huì)因傳感器的普及而得到更廣泛使用”。不過(guò)她否定 微信會(huì)涉足傳感器硬件的研究——iPhone 5s 搭載指紋識(shí)別功能,陳波說(shuō)團(tuán)隊(duì)可能會(huì)基于 iPhone 的技術(shù)做研究,但不會(huì)自己去做指紋識(shí)別硬件——而是要保持團(tuán)隊(duì)接地氣的氣質(zhì),跟著產(chǎn)品戰(zhàn)略走!拔覀冇眯F(tuán)隊(duì)(約 1/3 人力)去研究很牛的產(chǎn)品,這是我們的理想”,陳波說(shuō)到。
這也是張小龍和微信團(tuán)隊(duì)的理想。一年前,我們?cè)接懳⑿胖谖锫?lián)網(wǎng)的意義:
也許,在所有人都在探索的移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,微信還有可能重新定義被說(shuō)爛的物聯(lián)網(wǎng)、LBS、O2O。它所呈現(xiàn)的互聯(lián)形態(tài),不是復(fù)制超鏈接(hyperlink),而是去創(chuàng)造連接真實(shí)關(guān)系,連接所有物件,成為人機(jī)交互界面的微鏈(weilink)。
張小龍?jiān)憫?yīng)這個(gè)觀點(diǎn),并在今年 7 月騰訊合作伙伴大會(huì)微信論壇上提出“解決人與企業(yè)、人與設(shè)備的通信問(wèn)題”:
最終,物聯(lián)網(wǎng)會(huì)到來(lái),微信不光連接人,還可以連接能上網(wǎng)的機(jī)器,每個(gè)機(jī)器都有個(gè)二維碼作為設(shè)備 ID,在微信里可以和設(shè)備對(duì)話來(lái)控制設(shè)備。
可以預(yù)見(jiàn),隨著基礎(chǔ)研究和平臺(tái)相結(jié)合,特別是微信這種大型平臺(tái)強(qiáng)化人與物的智能連接,會(huì)帶來(lái)更多變革的可能。與傳統(tǒng)互聯(lián)網(wǎng)所不同的是,移動(dòng)互聯(lián)網(wǎng)因?yàn)榫邆涓?豐富的連接性,基礎(chǔ)技術(shù)得以從各方面滲透進(jìn)來(lái)改變這個(gè)行業(yè)。這甚至是一種自下而上翻天覆地的變革,目標(biāo)只有一個(gè)——更智能的人類生活。
如今,微信已起跑,F(xiàn)acebook 已起跑,福特已起跑, 蘋(píng)果已起跑,百度也以“深度學(xué)習(xí)”起跑,Google 則跑得比較遠(yuǎn)……這條跑道,也許沒(méi)有終點(diǎn),但無(wú)疑會(huì)有越來(lái)越多身影。