近日安徽發布《智能語音產業發展規劃》,把合肥科大訊飛當做語音產業領頭羊,重點扶植應用于智能家居及硬件。分析評論稱目前智能語音識別率低,注定難以大規模商用;政策扶植下一味押寶智能硬件,對于科大訊飛而言是一條不歸路。
互聯網技術正在深度融入人們的工作與生活,從一開始的電腦、手機、平板逐步被智能化以后,到現在幾乎所有的家電設備都面臨著一場大規模的智能化改造。因此,一個被業內稱為萬億級的智能家居市場正處在爆發的前夜,眾多企業都在以獨特的切入點努力打開智能家居的突破口,以便盡可能多的切下這個巨大市場的其中一塊蛋糕。
作為國內唯一的語音技術上市公司,科大訊飛近半年來在智能家居方面頻頻布局,不但與TCL、長虹、海爾、海信、康佳、創維等智能電視廠商合作推廣電視語音控制,而且還推出自主研發的訊飛智能音箱,通過將此前多年積累的智能語音技術植入進家電設備中,讓家電控制更加智能化、更加人性化。
熟悉科大訊飛這家公司的圈里人都非常清楚,這是一家在跌宕起伏中成長的公司。手握技術,卻找不到方向,這是對科大訊飛十五年成長軌跡的最貼切描述。十幾年前,科大訊飛推出的話王98和暢言2000兩款產品試水后就宣布失敗。
十幾年后,科大訊飛再次將目標鎖定個人消費市場,推出智能音箱等智能家居產品。與傳統智能音箱不同的是,科大訊飛的智能音箱支持語音操控和語音識別。除智能音箱外,科大訊飛還嘗試用語音操控,將所有的智能家居設備連接在一起。不得不說,科大訊飛的夢很好,只是這個夢很難圓。
從表面來看,支持語音操控的智能家居有很強的吸引力。事實上,語音操控不過是一個操作方式,與手機遠程操控相比并沒有本質的區別。對于用戶而言,為智能家居增加一種操控方式,意義不大。更何況,這一時髦的語音操控模式需要用戶買單,代價有些高。
目前,訊飛的主要產品中體現了兩種重要的語音技術,一是語音合成技術,一是語音識別技術;前者已經有非常成熟的技術,現如今想要讓機器人講一口流利的鳥語,或者發出林志玲式的“加油”嗲聲已經非常容易了,但語音識別技術發展則相對緩慢,而正是在這項技術上的突破和創新,才成就了訊飛中文語音領導者的地位,他們推出的訊飛輸入法雖然比不上搜狗輸入法流行,但其中采用的語音識別技術卻深受用戶好評,支持普通話、英語、四川話、河南話、東北話、天津話、山東話…..行話、黑話等等,目前用戶達到1億,不僅成為Android手機的標配,而且成功登陸App store,獨享支持語音輸入法第三方軟件的榮耀,而且是那種無需越獄即可安裝的正式編制。
或許,正是自信于自己在語音識別技術上的優勢,訊飛才敢押寶于智能家居,也適當地能給巨頭們灌輸了一些利己思想:“語音才是未來智能家居的交互模式”,但如前文所述,智能語音作為整個智能家居中的一種配套技術,沒有辦法,也沒有能力推動整個行業大踏步前進,所以,訊飛選擇以“語音”切入智能家居領域并不是一個非常明智的選擇。
不可否認,訊飛輸入法能支持各地方言證明了語音識別技術還有著非常大的發展潛力,但這也僅僅是“輸入法”的一個應用。事實上,任何的機器識別技術無不是建立在海量的數據、高速的運算基礎上的,語音識別的體驗同樣要取決于語音數據存儲的規模、以及后臺處理的運行能力。不巧的是,智能家居領域需要的數據量遠非一個輸入法所能相比的,這種龐大的數據也不是工程師能在實驗室里編碼出來的,而是要把收集工具嵌入到消費者的日常生活中,這也就注定了語音識別技術不可能獨立發展,而是要背靠類似蘋果、Google、三星這樣的平臺企業,只有這些巨頭有機會無時無刻地收集用戶數據,從而建立起巨大而完善的數據庫。遺憾的是,即便有數億只iPhone滲透于全球消費者、Google的衛星也每天在太空中照照片、瞎轉悠,但蘋果siri和Google now等語音助手依舊不能成為消費者的貼心秘書,一位美國朋友曾分別問過Siri和Google now,哪里有便宜的雞蛋?蘋果的回答是街區盡頭的飯館里,而Google則把箭頭指向了跨州的一個著名養雞場,但家里的保姆卻能告訴他:最近的沃爾瑪超市,雞蛋正在搞促銷!
沒有海量的數據存儲,語音識別是不可能實現精準判斷的,事實上,在一些流傳出的智能家居產品測試中,消費者的體驗也非常糟糕,如果貿然采用不成熟的家居系統,可能會出現如下情況: 河北的丈夫回家之后,能順利地通過語言開燈,而來自內蒙的妻子,操著一口東北方言,嗓子喊啞了才能把燈打開,而來自廣東的情人,則沒能把燈打開,當然,鑒于她和男主人的主要業務,可能也不需要開燈了。
毫無疑問,智能家居黃金產業鏈中,電子設備的人機交互成為一個重要門檻,它很大程度上決定了智能家居產品是否具有方便、易用、智能的用戶體驗。智能家居的人機交互包括了指令及內容的輸入與輸出,內容輸出相對比較簡單,主要是顯示屏輸出及語音輸出。
而家電的指令輸入有按鈕、遙控、鍵盤、觸摸屏、語音、體感等多種方式,目前主流的控制方式依然是按鈕及遙控器,比如電視、空調、冰箱、燈光等等。隨著智能電視的爆發性增長,類似鍵盤、飛鼠及體感攝像頭等新型控制設備也在逐步流行,以適應智能電視集觀看、運動娛樂及購物等多種功能。
但是從人們期待的智能生活看來,目前的物理控制方式還是顯得累贅繁瑣,人們希望晚上回家,燈光自動打開,音響里自動播放喜歡的音樂,電視可以語音控制打開需要的頻道,早上起床鬧鐘響起自動語音播報今天天氣狀況。總之,家電設備的控制與內容輸出盡可能簡單自然,真正解放人的雙手。
可是,愿望總是美好的,現實總是殘酷的。智能語音技術盡管近幾年來取得了突飛猛進的發展,但是離人們期待的隨心所欲的控制家里的一切還有相當遠的距離。其中,語音識別率低是最大的障礙。即使是依靠口音相對統一的英語輸入為主的蘋果siri,其識別率也很難達到90%以上的程度。
對于中國這樣有著56個民族,有幾百上千種方言的人口大國,各種口音、腔調混雜其中,即使是普通話各個地方也有巨大的口音差異。因此,基于漢語為基礎的語音識別技術將面臨比英語更加巨大的技術挑戰,語音識別準確率會因人而異而變得非常明顯。識別率的低下將會導致語音控制技術在智能家居應用中用戶體驗難以達到用戶預期,甚至成為一種可有可無的擺設。
智能語音技術除了需要提高用戶語音輸入的識別準確率,還需要提高語義理解能力。即使是蘋果siri、谷歌Now這樣世界級的語音助手工具,其輸出能力還處在十分初級的狀態,以致很難黏住用戶。調查數據顯示,Siri可以理解83%的問題,但回答正確率只有62%。
總之,無論是國外科技巨頭,還是國內智能語音領域的先鋒企業,要想真正讓智能語音技術進入千家萬戶融入人們的生活,真正為人們所用,那么必然離不開識別技術的提高及后端龐大的語音知識庫,目前階段將智能語音技術稱為入口還為時太早。