蘋果收購了一家可讀解人們的面部表情并預測其情緒的公司,Emotient。
據華爾街日報昨日消息,蘋果收購了一家可讀解人們的面部表情并預測其情緒的公司,Emotient。該產品甚至可將滿屋子人的面部表情進行分類,應用范圍比如可以用來測量消費者對廣告的反應。Emotient稱,醫生也對他們的技術進行了測試,以解讀那些無法進行自我表達的病人的痛苦表情,零售商也用它監測購物者在商店走道里的面部表情或是的銷售人員通過佩戴 Google Glass 對顧客的表情進行實時解讀。
蘋果公司發言人也證實了這項收購交易,并表示蘋果“時常都會收購小型技術公司,一般來說我們都不會討論收購意圖或計劃”。該發言人拒絕透露這項交易的具體財務條款。
實際上,從20 世紀 90 年代以來,一批研究人員開始試圖讓機器讀能懂人類情緒,并可以像人類一樣作出正確回應。一些智能系統已經可以對音高、音色和響度進行分析,識別出深層次語義,比如根據一位女性和孩子的對話,可以辨別出這位女性是否一位媽媽,她是否在盯著孩子的眼睛看,以及她是失落還是高興。另外一些機器則可以分析人類遣詞造句的方式,或者是解讀肢體語言,然后判斷用戶的情緒。此外還有一些人選擇從面部表情入手,因為在很多時候,面部承擔著情緒溝通的功能,而我們通過面部表情傳達的信息可能要遠遠多于語言本身。這其中又誕生了一些公司,如 Affectiva 、Emotient、Realeyes 和 Sension。
Emotient 總部位于圣地亞哥,此前已經融資800萬美元,投資者包括英特爾資本。知情人士稱,Emotient在被蘋果收購前一直在尋求啟動新一輪風險投資融資活動,但根據提供的融資條款并未找到適合的投資方。 Emotient 在本周對網站進行了改版,移除了公司所銷售服務的細節信息。
Emotient 官網上是這么介紹自己的:
Emotient是情緒檢測和情緒分析的領導者,我們的服務是量化情感反應,提升你對產品和市場的洞察力和行動的有效性。
猜想蘋果收購后可能用到的地方,將該技術置于 iPhone 的前置攝像頭中,來檢測用戶情緒狀態,從而讓Siri 更加智能,與你對話可以考慮你的情緒變化;甚至可以利用這項技術來了解用戶對 iAds 平臺上投放的廣告的反應。
實際上在2014年提交的一項專利申請中,蘋果就已經描述了一種根據多種線索,分析和確認人類情緒的軟件系統,這其中就包括面部識別。去年10月,蘋果證實已收購人工智能創業公司 Perceptio 和 VocalIQ,后者旨在提升計算機理解人類自然對話的能力。而去年5月,Emotient 宣布已獲得了一項技術專利,可在一天內收集并標記多達10萬張面部圖像。這樣一來,計算機就能夠更好地識別不同的面部表情。
綜合這些線索來看,這些技術很有可能用于提升 Siri 與人進行對話時的真實感,增加互動性。
我這里整理了一份和Affectiva 和 Emotient 相關的科學家小故事,補充介紹情緒識別與這兩家公司的由來:
有一位埃及科學家 Rana el Kaliouby,和她的導師 Rosalind Picard 一起成立了 Affectiva,一家開發情感分析軟件的公司。
Rosalind Picard 早些時候在 M.I.T 的 Media Lab 做一些圖像壓縮方面的技術開發,但很快她就遇到了瓶頸,因為她開發的方法(盡管后來流行一時)與被處理的對象是完全獨立的:比如說壓縮大運河和總統肖像的圖片用的都是一樣的方法。她覺得,如果計算機可以知道自己正在處理什么就能改善這個過程。直到讀了一本關于聯覺的書《The Man Who Tasted Shapes》她才豁然開朗,意識到了情感與理性之間的聯系。與我們傳統認為的 “無情卻又睿智” 不同,過少的情感,其實和過度豐富的情感一樣都會對我們的理性思考產生不好的影響,事實上一些影響情感的腦損傷也會剝奪人判斷和決策的能力,而判斷和決策正是我們希望電腦做的事情。
回到電腦的情緒識別,其實做法就是在面部提取一些關鍵的點,將那些相對不變的 “錨點”,比如鼻尖,最為一些參考的固定點,然后用像嘴角這樣的點來判斷你做出的表情。但是在九十年代,想要制造一個可以準確長出這些離散的面部動作單元的系統實在是太難了,單是數字化一個視頻就要 25 秒。一個早期的研究人員說:無論怎么做總是有一點偏差,而且隨著結構的不斷擴大,錯誤也越來越多,每十秒就要重新啟動一次。
研究陷入了瓶頸, Kaliouby 只好去劍橋繼續讀她的博士學位了。但是有一次演講后,有一個聽眾告訴她,Kaliouby 訓練電腦讀人臉和他自閉癥的弟弟遇到的問題很像。當時,劍橋的自閉癥研究中心正在做一個面部表情目錄的大工程,和 Ekman 將表情分成一小塊一小塊動作單元,再通過動作單元的組合判斷情緒的做法不同,他們對表情的分類更加自然,簡單易懂,將表情進行更細致的分類,然后從某一種特定的表情整體學習其中的特征。
Ekman 是一位心理學家,他的研究始于上世紀六十年代,并構建了一套純熟的理論體系,證明了人類的面部至少可以表達六種情緒,分別是高興、悲傷、驚訝、恐懼、憤怒和厭惡,與性別、年齡、種族或者是文化背景無關。他將這些面部表情進一步分解,系統化為 46 種“動作單元”的排列組合,最終寫入了《面部動作編碼系統》(Facial Action Coding System,也稱FACS)。這部著作有 500 多頁之厚,全面而又細致地講述了面部的動作。數十年來,他的理論大范圍應用在學術研究、電腦動畫制作、測謊和案件偵破等諸多領域。
就這樣他們有了足夠的資料開發 MindReader,一個可以在幾乎各種環境下檢測出復雜情緒的軟件,也是 Affdex (日后Affectiva 旗艦產品)的原型。Ekman,那個提出 FACS 的心理學家則和別人合作創立了 Emotient(上文提到被蘋果收購的那家公司),也是一款情緒識別的軟件,同樣是利用機器學習的方法通過海量的數據學習構建一個準確的表情識別框架。
至此兩家公司的原型初步顯現。