《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業界動態 > 業界 | 專訪達觀數據CEO陳運文:文檔審閱2.0時代到來

業界 | 專訪達觀數據CEO陳運文:文檔審閱2.0時代到來

2018-08-18

利用機器學習技術審閱文檔,生成摘要,提高文字工作效率是人工智能的重要發展方向。近日,達觀數據推出了文檔智能審閱系統 2.0 版,吸引了德勤、平安信托等眾多公司的青睞。


在產品正式推出前,機器之心找到了達觀數據的創始人和 CEO 陳運文,他向我們介紹了達觀數據新版文檔審閱系統背后的技術,同時也對自然語言處理(NLP)和人工智能技術的未來進行了展望。作為國內第一家將自動語義分析技術應用于行業中的人工智能公司,達觀數據成立于 2015 年。這家公司旨在用文字語義自動分析技術為企業級客戶提供文本自動抽取、審核、糾錯、搜索、推薦、寫作等智能軟件系統。


該公司的 CEO 陳運文博士畢業于復旦大學,他同時也是上海市計算機學會多媒體分會副會長、國際計算機學會(ACM)和國際電子電器工程師學會(IEEE)高級會員,中國計算機學會(CCF)會員。他曾擔任盛大文學首席數據官,騰訊文學高級總監、數據中心負責人,百度核心技術研發工程師等職務,曾帶領團隊多次獲得 ACM 競賽冠亞軍。

微信圖片_20180818110606.jpg

達觀數據創始人、CEO 陳運文博士


陳運文的職場經歷,無論是百度的搜索引擎技術研發,還是盛大文學的數據負責人,都是在與數據打交道。他曾經研究利用技術挖掘數據提高公司的效率和收入,而在達觀數據,他領導開發的技術力量已經可以剖析用戶的海量數據,為更多企業提升收益。


達觀數據是一家具有學術背景的公司,專注于將最新自然語言處理技術應用到具體場景中。「這件事情很難,但是我覺得特別有意思:我們面臨著很多的技術挑戰,有很多的工作要做,有困難才有動力。」陳運文表示。


文檔審閱 2.0


在達觀數據描繪的未來里,計算機并不會百分之百的代替人,它會作為人類的助手存在,對文檔進行快速處理,補充人類的不足之處。人工智能算法可以發現人們容易忽略的錯誤。而人類在工作流程中的任務是復查計算機給出的結果,這樣可以大幅度提高工作效率。


在金融等對于文本準確性要求很高的行業中,計算機具有快速處理數據的能力,對內容的復核,包括字詞的復核都有天然的優勢。

微信圖片_20180818110630.jpg

達觀數據的文檔智能審閱系統可以一鍵審核數十種常見風險。


在這個過程中,達觀數據面臨著很多挑戰。「我們希望讓計算機理解金融行業里的領域知識——『Know how』,」陳運文表示,「讓算法和專業內容更加緊密地結合在一起。因此,我們投入了大量精力去了解和掌握金融行業員工日常的操作方式。我們需要把領域內的知識固化到軟件系統內,這樣軟件才能像白領員工一樣進行工作。」


陳運文表示,達觀數據的語言處理模型在訓練時使用了兩部分數據,一部分是特定領域內的語料數據,包括行業中公開的語料數據、資料、專業術語等。公司技術人員已投入大量精力對數據進行了采集、歸納整理和分析。另一方面,達觀數據的客戶多年來也積累了大量高質量行業數據。通過高質量的數據訓練算法,計算機系統會變得越來越聰明。據稱,在一些具體操作中,達觀數據的系統已具備了遠超過普通人類的處理能力。


達觀數據的文檔審核系統在糾錯算法和審核算法中采用了 LSTM 等技術,其 2.0 版還引入了遷移學習和增強學習。復雜的模型帶來了更高的準確率,但也意味著計算成本的提升。而陳運文表示,即使在這樣的情況下,計算機帶來的便利性也大大超過了人力成本。


「深度學習、LSTM 等算法確實是比傳統統計學習需要耗費更多的算力,」陳運文介紹道,「但另一方面,相比于高昂的人力成本來說。這些算法背后依賴的硬件成本即使在今天看來也并不高。由 GPU 組建的集群需要的成本比一群金融業白領的年薪要低得多。」


算力問題并不會成為實踐面臨的障礙。除了已有的效率優勢之外,另一方面,硬件的成本每一年都在降低。達觀數據認為,在未來,文本挖掘、自然語言處理的成本會降低到難以想象的地步——而要付給員工的工資只會不斷增多。


在可用性方面,機器學習系統也有著自己的優勢。在達觀數據很多客戶的專業領域內,培養一個專家需要很多年的時間,在此之后,經驗和知識又很難遷移到其他人身上。而在今天,計算機軟件系統一旦訓練好,就具備了類似人類專家水平的能力,同時可以零成本地進行復制,服務更多人。


達觀數據曾做過比較,現在一臺服務器提供的工作能力基本相當于 15 個普通的員工。而隨著硬件成本的下降,這個數字還將不斷提高。現在一臺服務器運行一年的成本可以是 2 萬元以內。


在提高計算并行化效率上,達觀數據的產品采用了 Mini batch 等新技術。同時,其模型也結合了 LSTM、CNN、統計學習等方法,通過獨有的雙層組合學習的方法,整個系統可充分發揮各種算法的優勢,讓算法的能力發揮到最大。


逐漸成型的市場


在技術以外,如何向傳統公司推廣人工智能產品也是擺在各家 AI 科技公司面前的難題。在達觀數據看來,目前最困難的起始階段已經過去。


「坦率地說,應該感謝媒體,它們過去三四年來對于人工智能進行了大量的宣傳報道,」陳運文表示,「我們發現傳統行業客戶,不論是領導還是一線的員工,他們都對人工智能、大數據和信息化帶來的價值有所了解。我們現在向客戶介紹產品沒有什么障礙,客戶都很樂意去嘗試先進的技術。」


但解決方案成型關鍵在于如何很好地解決客戶面臨的問題。


達觀數據認為,今天中國的 AI 產業正處于歷史上很好的一個時期——來自各行各業的客戶們已經開始愿意接受新興的技術——但這也意味著科技公司不能制造泡沫,必須打造優秀的產品,要讓客戶覺得產品配得上人工智能的稱號。


在 NLP 的賽場上,一些科技巨頭也在不斷展示著自己的實力。面對競爭,陳運文認為國內 AI 公司的優勢在于能夠提供個性化的服務:「微軟在 NLP 領域有著強大的技術實力,但中國本土的企業并不落后。我們的優勢在于可以向客戶提供貼身的服務。」達觀數據在實踐中發現,每一個客戶的需求都有些許的差異——很難用一個通用化的模型來滿足不同客戶的個性化需求。


這家公司致力于為客戶提供解決實際問題的系統,提供定制化方案,而不是通過一個大而全的平臺,試圖通過一個算法解決大量問題——這樣很難把一個具體的問題解決的足夠好。


目前達觀數據的文檔處理系統已經發展了大量客戶,其中包括很多世界五百強的大型企業,金融行業、新聞媒體、法律行業和政府。如招商銀行、平安信托、華泰證券等等金融領域的公司;以及華為、海爾等五百強企業里的標桿客戶。這些客戶、行業的特點是它們都會接觸大量的文檔資料。


達觀數據文檔處理系統下一步的推廣目標是傳媒行業、政府和事業單位。這些機構每天都面臨著大量的文字處理工作,而目前為止,所有這些都需要耗費大量的人力,未來這家公司提供的系統將會大幅解放這些人力。


達觀數據發現,很多發達地區的地方政府對于新技術具有很高的熱情。比如行政審批,這幾乎占到了政府部門 1/3 的工作量。這些工作目前都還是依靠大量的基層公務員來做的。達觀數據預計,它們中的很大一部分,包括預審、材料檢查等都可以在未來由計算機來承擔。


技術優先的團隊


基于公司的基因,陳運文為達觀數據選擇了面向企業客戶的道路。經過三年多的發展,這家公司已形成了規模近 200 人的團隊,其中研發團隊占六成。這家公司有著濃厚的技術氛圍,一直在不斷發表介紹 NLP 技術的博客,舉辦算法大賽。


「我自己也在寫技術博客!我們對于技術的態度非常開放:技術是要拿出來分享的。」陳運文表示,「我特別鼓勵員工總結自己的經驗和想法,把它寫成文章發表出來,讓所有文本挖掘的愛好者都能夠看得見。這樣對于整個產業都是有益的。」


達觀數據有很多工程師都公開發表了技術博客,這些文章經常會填補國內在特定領域上技術文章的空白。

微信圖片_20180818110701.jpg

陳運文曾帶隊參加 ACM 數據競賽并獲獎。


陳運文也有著數據競賽的情節。他曾作為隊長組隊參加過很多國際算法競賽,并拿到過多個冠軍。達觀數據舉辦了自己的 NLP 數據競賽:「達觀杯」文本智能處理挑戰賽。據介紹,今年的比賽已經吸引了 2000 余名參賽選手,成為了目前國內規模最大的文本挖掘比賽。達觀數據認為,能夠聚攏全國最具實力的文本挖掘愛好者共同解決一個問題,是一個很有意義的事情。


在 2017 年 4 月的 A 輪融資后,達觀數據已經推出了多種產品,并迅速拓展了業務。陳運文本次還透露,達觀數據即將在 2018 年第三個季度公布自己的 B 輪融資交易情況。這將成為中國目前為止自然語言處理領域內最大的融資之一。具體細節很快即將公布。


文本挖掘在中國,不僅是在技術上,還是在應用上都仍處于早期狀態。在未來,達觀數據的發展將會著力于兩個方面,一方面繼續加大技術上的投入:把中文的文本挖掘技術做深做透。而在應用方面,達觀數據希望改變中國傳統企業「人拉肩扛」的原始文本處理方式,為眾多客戶帶來自動化。


「我們認為,大量的文字處理應用場景未來一定需要更好的工具、更自動化的手段,去幫助人們提高工作效率。」陳運文表示,「我們會開發更多的應用,部署到每個行業、每個客戶身邊。對于我們來說,未來還有很多工作要做。」作為一家專注于語義理解技術的 AI 企業,達觀數據文檔智能審閱系統 2.0 版本只是一個開始,這家公司還希望在未來向普通用戶提供更多產品。


「也許等我們有足夠的資源和力量的時候,會嘗試推出一些面向消費者的文字處理工具。未來也許每一個中國的消費者,在頭疼于文字處理中時,達觀數據的系統可以為你們提供幫助。不管是寫作、修訂、審閱、分類,人工智能系統都能夠大幅度提高人們的工作效率。」陳運文表示。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 在线天堂bt种子| 青草娱乐极品免费视频| 日本人与黑人xxxx| 卡一卡二卡三精品| 亚洲校园春色另类激情| 妇女bbbb插插插视频| 久久精品国产亚洲精品2020| 美国式禁忌交换伴侣| 国产的一级毛片最新在线直播| 丰满人妻一区二区三区视频53| 欧美日韩一区二区三区麻豆| 国产亚洲精品精品国产亚洲综合 | 2018中文字幕第一页| 日本免费高清一本视频| 亚洲日韩在线视频| 精品人妻少妇一区二区三区在线| 国产在线观看首页123| 6080新视觉| 女博士梦莹全篇完整小说| 亚洲国产成人在线视频| 蜜柚免费视频下载| 国产精品大尺度尺度视频| а√天堂资源官网在线8| 日本va欧美va欧美va精品| 亚洲AV永久无码精品网站在线观看| 永久在线毛片免费观看| 国产人成午夜电影| 在线免费视频你懂的| 大看蕉a在线观看| 三级韩国一区久久二区综合| 日本花心黑人hd捆绑| 亚洲不卡在线观看| 精品国产不卡一区二区三区| 国产女主播喷水视频在线观看| 6080yy午夜不卡一二三区| 奇米影视四色中文字幕| 中文字幕在线观看亚洲日韩| 日韩不卡中文字幕| 亚洲色图古典武侠| 高清无码中文字幕在线观看视频 | 亚洲喷奶水中文字幕电影|