發(fā)布時(shí)間:2024-01-24閱讀(17)
機(jī)器之心報(bào)道
演講:孫林君
編輯:小舟
9 月 3 日,在 2022 WAIC AI 開(kāi)發(fā)者日上,實(shí)在智能創(chuàng)始人、CEO 孫林君發(fā)表主題演講《數(shù)字員工——AI 在 RPA 領(lǐng)域的應(yīng)用與落地》,詳細(xì)介紹了 AI 加持的 RPA 技術(shù)近年來(lái)的發(fā)展,以及實(shí)在智能在數(shù)字員工方向的探索和應(yīng)用。
以下為孫林君的演講內(nèi)容,機(jī)器之心進(jìn)行了不改變?cè)獾木庉嫛⒄恚?/p>
大家好,非常榮幸能夠來(lái)到這個(gè)場(chǎng)合跟大家做分享,我今天帶來(lái)的話題是《數(shù)字員工——AI 在 RPA 領(lǐng)域的應(yīng)用與落地》。
AI 是一種通用的智能化技術(shù),但過(guò)去在泛行業(yè)領(lǐng)域的發(fā)展遇到了一些問(wèn)題,很難有大幅突破。我們現(xiàn)在更關(guān)注 AI 與垂直行業(yè)結(jié)合帶來(lái)的化學(xué)反應(yīng)。坦白講,大家原本對(duì) AI 技術(shù)抱有很高的預(yù)期,現(xiàn)在已變?yōu)閷?shí)實(shí)在在的落地,我們更希望看到 AI 在真實(shí)行業(yè)中發(fā)揮作用。
什么是數(shù)字員工?數(shù)字員工就是機(jī)器能夠代替人去做一些重復(fù)繁瑣的工作,輔助人做決策。在未來(lái)的幾十年,中國(guó)處于人口老齡化的階段,適齡的勞動(dòng)人口在減少,勞動(dòng)力成本進(jìn)一步增加,同時(shí) GDP 要持續(xù)增長(zhǎng),這種情況下我們的勞動(dòng)力缺口是比較大的,數(shù)字員工的出現(xiàn)將在很大程度上彌補(bǔ)勞動(dòng)力缺口。
實(shí)在智能創(chuàng)立于 2018 年 7 月,到現(xiàn)在已有 4 年時(shí)間。我們?cè)?RPA 領(lǐng)域融合 AI 技術(shù),打造了各種各樣的數(shù)字員工。實(shí)在智能先后經(jīng)歷了 6 輪融資,有超過(guò) 60% 的同事是科研人員,員工規(guī)模近 400 人,目前已掌握 120 項(xiàng)自主知識(shí)產(chǎn)權(quán),申請(qǐng)專(zhuān)利數(shù)超過(guò) 40 項(xiàng),近 20 項(xiàng)是實(shí)授專(zhuān)利,居行業(yè)第一。
RPA 全稱(chēng)叫機(jī)器人流程自動(dòng)化(Robotic Process Automation)。舉個(gè)簡(jiǎn)單的例子,工廠需要很多的自動(dòng)化操作,機(jī)械臂可以很精準(zhǔn)地完成一些規(guī)則化、重復(fù)的勞動(dòng)。除了工廠,辦公場(chǎng)景下自動(dòng)化也有非常大的空間,智能化的出現(xiàn)讓該領(lǐng)域得到了長(zhǎng)足的發(fā)展。
在辦公場(chǎng)景下,很多白領(lǐng)的日常工作也包含很多瑣碎的工作,比如在財(cái)務(wù)、運(yùn)營(yíng)、法務(wù)、客服等很多職能場(chǎng)景中,一些工作是重復(fù)且可被替代的。但通過(guò)自動(dòng)化的技術(shù),就能用軟件把人的操作錄制或者模擬出來(lái),機(jī)器就可以模擬人的操作進(jìn)行工作,準(zhǔn)確率高少出錯(cuò)。這項(xiàng)技術(shù)已經(jīng)出現(xiàn)了很久,大約 15 年前,美國(guó)就在很多大型科技企業(yè)中應(yīng)用,到了今天,國(guó)內(nèi)已經(jīng)有非常多的 RPA 公司涌現(xiàn)出來(lái),包括傳統(tǒng)的 RPA 以及和 AI 結(jié)合的 RPA(IPA)。我們是一個(gè)典型的與 AI 技術(shù)結(jié)合的 RPA 公司,最近幾年的長(zhǎng)足發(fā)展也與 AI 緊密相關(guān)。自動(dòng)化技術(shù)和 AI 技術(shù)融合到一起才是未來(lái)數(shù)字員工的真正形態(tài)。
RPA 最開(kāi)始只能做最簡(jiǎn)單的重復(fù)工作。如果機(jī)器想真正幫助白領(lǐng)高效工作,就要有很多工業(yè)化的設(shè)計(jì)。傳統(tǒng) RPA 的設(shè)計(jì)器里都是組件化的東西,拼裝就可以完成,這樣不用寫(xiě)代碼,用戶(hù)只需要關(guān)注業(yè)務(wù)邏輯就可以了。這種傳統(tǒng)方法實(shí)現(xiàn)成本低,門(mén)檻也比較低,對(duì)用戶(hù)來(lái)講也比較友好。
隨著人工智能的興起和發(fā)展,我們也發(fā)現(xiàn)傳統(tǒng) RPA 里其實(shí)有很多地方是可以和 AI 進(jìn)行結(jié)合的,例如和語(yǔ)音技術(shù)、OCR 結(jié)合,這些是簡(jiǎn)單的加法。另一方面,RPA 技術(shù)本身存在一些瓶頸,例如我們要控制各種各樣的軟件,首先要識(shí)別這些軟件里的東西,但是在識(shí)別上,我們是強(qiáng)依賴(lài)于操作系統(tǒng)底層的。這種情況使用傳統(tǒng)技術(shù)就面臨很多瓶頸,而 RPA 技術(shù)與 AI 結(jié)合可以獲得較大突破。行業(yè)天花板被推升以后,與 AI 結(jié)合的 RPA 技術(shù)可以真正泛化到所有行業(yè)的軟件上,并成為普適性的自動(dòng)化技術(shù)。
另外與 AI 結(jié)合后,數(shù)字員工的能力會(huì)實(shí)現(xiàn)從感知到認(rèn)知的飛躍。感知能力就是各種識(shí)別、交互技術(shù),認(rèn)知能力就是能夠結(jié)合大量數(shù)據(jù)做出推斷。只有在認(rèn)知層面將 AI 與 RPA 技術(shù)結(jié)合才能構(gòu)建真正的數(shù)字員工。規(guī)則化的工作在我們?nèi)粘?chǎng)景里大概只占 20%-30% 的工作量,但如果 RPA 可以在認(rèn)知層面代替人們完成非創(chuàng)造性工作,那么滲透率就可以達(dá)到 90%,所以數(shù)字員工未來(lái)的發(fā)展空間還是非常巨大的。
RPA 本身有一些能力上的限制,我們要把它變成 IPA,結(jié)合 AI,好比人的眼耳口鼻和大腦,能夠?qū)υ挕⒗斫狻⒂^察和思考,這才是真正的數(shù)字員工。
我們回到本源的問(wèn)題,RPA 能夠代替人控制所有的軟件,去完成規(guī)則化的工作,其中有兩個(gè)能力最關(guān)鍵:第一個(gè)是軟件的控制能力。通過(guò)操作系統(tǒng)底層去控制軟件的時(shí)候,我們要知道 RPA 的接口能力,或者說(shuō)要識(shí)別到每一個(gè)要素,這取決于操作系統(tǒng)底層的開(kāi)放性。現(xiàn)在主流的做法是結(jié)合計(jì)算機(jī)視覺(jué)來(lái)提升 RPA 的能力,讓 RPA 能夠?qū)λ械能浖歼m配,這就涉及非常多的技術(shù)挑戰(zhàn);第二個(gè)關(guān)鍵能力是信息提取能力。我們知道,現(xiàn)實(shí)世界中的信息并非都是結(jié)構(gòu)化的,往往是隱藏在一段文本里,或是不同介質(zhì)的表格里。我們要把這些信息抽取出來(lái),比如甲乙方是誰(shuí),他們之間是什么樣的關(guān)系,就離不開(kāi)大量的信息提取技術(shù)。這和自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)都有關(guān)系。
更強(qiáng)大的軟件控制能力
我們先看一下軟件控制能力。屏幕背后也是一個(gè)世界,所有的軟件都在里面。我們要知道畫(huà)面上到底有什么樣的元素或者物體,我能夠?qū)λ鍪裁础冉鉀Q識(shí)別問(wèn)題,再解決操作問(wèn)題。通過(guò)操作系統(tǒng)底層解決識(shí)別問(wèn)題時(shí),我們會(huì)發(fā)現(xiàn)各種各樣的軟件是沒(méi)有辦法識(shí)別的,有時(shí)識(shí)別出來(lái)的就是一個(gè)大的框,有時(shí)是多個(gè)細(xì)粒度的元素粘連在一起,這樣就無(wú)法進(jìn)行軟件操作。例如菜單中可能包含多個(gè)級(jí)別的小菜單,如果不能做到細(xì)粒度的準(zhǔn)確識(shí)別,就無(wú)從談起對(duì)軟件的完美操控。
因此,我們希望開(kāi)發(fā)出的工具普適性是非常強(qiáng)的,而不是只能給若干類(lèi)軟件做適配。而且軟件會(huì)升級(jí),技術(shù)架構(gòu)會(huì)變更,這種情況下傳統(tǒng)的 RPA 很難做到完美適配。現(xiàn)在很多 RPA 公司受限于技術(shù)的瓶頸,會(huì)被局限在某一個(gè)行業(yè)里。所以我們希望我們的 RPA 產(chǎn)品能夠變成通用化的產(chǎn)品,變成真正自動(dòng)化的工具。
另一方面,環(huán)境的影響也非常大。在不同的操作系統(tǒng)下,不同的軟件組合情況,面臨的拾取和識(shí)別問(wèn)題也是各種各樣的。
此外,在操作方式上,如果 RPA 技術(shù)只能通過(guò)寫(xiě)腳本的方式實(shí)現(xiàn),那么它依然是非常小眾的,只有程序員能夠使用,這距離辦公環(huán)境下「人人可用」的目標(biāo)還有非常大的距離。
那么我們就要思考:如何能讓用戶(hù)非常簡(jiǎn)單地使用上 RPA 技術(shù)。例如當(dāng)操作系統(tǒng)底層的識(shí)別不行的時(shí)候,很多工作都要依賴(lài)計(jì)算機(jī)視覺(jué)的方法,但要使用不同的組件。這對(duì)用戶(hù)來(lái)講,成本非常高。于是我們考慮把這兩種技術(shù)融合到一起,以實(shí)現(xiàn)一種對(duì)用戶(hù)來(lái)講非常自然的過(guò)程——即用戶(hù)不需要考慮什么時(shí)候使用計(jì)算機(jī)視覺(jué),什么時(shí)候借助操作系統(tǒng)底層。這里就要解決非常多的技術(shù)難點(diǎn)。
首先是要解決精度問(wèn)題。無(wú)論是多么細(xì)微的目標(biāo),或是多么復(fù)雜的目標(biāo),我們都要識(shí)別出來(lái)。如果我們想把使用門(mén)檻降到最低,那就要把不同的技術(shù)整合在一起。在速度方面,用計(jì)算機(jī)視覺(jué)的方式識(shí)別,效率天然會(huì)比底層要低一些。那么如何能夠讓用戶(hù)有一致的體驗(yàn)?zāi)兀磕蔷鸵诓粨p失很多準(zhǔn)確率的前提下把模型變得很小,以便于在 CPU 的環(huán)境上穩(wěn)定運(yùn)行,這樣能節(jié)省掉很多硬件資源。因?yàn)橛脩?hù)不會(huì)為了使用 RPA 產(chǎn)品單獨(dú)采購(gòu) GPU(圖形處理器)。
我們知道在軟件層面,特別是涉及到計(jì)算機(jī)視覺(jué)時(shí),界面的 DPI(圖像分辨率)是不一樣的。假設(shè)我在一臺(tái)電腦上設(shè)計(jì)了一個(gè)流程,現(xiàn)在要部署到 100 臺(tái)電腦上,不同電腦的分辨率可能不一樣,操作系統(tǒng)環(huán)境可能不一樣,顯示器的大小也可能不一樣。我們要解決的問(wèn)題是在這些差別的情況下保證軟件的穩(wěn)定運(yùn)行,替換分辨率也能保持一致。在界面大小上,當(dāng)我們把一個(gè)軟件界面進(jìn)行拖拽的時(shí)候,界面會(huì)發(fā)生形變,這種情況下我們還要能找到操作的元素,這就涉及到形變重識(shí)別的問(wèn)題。
面對(duì)這么多復(fù)雜的挑戰(zhàn),我們?cè)跇I(yè)界首先提出了「融合拾取」的概念,并將這一技術(shù)實(shí)現(xiàn)出來(lái)。僅圍繞提升軟件控制能力就有十幾項(xiàng)的難點(diǎn),我們都申請(qǐng)了相應(yīng)的專(zhuān)利來(lái)解決。現(xiàn)在我們?cè)俨鸾庖幌拢纯雌渲械木唧w難點(diǎn)。
下圖是一個(gè)融合拾取運(yùn)行的情況,畫(huà)面上有很多類(lèi)軟件,包括網(wǎng)頁(yè)、CS 架構(gòu)的軟件、還有操作系統(tǒng)原生的畫(huà)面。在這種情況下,傳統(tǒng)的 RPA 要用不同的組件來(lái)控制它,而且效率是非常不一樣的,使用 CV 方法的效率就會(huì)很低。而我們實(shí)現(xiàn)的融合拾取方法可以在四種應(yīng)用之間無(wú)縫切換,體驗(yàn)一致。對(duì)于辦公環(huán)境里復(fù)雜的要求,融合拾取技術(shù)可以做到非常完美的控制。
實(shí)在 RPA 的融合拾取能力,可實(shí)現(xiàn)同屏多對(duì)象無(wú)縫切換拾取
這里有幾個(gè)比較大的挑戰(zhàn),第一個(gè)是如何去適配各種各樣的軟件。我們知道軟件的種類(lèi)特別多,在不同的設(shè)計(jì)規(guī)范下,識(shí)別層面怎么實(shí)現(xiàn)通用性呢?我們經(jīng)歷了若干個(gè)階段,從多模型到單模型到后來(lái)極致效率的單模型 2.0 階段,我們?cè)诤臅r(shí)層面、召回層面做了很多工作,一步步發(fā)展成現(xiàn)在相對(duì)比較通用的識(shí)別技術(shù)。
第二個(gè)要解決的是成本問(wèn)題。我們?cè)诓荒芴峁?GPU 環(huán)境的情況下,想把模型變小,這就用到了剪枝、蒸餾、量化等方案把模型構(gòu)建出來(lái)。對(duì)于計(jì)算量不能太大的情況,我們也設(shè)立了元素相似度的色彩空間映射方法來(lái)降低計(jì)算量,在算力層面盡量把技術(shù)做到極致。
還有一塊是跨分辨率、畫(huà)面變化與重疊的情況,為了能夠識(shí)別出原來(lái)識(shí)別的對(duì)象,我們的把 CV 領(lǐng)域行人重識(shí)別的概念引入進(jìn)來(lái),采用基于 ReID 的技術(shù)并做了大量?jī)?yōu)化,最終取得了非常好的效果。對(duì)拾取層面來(lái)說(shuō),我們要把界面的布局做相應(yīng)拆解(涉及圖像語(yǔ)義理解),然后做檢測(cè),最后再做匹配。每一個(gè)環(huán)節(jié)都有相關(guān)的技術(shù)在發(fā)揮作用,其中的挑戰(zhàn)來(lái)源于多個(gè)方面:準(zhǔn)確度、穩(wěn)定性、唯一性。這些是需要持續(xù)打磨的,是一個(gè)與技術(shù)強(qiáng)結(jié)合的問(wèn)題。
RPA 的瓶頸還遠(yuǎn)不止這些。例如在運(yùn)行的穩(wěn)定性方面,軟件環(huán)境里有時(shí)會(huì)出現(xiàn)彈窗,而配置流程時(shí)沒(méi)有預(yù)見(jiàn)到這個(gè)情況,流程可能就會(huì)被卡住,這種情況下我們需要系統(tǒng)能夠自動(dòng)識(shí)別到彈出了一個(gè)非常規(guī)的窗口,然后把它關(guān)掉,這樣就有了輔助流程的概念。并且當(dāng)按鈕背后的 ID 發(fā)生變化時(shí),或者說(shuō)顏色發(fā)生了變化,系統(tǒng)還能以最大概率把它找出來(lái),讓流程運(yùn)行下去,這個(gè)問(wèn)題也要通過(guò)多種算法來(lái)解決。去年我們聯(lián)合機(jī)器之心針對(duì)這個(gè)問(wèn)題做了一個(gè)評(píng)測(cè),在 360 軟件庫(kù)里隨機(jī)抽取了一些軟件,面向多個(gè)指標(biāo)進(jìn)行評(píng)測(cè),結(jié)果表明我們?cè)谶@項(xiàng)技術(shù)上是遙遙領(lǐng)先的。
機(jī)器之心行業(yè)評(píng)測(cè)數(shù)據(jù)總表:實(shí)在智能位列第一
更強(qiáng)大的信息提取能力
下面我們來(lái)看一下信息提取能力。日常工作中我們經(jīng)常要匯總報(bào)表,把 A 系統(tǒng)的信息下載下來(lái)處理之后錄入到 B 系統(tǒng)(例如財(cái)務(wù)的報(bào)稅),這需要大量的信息提取以及加工處理再操作軟件去完成,這是一個(gè)非常重要的工作。這里面有一個(gè)概念是 IDP——IDP 是智能文檔處理(Intelligent Document Processing),它是集信息提取和信息處理等能力的 AI 產(chǎn)品,它每一項(xiàng)細(xì)粒度的能力可以在 RPA 里作為一個(gè)組件,與自動(dòng)化的部分拼裝起來(lái),完成各種各樣的工作。
在 IDP 領(lǐng)域里,常見(jiàn)的任務(wù)有識(shí)別各種格式、各種介質(zhì)的文檔,對(duì)比不同格式的文件,抽取合同中的主體(包括甲乙方信息、訂單編號(hào)以及約定內(nèi)容),特別是表格里的信息也要抽取出來(lái),如果抽取的信息有問(wèn)題,后面還要做自動(dòng)的校對(duì),有些還要根據(jù)業(yè)務(wù)邏輯做校正,這里面應(yīng)用了大量相應(yīng)的技術(shù),包括 OCR、NLP 中的長(zhǎng)短實(shí)體抽取等。
即使是看起來(lái)非常簡(jiǎn)單的文檔,比對(duì)和審核也要用到非常多的智能化技術(shù),比如對(duì)頁(yè)眉頁(yè)腳的識(shí)別、對(duì)表格區(qū)域的識(shí)別和還原、對(duì)分欄區(qū)的處理,其實(shí)都需要特定的技術(shù),而不是一個(gè)通用的識(shí)別就能做好的,其中每一項(xiàng)都要做得非常細(xì)致,提高準(zhǔn)確率。在合同對(duì)比或者財(cái)務(wù)、法務(wù)的工作中,這是非常常見(jiàn)的工作,比如我們?cè)谀骋粋€(gè)地方做了一點(diǎn)點(diǎn)修改,修改前后的文檔到底有什么差別;或者在不同的文檔處理階段,比如在簽訂合同時(shí)識(shí)別出合同風(fēng)險(xiǎn),并編輯其中的內(nèi)容,這都跟 IDP 的相關(guān)技術(shù)有關(guān)。例如圖片介質(zhì)的信息怎么跟電子文檔的信息對(duì)比,其中包含非常多的細(xì)節(jié)。
RPA 還需要有更強(qiáng)大的信息提取能力,包括表格識(shí)別等。例如在電商領(lǐng)域有各種商品的類(lèi)別和型號(hào),通過(guò)拍照片就可以把里面的信息提取出來(lái)。OCR、NLP 等原子化能力對(duì)于數(shù)字員工來(lái)講非常重要,可以變成設(shè)計(jì)器里的組件,幫助我們快速拼裝出不同能力的機(jī)器人。
基于前面的討論,我們實(shí)在智能的產(chǎn)品矩陣如下圖所示,左側(cè)是 RPA 產(chǎn)品四件套,我們有一個(gè)使用起來(lái)非常方便的低門(mén)檻設(shè)計(jì)器,設(shè)計(jì)出來(lái)的東西運(yùn)行在機(jī)器人上,當(dāng)有很多機(jī)器人的時(shí)候,就用一個(gè)控制器去調(diào)度、分配任務(wù),在有很多數(shù)據(jù)的情況下,我們可以通過(guò)云腦訓(xùn)練出決策的模型,這樣可以達(dá)到第四階段——幫助人進(jìn)行決策。另外我們有 AI 的產(chǎn)品矩陣,這個(gè)產(chǎn)品矩陣以 RPA 為底座,就可以構(gòu)造出各種各樣實(shí)用的數(shù)字員工。
應(yīng)用案例
下面我介紹兩個(gè)應(yīng)用案例:一個(gè)是我們和銀行合作的智能審單案例。這家客戶(hù)有三四百名員工,他們負(fù)責(zé)審核大型企業(yè)的資金流水、合同以及資質(zhì)證照等相關(guān)事物,最后去給客戶(hù)做授信,但授信額度是通過(guò)人的經(jīng)驗(yàn)并結(jié)合一些規(guī)則做出的判斷。在這種情況下,我們通過(guò) IDP RPA 的場(chǎng)景化能力幫他們做信息審核、提取、比對(duì),最終幫他們完成了智能審單。
第二個(gè)客戶(hù)是一個(gè)電商頭部品牌客戶(hù),我們運(yùn)用實(shí)在 RPA 技術(shù)把對(duì)于該客戶(hù)的評(píng)論從多個(gè)平臺(tái)里匯總出來(lái),并通過(guò)智能決策的平臺(tái)訓(xùn)練出模型,挖掘出里面隱藏的差評(píng),通過(guò)差評(píng)分析反向?qū)I(yíng)銷(xiāo)作出進(jìn)一步的決策。實(shí)際上這是一個(gè)結(jié)合云腦和 RPA 做的智能評(píng)論分析場(chǎng)景。
對(duì)于一個(gè)企業(yè)來(lái)講,他們?cè)诮佑|自動(dòng)化的時(shí)候都是從單點(diǎn)開(kāi)始的,但一旦用上自動(dòng)化的技術(shù)后,從人的天性來(lái)講是不愿意再退回到手工時(shí)代的。因此單點(diǎn)的自動(dòng)化和智能化就會(huì)逐步過(guò)渡成部門(mén)級(jí)別的解決方案,再下一個(gè)層級(jí)就是整個(gè)公司級(jí)別的。如此推動(dòng),企業(yè)的數(shù)字化轉(zhuǎn)型以及超自動(dòng)化的藍(lán)圖就會(huì)逐步形成,整個(gè)組織的生產(chǎn)流程也會(huì)因?yàn)樽詣?dòng)化和智能化的加持,發(fā)生本質(zhì)性變化。
基于前面的討論,我們可以看到 RPA 已經(jīng)不是一個(gè)傳統(tǒng)的只能做規(guī)則化事情的技術(shù)了,我們更看好的是其與人工智能技術(shù)結(jié)合的應(yīng)用與落地。我們知道人工智能的應(yīng)用與落地,本質(zhì)上是依賴(lài)于數(shù)據(jù)的,而 RPA 讓數(shù)據(jù)的獲取成本變得非常低,這種情況下再結(jié)合自動(dòng)化,未來(lái)的空間是非常廣闊的。在使用門(mén)檻、拾取能力、穩(wěn)定性、實(shí)施效率和性能方面,AI 都會(huì)發(fā)揮很大的作用,我們希望通過(guò) AI 技術(shù)的加持,讓 RPA 成為一項(xiàng)普適性技術(shù)。
從大勢(shì)上看,數(shù)字員工會(huì)隨著人工智能未來(lái)的落地逐步滲透到千行百業(yè),我們也對(duì)這個(gè)領(lǐng)域非常看好,將持續(xù)通過(guò)智能化技術(shù)的創(chuàng)新和應(yīng)用來(lái)賦能和改造這個(gè)行業(yè)。以上是我的分享,謝謝大家。
歡迎分享轉(zhuǎn)載→http://m.avcorse.com/read-218968.html
Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號(hào)-5 TXT地圖HTML地圖XML地圖