金融初創Apoidea推「進階版OCR」 AI辨識文件資料

蘋果日報 2021/06/18 14:04


香港金融初創公司Apoidea其中一項業務是以人工智能(AI)技術,向金融機構提供文件資料整理及分析服務。聯合創辦人鄭其森表示,過往所採用的字元辨識(Optical character recognition、OCR)技術已沿用30年,而且需要為個別文件設立樣板才可再作分析,但金融機構所處理的文件種類繁多,就算是同一類文件,不同機構的排版設計亦各有不同,因此公司研發近20個針對金融機構處理文件的深度學習模型,以節省分析時間。
鄭其森指,現時針對文件資料提取的公司不多,仍然有龐大市場,根據非正式統計,金融機構約有6至7成中後勤員工,他們大部份工作時間用作核對財務報表和月結單等資料,因為工作性質單一,所以員工流失率很高,因此公司便以AI技術,提供文件資料提取服務,例如一份400頁的財報需要抽取約400個會計項目作信貸分析,以人手處理需時4至5小時,但公司可以協助客戶在5分鐘內整理整份財報資料,再在15分鐘內轉化成較方便查閱的介面。
Apoidea的服務建基於AWS的基礎設施。鄭其森指,公司有客戶要求在5分鐘處理一份400頁的財報,因為除轉化成文字外,亦要作深度分析,需要用到大量顯示卡(GPU)在同一時間作運算,不過公司自行設立數據中心不合乎成本效益,所以便採用AWS的基礎設施服務。
鄭其森說,公司目前研發近20個針對金融機構處理文件的深度學習模型,包括可以處理圖表、以及皺了的文件、甚至模糊的字體,但效果只和常人相近,即肉眼辨識不了的話,深度學習模型亦無法辨識。他續指,該20個深度學習模型主要可分為視覺訊息人工智能和自然語言處理(Natural Language Processing, NLP)兩種,前者和OCR類似,後者則可以嘗試判斷字元之間的關係,例如財報有一個項目為或有負債(Contingent Liability),即該公司有沒有潛在法律責任和潛在罰款,通常會在財報中以句子表達,透過NLP可以釐清該公司與其他公司的法律責任。
鄭其森表示,Apoidea在2017年成立,有70多位員工,有一半為研發人員,在海外如澳洲、日本等有設立分公司。現時主要為金融機構處理財報和月結單,為全球約30個客戶提供AI文件處理服務,正計劃和大型零售商合作,協助其處理收據和發票分析,未來可能擴展至處理半正式法律文件。
-----------------------------
蘋果App大升級 更簡潔更就手!了解更多立即下載體驗
-----------------------------
一書盡覽新手必讀資訊
-----------------------------
【全球樓行】 Dream House零距離
屬於香港人的移民攻略