招商銀行周天虹:AI時代的分佈式數據庫是什麼樣的?

在AI、大數據技術的推動下,銀行的傳統經營模式正在發生根本性的變化,數據驅動的輕型銀行模式隨之誕生。而在向數據驅動方向奔馳的路上,如何高效處理海量數據成為一個重要的課題。作為我國銀行業數字化轉型的先鋒軍,招行也面臨著這樣的難題。

IT架構轉型是數字化創新的基石,而一個可擴展、高性能的數據庫是IT基礎設施的關鍵支柱,由此可見數據庫之於數字金融的重要意義。

雷鋒網AI金融評論獲悉,在近日召開的華為2018全聯接大會上,招商銀行總行信息技術部總經理周天虹就帶來了《AI時代的分佈式數據庫》主題演講,其中提到,他們正聯合華為共同研發新型數據庫GaussDB,並分享了實踐經驗。

以下是演講精要,雷鋒網AI金融評論進行了不改變原意的編輯:

金融科技興行

多年來招商銀行一直在持續進行戰略轉型。今天我們最新的戰略是金融科技銀行戰略,要致力於打造一家深度科技化的銀行。我們也是一家以零售為主的銀行,所以戰略的主要的內容是要打造零售金融3.0,再以基於銀行卡服務為特徵的零售金融一點零時代,和以生成財富管理為特徵的零售金融二點零時代,招商銀行都搶佔了先機。今天我們要率先開啟零售金融的3.0時代。我們認為主要要做好三件事。第一是要把手機APP打造成零售業務經營服務的主平台。招行有兩個主力APP,目前用戶數已經超過了1.2億,月活超過6000萬。第二是要打造一個全產品,通過全渠道服務全客群的數字化的零售業務的經營服務體系。第三是要創造最佳客戶體驗。

今天一家先進的銀行一定要走數據驅動的道路,不論是營銷獲客,還是服務運營和風控,招商銀行覆蓋了中國境內的130座城市,客群過億,但是招商銀行的網點數量只有1700多家,背後的支撐正是我們正在打造的一個數字化的銀行業務的經營服務體系。

這裡給大家看幾個數據,在線上獲客方面,招行的借記卡線上獲客已經達到了14%,信用卡高達60%。理財產品銷售和消費信貸這些零售業務的主要業務大概有50%左右都已經是完全在線上產生的。為了更好的了解我們的客戶,我們在兩大APP裡面埋點數量超過3萬個,每天收集的客戶行為日誌超過11條。基於客戶的財富特徵和行為特徵,我們每天發起的個性化推推薦超過3億次。

最近幾年,隨着深度神經網絡算法的突破,人工智能迎來了誕生60年後的第一次爆發,在金融行業也有非常多的重要的應用。金融行業是一個經營風險的行業,機器學習在金融的風控方面正在發揮越來越重要的作用。在新技術的浪潮下,銀行的IT基礎設施也正在發生一些重要的變化,其中有三個板塊顯得越來越重要,就是雲計算、大數據和人工智能。 后兩者都是用於支撐對數據和信息的深度的挖掘和利用。

招行在AI方面也開展了一系列的探索和實踐。

  • 2016年,我們在ATM取現方面應用了人臉識別技術,實現了刷臉取款,這是在金融行業人臉核身的第一個落地項目。

  • 我們知道真正的海量數據,其實是來自於互聯網,大量有價值的信息,是非結構化的文本信息。自然語言處理技術可以幫助我們有效地利用這些信息。招行通過分析在網絡上發佈的各類企業和政府的招中標公告,解析出其中的中標企業中標項目中標金額,已經成為我們對公業務商機發現的起點。類似的,我們通過分析網絡上的法院判決書,解析出其中的原告被告、涉案案由、判決結果,用於對個人客戶和企業客戶的風險預警。

  • 我們正在大力地構建企業級的零售客戶關係圖譜,和企業客戶關係圖譜,用來刻畫個人和個人,個人和企業,企業和企業之間各種複雜的關係。目前這兩個圖譜已經覆蓋了1.2億的個人節點和5000萬的的企業客戶節點。

  • 智能問答是自然語言處理技術和知識圖譜這兩種技術的綜合運用,招行目前在超過600個場景已經接入了智能問答系統。

  • 在金融行業,營銷風控和智能投顧是機器學習的主戰場,2016年招商銀行推出摩羯智投,今天業務規模已經超過了120億,服務的客戶接近20萬,是銀行業最大的智能投顧產品,而且投資績效長期是基於居於公募基金的前30%。

  • 零售客戶每一筆交易都會接入反欺詐平台,在這個平台上部署了一系列複雜的規則和模型,但是平均的處理時間只有50毫秒,實現了真正的實時智能反欺詐。

一個大型銀行,一個比較有規模的經濟體,就會涉及到大量的人財物這些資源的調度和配置。機器學習在預測規劃方面可以發揮很好的作用。招商銀行我們在這方面也做了一些探索。比如說網點客流的預測,網點業務量的預測,ATM的現金預測AI技術和大數據技術正在快速的融入到銀行的技術體系,深刻地改變了銀行經營管理服務的方方面面。

可擴展高性能的數據庫是IT基礎設施的關鍵支柱

在AI技術和大數據技術的推動下,銀行的傳統經營模式將發生根本的變化,產生一種全新的數據驅動的輕型銀行模式。招商銀行正在向數據驅動的方向發展,技術上要求對海量數據進行非常高效的處理。一個可擴展高性能的數據庫就成為IT基礎設施的關鍵支柱。

招商銀行對一個先進的數據庫有六個方面的要求:

  • 首先因為要處理海量數據,所以需要高擴展。

  • 第二,金融場景越來越需要對海量的數據進行從准實時到實時的處理,這樣就需要高性能。 

  • 第三,銀行業對整個信息系統的業務連續性有非常高的要求,因此需要高可用。

  • 第四,我們希望計算和存儲分離,這樣計算資源和存儲資源就可以按需分配;我們也需要對龐大集群上的不同的應用有效的隔離,這樣就需要多租戶,這些都可以歸結為雲架構。

  • 第五,因為數據庫的規模很大,需要易於運維。

  • 第六,我們希望在應用層面避免分庫分表,開發人員可以像使用集中式數據庫一樣來使用分佈式數據庫。

但是現在市場上缺乏滿足這六個要求的成熟產品。常見的做法是在開源數據庫上分庫分表,比如使用Mysql,招行也是Mysql的重度用戶。但一方面Mysql存在着一些明顯的不足。比如說單庫性能容量不佳,Mysql單庫容量一旦超過500G,性能就急劇下降;高度依賴分庫分表,複雜性高,擴展性差;另外沒有原生的高可用方案。

另一方面,各種新型數據庫,如NoSQL,也都存在着局限。比如說基本上對於數據庫四大事物特徵ACID(原子性Atomicity、一致性Consistency、隔離性Isolation、持久性Durability)支持不足,這樣就無法用於金融的一些關鍵場景。

GaussDB從零到有

華為有打造數據庫產品的意願,招行也有需求有場景有實踐經驗,兩家一拍即合。去年11月,雙方共同成立了分佈式數據庫聯合創新實驗室,要打造一款領先的數據庫產品,命名為GaussDB。

這款產品目前已經發佈了高性能的企業級內核以及分佈式高可用特徵。招商銀行也開始在兩個重要的業務系統的生產環境實際使用,即綜合支付交易系統和信用卡重資產營銷實時展示系統。

聯合創新實驗室對GaussDB提出了四個方面的建設目標:

  • 第一是高性能企業級內核,要完整地支持分佈式事物,滿足金融行業對數據強一致的要求。單機的事物處理能力要達到每分鐘百萬級別。

  • 第二個目標是要支持分佈式高擴展,支持線性擴展,擴展比要大於0.8,要支持集群的在線擴容,擴容時業務要零中斷。

  • 第三個目標是分佈式高可用,在單數據中心內要支持RPO (Recovery Point Objective,復原點目標)等於0的前提下,RTO (Recovery Time Objective,復原時間目標)達到秒級,同時要支持多數據中心,多副本、多活,故障可以自動診斷、隔離和切換。 

  • 最後是分佈式雲化,就是要支持計算、存儲分離和多租戶。

未來數據庫是什麼樣?

關於未來數據庫的總體架構,招行有三個方面的主要的思考:

  • 首先要大力發展分佈式數據庫,結合數據庫總體架構的轉型,使數據庫能夠更好地支持業務發展。

  • 第二,招行目前的主力數據庫種類多達12種,未來要精簡主力數據庫的品種,精簡數據庫技術棧,方便開發和運維。

  • 最後要利用AI技術和機器學習技術,持續構建高度自動化智能化的數據庫的運維管理體系,實現低成本規模化運維。

更多資訊,請關注雷鋒網AI金融評論


想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems