設為首頁 | 加入收藏 | 今天是2024年11月18日 星期一

聚合智慧 | 升華財富
產業(yè)智庫服務平臺

七禾網首頁 >> 快訊要聞

13屆國際期貨大會:科技發(fā)展與信息安全論壇 實錄

最新高手視頻! 七禾網 時間:2017-12-08 11:45:07 來源:七禾網


吳旭:構建期貨行業(yè)打通業(yè)務的大數據平臺


  吳旭:各位領導,專家,大家好!非常榮幸今天有這樣的機會來跟大家分享阿里巴巴和大數據體系的構建,以及我們非常希望通過這樣的機會,能夠通過阿里巴巴的大數據建設,能夠對我們后面證券期貨行業(yè)構建自己的大數據平臺有些借鑒和幫助。


  阿里巴巴,我們的馬老師在很多不同的場合都把阿里巴巴定位為數據公司,而不僅僅是一個電商公司,定位在數據公司的目的不是號稱阿里巴巴擁有多大量的數據,其實是想強調阿里巴巴是一個靠數據來驅動業(yè)務,通過數據來挖掘業(yè)務價值,來最終提升業(yè)務能力的公司。所以這也是作為阿里巴巴整個的核心競爭力。其實通過這樣的定位以及在之前我也思考怎么定義今天的演講題目,因為時間有限,半個多小時的時間,更多的用非常通俗的詞“打通業(yè)務”,題目的選擇也是強調大數據的建設不是單純從技術角度去建設,一定是一個從技術和業(yè)務相結合,最終是要發(fā)揮出業(yè)務價值、數據價值這樣的定位。所以說以這樣的定位,我們的介紹圍繞三方面,可能更多介紹技術細節(jié),介紹技術細節(jié)不是強調技術,而是強調技術背后的思想,這個思想能幫助我們挖掘更多的數據和技術的價值。


  一是圍繞數據賦能期貨行業(yè),更多是從技術的角度探索。二是方法體系,阿里巴巴如何構建大數據體系,并不是阿里巴巴構建大數據技術和如何使用大數據技術,體系和技術之間有區(qū)別,光有技術不足以幫助你實現業(yè)務價值的提升,有了技術,我們還要有正確的方法,利用這個正確的方法才能有助于發(fā)揮出最終的技術價值。有了技術和方法,我們是要選擇合適的場景去應用。三是介紹以客戶為中心的數據應用的場景。咱們的客戶包括自然人、公司客戶、對公客戶等等。最終的場景其實又會返回到技術。今天我們看到三者的邏輯關系有內在的邏輯關系,場景最終如何反饋到技術?大數據有一個理念場景化,根據不同的場景來選擇最適合的技術,幫助我們解決業(yè)務問題。所以說從技術、方法體系、場景這三者之間是一個閉環(huán)。我們以這樣的思路來開始今天的介紹。


  這張圖是阿里巴巴構建大數據體系從技術能力的角度的能力框圖或者技術圖譜,這張圖展開來講也是按分層、分塊的思路構建,最下面大數據的物理設施,不管是公共云還是專有云,現在阿里對外所賦能,這兩種模式都支持,支持幫助客戶在自己IDC中心構建大數據平臺。物理設施之上是從整個大數據體系當中比較基礎或者核心的部分,計算引擎,計算引擎我們會看到分了幾部分,這也體現了剛才說的場景化,大數據的業(yè)務應用有場景化,從數據處理的角度來講依然具有場景化。這幾個場景,我們梳理了大數據領域當中經常用到或者最集中的幾大場景,分別是大數據的批量計算、離線計算,后面還會展開。也就是傳統(tǒng)做一些數據平臺,可能80%、90%的業(yè)務負載都是集中在批量、離線的場景。第二個場景是實時交互分析場景,我們有了后臺更多的跑批,我們需要更多的業(yè)務人員能直接利用數據,直接跟數據打交道,讓他們直接使用數據。這個能力需要有很強的交互能力維持,當用戶有請求,不可能等十幾分鐘或者更長的時間反饋結果,要秒級或者毫秒級的反饋。三是云計算,事件驅動的云計算模型。不管是金融營銷、風控都會結合云計算的能力。四是表格存儲,類似很多SQL。五是對象存儲,我們的批量處理、實時交互等更多圍繞結構化數據展開。在金融行業(yè)里面積累的日志文件、圖片文件、音視頻文件,里面孕育很大的業(yè)務價值,如何利用這些數據,也是大數據構建當中必須考慮的環(huán)節(jié)。


  不同數據處理場景,在阿里內部來講,技術人員使用門檻不高,數據分析人員更多的有SQL的能力,這些工具要求數據分析人員掌握SQL就可以平滑的使用。這強調了一點,我們并不是為了追求新的技術,追求最時髦的技術而展開,我們是為了最終發(fā)揮出業(yè)務價值。這個是從數據處理引擎,再往上就會包含數據開發(fā)的能力,調度的能力,源數據管理的能力。作為大數據平臺,如何知道一個數據的地圖、一個地圖的脈絡,上游的血緣、下游的影響,要作為整體,從數據管理的角度來講是要作為整體,變成可追溯和可跟蹤。再就是數據集成服務,不同的數據源、易構的數據源是作為一個整體來協同向用戶提供業(yè)務能力的輸出(音)。這里面包括很多,比如面向物聯網采集數據,傳感器采集數據,這些數據如果整合到大數據平臺,這是數據集成的能力。再往上業(yè)務支撐層,位于底層平臺和上面的業(yè)務應用中間層,這層面向有共性業(yè)務需求,我們可以把這部分能力沉淀下來。這里面在阿里內部來講有這么幾個能力,數據服務能力、邊緣分析能力、智能算法能力、可視化服務能力,我今天不會一一介紹,只是選取幾部分介紹。


  大數據能力體系我們可以概括四個字“算、管、聚、用”。大數據的計算、管理、聚合、應用,這樣構成了整個大數據體系。但這里面缺少不了整個平臺的運維,因為我們知道作為一個平臺來講,平臺在線擴容、平臺的監(jiān)控、預警等等能力都必不可少,這是平臺平滑運營很重要的一環(huán)。這是整個阿里巴巴數據內部的大數據平臺,這些能力,我們現在都是可以通過公共云以及專有云的方式向客戶進行賦能。


  我們著重強調幾個點,批量計算能力強調兩點:一是多租戶能力,傳統(tǒng)數據平臺可能由于一個任務,SQL寫的有問題,導致整個資源的耗盡。現在大數據平臺要具有多租戶的能力,能控制每個租戶下能使用硬件資源的上限,比如我可以控制它最多使用多少核CPU、最大使用多大的內存,這個租戶下如果發(fā)生一些查詢SQL寫的質量有問題,不會影響整個平臺其他租戶的查詢。二是跟安全相關,我們給一家商業(yè)銀行構建大數據平臺的同時,幫助他去做了整個銀行內部的數據資產管理,這個資產管理更多的是從安全層面,幫助他去構建數據平臺內部數據的安全等級,同時幫助它規(guī)劃用戶的安全等級,這樣我們就能夠把它什么樣等級的數據,對應什么樣的人員能夠訪問,這個體系能夠建立起來。這對于整個數據安全來講,是非常重要的。我能夠識別出我的數據安全等級,同時對應我數據的使用人員,對于什么人看什么數據完全做到可控。


  剛才我們提到非結構化數據處理,現在我們有大量的日志的文件,音視頻的文件,這些數據我們怎么發(fā)揮出它的價值?在阿里巴巴其實也是能夠把我們的對象存儲和大數據處理平臺相結合,這里面做了一個技術性的事例,這是日志文件典型的非結構化數據,如何通過大數據平臺建立一張外部表關聯數據文件,傳統(tǒng)的做法,要分析的時候可能還會讀出來,放到另外的位置再解析?,F在保留在原來存儲的位置,通過大數據平臺外部表技術的能力,在數據不移動的前提下解析它、分析它。像分析本地表一樣簡單,這是對于非結構化數據處理,需要我們在這方面建設。對于日志文件、音視頻文件、圖片文件都有對應的接口來滿足不同場景的需求。


  實時交互,剛才說針對批量,實時交互滿足用戶提交請求,不管做多少表格關聯、多大業(yè)務關聯、多大數據量,都可以達到秒級和毫秒級訪問,這是阿里巴巴內部應用中,在事實交互計算來講對應的場景。應用很多類似全表索引等等技術,如果把這些技術應用到極致,在用戶查詢的時候,在阿里巴巴面向數據運營人員和商家都會有數據實時交互的場景。怎么滿足這種業(yè)務運營人員的身價在查數據的時候,并不是說體驗很差,能夠滿足他們的體驗,滿足業(yè)務的時效性。這是實時交互計算能提升的數據價值和業(yè)務價值。


  流計算,這是今年雙十一最終的交易圖,從10號零點到11號24點,這個大屏的數據每時每刻都在變化,那也就是大屏背后的數據體系是流計算支撐的體系,我們展現出來的是大屏效果,但是背后有一套流計算體系,實時抓取數據、實時展現,這是流計算全鏈路的體現。流計算并不是一個點,而是一個鏈條。如何面向不同的數據源做到實時采集、實時計算、實時展現,這個能力的建設是一個完整的能力體現。


  另外我們提到涉及到這么多數據源,而且不僅僅是數據源,在企業(yè)內部、金融企業(yè)內部會涉及多種多樣的數據源,如何把整個體系作為整體集成起來?這是阿里巴巴從技術研發(fā)的角度去做了很多工作。在阿里云內部來講,各個數據源都是有對接的接口,作為一個統(tǒng)一的體系把這些異構的數據源作為整體整合起來。


  說完了數據計算,我們再談數據分析,數據分析分幾個層面:比較基礎的BI分析,數據建模分析、可視化分析。BI分析舉一個簡單的例子,我們在給商業(yè)銀行服務的大數據平臺,在建平臺的同時幫助他做了一個內部的自助查詢項目,解決了整個行業(yè)內業(yè)務部門70%的報表查詢的數據。傳統(tǒng)的做法是業(yè)務部門有報表需求交給科技部門,科技部門再進行排期再進行研發(fā),業(yè)務部門拿到數據的時候,這個數據從業(yè)務上已經不關心了,因為有周期。業(yè)務部門70%報表需求完全通過項目體系,自助的做,完全通過拖拉拽和可視化報表完成,剩下30%是復雜的情況,由科技部門幫助他實現。70%的工作量的節(jié)省,對于業(yè)務部門的價值時效性和對于科技部門的人力的成本、工作量的減少都是非常明顯的提升。這是BI分析角度來講我們看到的。對于大數據平臺,我們如何滿足業(yè)務人員直接上平臺里面查數、取數、分析數據,這是我們去發(fā)揮出整個大數據平臺的價值的第一步。BI更多是報表分析、圖表分析,后面有很多建模的場景,包括今天多次提到AI、數據建模、機器學習、深度學習等,這面對特定的數據分析。


  數據分析人員需要有一套體系幫助他構建模型,幫助他去實現這種算法調優(yōu)、算法構建等等一系列的過程。在阿里巴巴內部,現在整個集團差不多有將近4000名以上,不到五千名數據模型分析螈,這些分析人員會有統(tǒng)一的工作平臺,通過這個平臺完成整個數據的預處理,特征工程、模型的構建、模型的調優(yōu),整個到最終的在線發(fā)布,一整套系列都是在統(tǒng)一的平臺上做。這樣能有效的發(fā)揮,像我們耳熟能詳的信用,背后涉及到上百個模型的計算,這些模型都是通過這個統(tǒng)一的工作平臺來實現的。


  數據大屏大家看起來很直觀,通過很多的可視化、可互動的方式,把我們的數據展現成動態(tài)的模式,讓數據活起來、讓數據動起來,好處是我們能看到從傳統(tǒng)報表上看不到的數據的含義。這方面來講,其實我們剛才舉的雙十一大屏是非常典型的例子。在阿里巴巴內部專門有一個整個決策大屏,上面展現BU業(yè)務運營情況。這對于整個的業(yè)務決策、實時的分析,包括系統(tǒng)的運維,這些場景其實對于大屏來講都是非常適合的應用場景。這個場景其實里面幫助客戶已經構建了很多展現的主題,包括幫助你連接數據源,需要我們考慮的是怎么設計整個綁定,怎么設計指標幫助我通過可視化的手段把業(yè)務價值展現出來。


  以上是從技術的視角,從整體的角度介紹阿里巴巴內部去構建大數據體系里面包含的各個技術的組件。光有這些技術組件,它是很重要的一部分,但不是大數據整個體系的全部。像我們蓋房子一樣,光有很好的建筑材料,但是不代表就一定能建立很好的房子。我還需要很好的設計。當然設計里面需要很多基于科學的方法去構建,基于力學、建筑學等等方法構建。數據工程一樣是這樣,我們構建一個大數據平臺,光有這些技術組件是必須,但不是完全的。還需要非常合理、非??茖W的方法幫助我們去實現這個技術組建。在這條路上阿里巴巴通過不斷的積累或者不斷的踩坑,總結出來面向大數據如何合理的去構建一個大數據平臺體系,這個平臺體系能發(fā)揮出我們的業(yè)務價值。阿里巴巴內部,阿里巴巴的業(yè)務板塊,大家比較典型的是電商板塊,淘寶、天貓,還有金融板塊還有菜鳥物流等等板塊,大家都知道,其實還不只是這些,還有很多板塊。這些板塊在集團內部,從數據平臺講是構建統(tǒng)一的數據平臺去支持這些不同的業(yè)務板塊。并不是每個業(yè)務板塊構建自己的數據平臺。阿里把這個數據平臺叫數據中臺,數據中臺解決了整個集團內部數據的存、通、用,存是從武力和邏輯數據的集中存儲,通是把各個業(yè)務板塊的數據打通,打通之后才能發(fā)揮出更多的數據價值,比如客戶的畫像整合是打通的,站在整體的角度看待這個客戶。用是最終的服務于不同的業(yè)務板塊,所以這是整個去構建數據中臺內部包含的一整套的方法體系。


  總結,這套方法體系包含三部分:one-date,整個數據平臺內部跨業(yè)務板塊,數據匯總角度要打通,形成面向業(yè)務分析的模型構建,傳統(tǒng)的類似于像數倉,構建數據基礎層的時候,更多利用三藩市建模的方式,它并不足以支撐業(yè)務用戶直接使用、直接查詢。它解決如何面向業(yè)務分析,企業(yè)內部同一個分析指標有唯一的一套算法,并不是說解決數據的質量和數據不一致的問題,one-date面對分析層構建整個分析的指標和標簽。oneID,圍繞后面講的以客戶為中心,我們知道對于客戶,它在網上的行為會有很多的標記,比如說手機號、郵箱、淘寶賬戶、支付寶帳號,對于每個BU來講,他知道的只是這個客戶的片面的屬性,同時它可能會做營銷的時候,它并不是針對一個人做營銷,而是針對一個手機號做營銷,針對郵箱做營銷,但是背后不能識別出來這些代表的是同一個人。oneID解決的就是打通的問題。面向不同的用戶的標識能給它打通,最終是我能識別出一個具體的自然人、具體的一個公司,這個能力的提升是對于整個從業(yè)務的角度來講,對于營銷、風控都是非常關鍵的能力,是一個關鍵的核心能力。我相信從金融行業(yè)來講,更多的以后會開展面向互聯網的業(yè)務,這種業(yè)務同樣可能遇到這樣的問題。我并不是針對手機號發(fā)廣告,一定是知道這是誰,他有什么樣的行為,在互聯網上有什么行為,針對這個人去給他做廣告。oneService是統(tǒng)一數據服務的能力,大量數據提供服務一定是可管理、有序的,它作為統(tǒng)一的數據服務引擎,數據服務的配置,這樣作為三個one構成整個大數據平臺的方法體系。我更多是說整體的層面,要更細化,包含很多的內容,會細化到構建數據平臺,一個表怎么命名、一個字段、一個指標怎么命名,這里面都是有嚴格的規(guī)范。按照統(tǒng)一的規(guī)范構建數據平臺,才能保持可持續(xù)。這是從方法體系上的介紹。


  OneID,阿里巴巴內部首先識別這個人,通過不同的標簽識別這個人,識別出來之后,后續(xù)再給他提供服務、提供營銷,進行風控的時候,我會有各個不同的數據處理的場景,就是圍繞場景。最典型的就是客戶畫像,識別出一個自然人,這個自然人上在所有的領域,不同的業(yè)務板塊上發(fā)生過的行為,留下這些標簽的記錄,我給它匯總起來,形成完整的客戶標簽。這個其實對于整個金融行業(yè)來講,我們現在都在提客戶畫像,這和傳統(tǒng)的構建360度視圖差別在哪兒?我們把各個渠道的數據整合起來,那時候更多是數據的展現??蛻舢嬒竦哪康氖且o客戶打標簽,這個標簽是計算的結果,這個標簽也是我們獲取數據內外部數據整合利用的結果,通過這些標簽可以做很多工作,做客戶篩選和分群和營銷,其實是更有針對性。所以客戶畫像是我們后面面向很多客戶應用場景圍繞他的服務,圍繞風控、營銷這些場景的基礎??腿悍糯?,企業(yè)內部核心客戶有哪些,或者價值貢獻度最大的有哪些,通過這些客群的梳理,我總結出這個群體有沒有共性的特征,基于這些共性特征做人群的放大,這樣對于整個業(yè)務的拓展,營銷的拓展就會有很大的指導意義。我在做營銷的時候,并不是廣撒網,而是有針對性的撒網。面向一個有目標的人群撒網,這個目標如何確定?它利用了很多AI的技術,通過數據分析的模型去梳理出來、計算出來,這是從客群放大的應用能力。在內部有很多的典型的場景。


  第三個是產品推薦,定位好目標客戶,我們給他推薦哪些產品?我相信在金融行業(yè)里面也會同樣遇到,比如說我們類似于同質化產品非常高的情況,這類產品,我們如何再去面對不同客戶推薦產品?而且這種推薦是基于已經有的歷史數據和實時數據的結合,這兩者的結合是給客戶推薦產品的時候,我會基于他大量的歷史記錄、交易記錄進行計算,同時我會基于這個客戶在當時時間段發(fā)生的動作,他的觸發(fā),比如APP上點擊什么、瀏覽什么、收藏什么,在網站看了什么產品,基于他實時發(fā)生的行為,我去觸發(fā)給他推什么產品。我相信大家在淘寶上都有這樣的感受,我買什么東西,還會給我推送什么產品。背后有很多處理策略,比如冷啟動策略、關聯策略,還有基于客戶行為歷史、交易歷史的策略,它背后有不同的算法。這些技術、算法結合,其實保障了我最終向客戶推薦一定是從計算的角度來講是他最需要的、最有針對性的,這是產品推薦。


  最后是智能客服,我們知道智能客服通道人工智能里面的語音分析,語音轉文本,文本轉語音,還包括很多自然語言解析等等技術,這塊應該說在AI領域能看到已經是實際落地的業(yè)務的場景。像我們去打開支付寶聯系客服的時候,將近90%都是機械座席回答問題,只有極度敏感還有投訴等特殊情況才會轉人工客坐席??头I域利用人工技術領域提升客戶體驗,來降低整個呼叫中心運營的成本,包括我們在這里面還可以做很多事情,比如情感分析,分析這個客戶的語言里面有哪些情感因素,有沒有潛在的銷售線索,其實都是可以通過語言解析和背后的整套算法來幫助我們分析的。


  這是我今天向大家匯報的主要內容。因為時間非常有限,我更多從整體的角度,從宏觀的角度來向大家介紹的。謝謝!



  主持人:大數據是當今時代的高頻詞匯,它已經被廣泛應用于各行各業(yè),對經濟發(fā)展的管理模式、服務模式和商業(yè)模式產生深刻變革。通過聆聽吳旭先生的發(fā)言,我們可以預見,未來大數據的應用在期貨行業(yè)也將大有可為。感謝吳旭先生!


  論壇第一節(jié)到此結束,下一節(jié)我們將開展“金融科技與信息安全如何良性互動分享”的圓桌論壇。首先,請允許我介紹下一節(jié)主持人:華鑫證券有限責任公司技術總監(jiān)王習平先生。王總一直專注于金融和交易信息技術研發(fā),是中國證監(jiān)會證券期貨業(yè)信息化工作專家委員會委員。掌聲有請王總監(jiān)。



責任編輯:翁建平
Total:71234567

【免責聲明】本文僅代表作者本人觀點,與本網站無關。本網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

本網站凡是注明“來源:七禾網”的文章均為七禾網 levitate-skate.com版權所有,相關網站或媒體若要轉載須經七禾網同意0571-88212938,并注明出處。若本網站相關內容涉及到其他媒體或公司的版權,請聯系0571-88212938,我們將及時調整或刪除。

聯系我們

七禾研究中心負責人:劉健偉/翁建平
電話:0571-88212938
Email:57124514@qq.com

七禾科技中心負責人:李賀/相升澳
電話:15068166275
Email:1573338006@qq.com

七禾產業(yè)中心負責人:果圓/王婷
電話:18258198313

七禾研究員:唐正璐/李燁
電話:0571-88212938
Email:7hcn@163.com

七禾財富管理中心
電話:13732204374(微信同號)
電話:18657157586(微信同號)

七禾網

沈良宏觀

七禾調研

價值投資君

七禾網APP安卓&鴻蒙

七禾網APP蘋果

七禾網投顧平臺

傅海棠自媒體

沈良自媒體

? 七禾網 浙ICP備09012462號-1 浙公網安備 33010802010119號 增值電信業(yè)務經營許可證[浙B2-20110481] 廣播電視節(jié)目制作經營許可證[浙字第05637號]

認證聯盟

技術支持 本網法律顧問 曲峰律師 余楓梧律師 廣告合作 關于我們 鄭重聲明 業(yè)務公告

中期協“期媒投教聯盟”成員 、 中期協“金融科技委員會”委員單位