環球創業頻道導航欄_fororder_WechatIMG203

    滾動   |   環球快訊   |   環球專訪   |   政策解讀   |   會員頁面   

蘇景志:雲原生湖倉一體 激活數據産業新動能

2022-05-10 16:57:31  來源:中央廣電總臺國際在線  責編:鄭思雯

  國際在線消息:5月10日,由中國軟體行業協會主辦的2022中國軟體産業年會舉行,大會以“數字經濟新時代--軟體産業賦能高品質發展”為主題,盛邀産業主管部門領導、兩院院士、京津冀行業主管部門領導、國內外軟體領域知名專家、領軍企業負責人、行業組織和機構代表等業界翹楚及權威媒體,傳遞政策之聲、洞察産業之勢、研究發展之策。

  大會現場,北京偶數科技有限公司副總裁蘇景志致辭。

蘇景志:雲原生湖倉一體 激活數據産業新動能_fororder_蘇志景.JPG

  以下為實錄全文:

  蘇景志:尊敬的各位嘉賓,大家下午好!

  我是來自北京偶數科技的蘇景志,今天跟大家分享的題目是雲原生湖倉一體方案,激活數據産業新動能。

  北京偶數科技,在數據領域一直是默默耕耘。經過這幾年的努力,我們也取得了一定的成績,我們一直秉持著用戶至上、技術為本的理念,以優質的産品和服務,來回報市場客戶。

  偶數科技成立於2016年12月,它是由ApacheHAWQ數據庫頂級項目創始人和團隊創立的,之後我們又獲得了金山雲、騰訊互聯網巨頭的加持,現在估值已經超過10億,在雲原生賽道上一個準獨角獸的企業。公司的技術實力非常的精深深厚,很多研究成果已經在國際頂級學術會議上得到了發表和錄用。

  偶數科技最核心的産品是新一代的雲原生數據倉庫。這個産品充分的利用了雲原生的存算分離、彈性擴展的架構優勢,目前可以説是世界上最快的數據庫引擎之一。以新一代偶數DB為核心,又構建了機器學習的平臺、數據管理平臺、數據分析平臺,為完整一體的産品矩陣。我們支持主流的公有雲部署,也支持私有雲的方式,支持混合雲的方式,可以為用戶提供海量統一數據存儲的方案,數據的秒級分析,也可以提供國産化替代的整體解決方案。

  偶數科技是高新技術企業,同時也是北京市專精特新企業。作為一個軟體企業,我們在軟體成熟度方面,已經獲得了CMMI5最高等級的認證證書,同時我們的産品也有相應的涉密認證、安全認證等等,這是公司獲得相關的榮譽。2021年數據庫産品,入圍了中央國家政府機關採購的名錄,同時也全面響應國家對信創的要求,我們是工委會成員單位,也和主流的作業系統、主流的現在國産的CPU架構、主機廠商都進行了相關的相容適配的認證。

  耕耘了五年,偶數科技現在在國內頂級的金融領域、電信、電網、能源,IT要求很高,而且對性能要求非常高的客戶裏面都有很多的應用,我們簡單列出了幾個。同時也説一點,在疫情當下,2020年在武漢湖北的抗疫攻堅戰支撐當中,偶數科技的數據庫也發揮了應有的作用,貢獻了我們的一份力量。

  第二部分給各位領導彙報一下實時湖倉一體解決方案。

  提到湖倉,先把數據倉庫與數據湖的概念簡單做一個闡釋,數據倉庫主要是要解決以前比較規範成熟的問題,數據在進入倉庫之前,要進行規範化的清洗等整理工作,如果不滿足要求,根本就進入不到倉庫裏面來,從此可以保證數據的品質和規範性。而數據湖本身面對的問題有所區別,它的定位更多要解決一些未知的問題,可能存儲的時候我們還不是很清晰數據庫接下來怎麼分析、怎麼利用,但是此時此刻首要要把靈活、海量的數據先記錄下來,後續讀取的時候再建立一種結構,讀取型的支持,複雜的大數據的分析、查詢。所以一句話,數據湖是讀取型的,而數據倉庫是寫入型的。

  從上世紀80年代,數據平臺經歷了四個階段的發展,從最開始的數據庫的階段,Oracle是典型的代表,都是共享存儲的專用架構、高端的硬體設備獨佔。在處理交易性業務的時候,性能比較好,但是一旦到了大規模集群的時候,性能有了很大的瓶頸,超幾十台之後很難支撐。第二個階段,隨著分析型需求的逐漸擴展,出現了單獨的分析型的數據庫,也就是稱之為數據倉庫。數據倉庫以MMP架構無共享存儲架構為主,走過了專用的硬體到普通的X86支持的結構,性能得到了很好的提升。但是也有一個問題,就是在數據類型的支持上,有著明顯的不足。隨著互聯網的應用大規模普及,需要一種面向更大規模數據的、更多類型數據的、一種更多維度數據的大數據場景的解決方案,進入第三個階段就是以Hadoop開源結構為基礎的數據湖和數據倉庫並存的階段逐漸到來了,數據中臺的概念在各個企業裏面得到了比較好的普及。但是Hadoop擴展性非常好,可以達到上千節點,但是在性能處理上,無法替代原有的數倉功能,因此這個階段使這個類型的架構並存,這樣給用戶帶來架構的複雜度,也會帶來軟體硬體成本急劇上升。到2019年之後,隨著雲技術的普及和廣泛的應用,隨著元原生技術進一步的發展,逐漸進入到湖倉一體的階段。

  剛才提到數據湖與數據倉庫各有各的定位,有各自的優點與不足,都非常突出。很自然的想到是不是把底層打通一下就會很好了,當然很多企業已經開始這樣做了,已經做了很多的嘗試。這樣做的好處,可以充分利用原有的設施,可以利用已經搭建的Hadoop數據湖平臺,存儲海量的原始數據。同時把原始數據經過預處理之後,再導入到數據倉庫裏面進一步的進行處理,完成用戶的一些報表、查詢實時性比較高的應用。這可以看作是湖倉一體的最初雛形階段,有很大的意義,但是我們可以看到數據湖與數據倉庫,還是在各自一體的階段,他們之間只是有聯繫,但是架構並沒有統一,複雜度的問題、成本高的問題,依然沒有解決。

  從湖倉各自一體,過渡到真正的湖倉融為一體,偶數科技在這方面提供了比較好的解決思路和方案。真正的湖倉融為一體的方案裏面,是以新一代的雲原生架構的數據倉庫為基礎的,為什麼原來數據湖會出現,因為數據倉庫解決不了新型數據的問題,解決不了海量數據的廉價統一存儲問題,但是隨著技術的進步,新一代雲原生倉庫完全可以解決這個問題,就可以在一個統一的平臺上,一個統一的數據倉庫裏面,把用戶的數據完完整整的保存一份在底層,不需要再進行複製,不需要再進行倒換。在底層的數據統一之上,進行統一的加工處理,對用戶不管是BI,還是報表業務,還是像數據探索類的業務,都可以提供支撐與服務,真正簡化了數據架構的複雜度,也極大降低了成本。

  我們總結湖倉真正一體的方案,應該具備以下六個特點:第一,極低成本實現數據的存儲;第二,提供高性能的數據計算引擎;第三,具有良好的可擴展性與敏捷性。第四,事務一致性保證數據倉庫優良特徵,在新的方案裏面得到無損耗的保證。第五,統一平臺支持多樣化的工作負載,無論是批處理、即時查詢,還是AI、BI都可以在一個平臺上統一負載支撐。第六,實現數據治理和數據高品質的保證,因為一份數據,相互之間的冗余減少了,互相不一致性自然就大幅度的降低了。只有滿足了以上這六個特點,我們認為才是真正的湖倉融為一體的解決方案。

  我們提供的首先是存儲分離,我們有統一的存儲引擎,可以對接各種不同的可插拔的存儲方式,像大家常見的S3塊存儲,像大數據裏面經常用到HDFS,還有表存儲的方式都可以很好的相容支持,在此之上按照構建非結構化的數據區、結構化的數據區,底下數據平臺打成一整塊,不需要分割。上邊的計算平臺,有非常良好的虛擬計算集群技術K應,可以按照業務的需求構建不同的集群。需要強調是,集群每個計算節點,都可以對節點進行訪問,沒有障礙,只要符合規則、符合要求就沒有問題,這樣的話在底層數據是完整一塊,上邊計算集群、彈性伸縮、按需分配,需要的時候就充分使用,不需要的時候及時釋放,共享給其他用戶使用,這樣架構簡潔,而且效率極大提高,有效降低用戶的使用成本與維護成本。

  這是偶數湖倉一體平臺的技術總體架構,大概分為三個層次、四個部分,最下面是統一的數據採集平臺,是由偶數技術平臺提供的功能,像批量採集、流失採集、資料檔案的入庫都在這一層實現。中間統一存儲計算平臺,包含實時數據處理集群,存儲計算的集群,也包含了AI自動學習的集群。在上層服務能力開放層,我們支持數據工廠、數據服務,包括資源服務,它們都可以以API的方式向上層提供多用戶的開放介面。整個平臺提供統一的平臺管控,提供統一的平臺治理結構,能夠更好地支撐上邊的像精準行銷、風險控制、運營優化、自助查詢、監管報送等應用場景。

  這是我們存儲架構具體的細節,不再贅述。

  説到實時,業界裏面最常見的是Lambda和Kappa,分別在互聯網與傳統裏面有廣泛的應用,這兩個架構優點很明顯,缺點也很突出。比如説Lambda兩套數據一致性難以保證的問題,比如説Kappa 對Kafka大量依賴,Kafka有原生的,他們的性能有待提高。在按需智慧需求出現之後,偶數科技于2021年已經5歲,偶數科技我們自己命名Omega全實時數據處理架構,這個架構包含兩個大部分,一個是流數據的處理系統,一大部分是實時的數倉系統,我們融合了Lambda架構和Kappa架構,對流數據良好的支撐,同時也增加了按需實時智慧與離線實時智慧的能力,同時對變更數據的實施試圖,也提供了非常良好的支持。

  這是Omega架構具體到實時的時候,整個非常簡潔,層次非常清晰,用戶使用也會非常方便。如果一旦有數據的問題,需要去追溯,需要去追查,也是很方便、很容易的。

  最後花2分鐘向大家彙報一下三個典型案例的分析。這是東方證券東方數倉的項目,東方證券也是國內大中型證券企業,數據量也非常大,現在以我們新一代雲原生倉庫偶數DB為基礎,構建東方證券統一的數據平臺,替代了它原有的數倉,同時也滿足當前國家對金融信創相關的要求。建設銀行是偶數科技非常重要的案例和客戶,我們基於偶數新一代湖倉一體化方案,提供的建行湖倉一體系統裏面,在保證上千級別節點可擴展性的情況下,支持秒級在線的動態擴容。而且高性能的CMID執行器與優化演算法,使得我們能夠在國際標準測試方面,比Greengrass快10倍,這是整體架構。因為我們跟建行合作非常好,建信金科作為具體承接的支撐單位,非常認可偶數科技的實力,單獨跟偶數成立高性能大數據處理技術實驗室,以後會合作,內部做數倉的建設,同時合作對外的中小機構、政府的項目合作推進。最後是浙商行分佈式數據平臺,這是我們一個重要的案例。別的效果就不再贅述了,簡單説一句,原來跑批任務完成的話,到第二天下午2點就可以結束,上了我們平臺之後,每天早上8點任務可以審批完畢,可以給領導呈現結果。

  這是我分享的主要內容,最後偶數科技也非常願意與業界同仁一道,共同努力,把我們的數據産業、軟體産業,能夠做大做強,來貢獻我們應有的力量。謝謝!

  (聲明:所有會議實錄均為現場速記整理,未經演講者審閱,國際在線登載此文出於傳遞更多信息之目的,並不意味著贊同其觀點或證實其描述。)

分享到: