EnginePlus朱亞東:跨越數據爆發式增長到智能處理之間的鴻溝
作者 | 丁園園
當前,在全球企業“上雲”浪潮熱度不減的背景下,企業紛紛將目光聚焦智能升級,衍生數據量因此面臨爆發式增長,對數據處理、人工智能等業務需求也日趨迫切。6月25日,記者與Mobvista匯量科技副總裁朱亞東基於匯量科技新一代“一站式雲原生大數據AI平臺”EnginePlus進行了一次深度交流。
EnginePlus作爲一站式的雲原生大數據人工智能平臺,可爲客戶提供面向多種業務場景的實時數據湖框架StarLake、機器學習框架MindAlpha等自主研發的開源工具,能夠與Spark計算框架深度集成,從而賦能客戶實現更加高效便捷的數據智能升級。
朱亞東博士介紹到:“相比於其他的開源大數據計算框架和公司,EnginePlus平臺具有獨特的優勢,主要在於一站式、雲原生、以及超大規模等特點。”
EnginePlus:聚焦大數據 + AI + 雲原生的“三板斧”
雲原生的數據分析架構,經歷了從傳統數倉,到數據湖,再到湖倉一體的演進,對於湖倉一體的未來,朱亞東有着自己的看法:“湖倉一體的未來方向主要有兩個方面,一是統一數據存儲,二是計算引擎對湖倉一體的適配”。
匯量科技一直在進行有關數據湖和湖倉一體的技術實踐。EnginePlus團隊自研並開源的數據湖框架StarLake,便能夠實現大規模數據的實時攝入和更新,高效構建湖倉一體化分析平臺。
除了數據湖外,對數據進行人工智能建模,更是挖掘數據背後價值、賦能業務的一條重要途徑。EnginePlus團隊自研、開源的機器學習框架MindAlpha,能夠輕鬆處理超大規模離散特徵,並與EnginePlus平臺之上的Spark on k8s、StarLake無縫結合,提供數據智能升級的一體化服務。
另外,企業數字化轉型過程中,“雲原生”概念被經常提及,而EnginePlus便是採用了雲原生的架構,朱亞東認爲:“得益於雲原生的架構和優化,對於用戶來說,能夠做到很快捷的部署,在大幅提升計算效率的同時,也具備很高的性價比。”
記者瞭解到,Mobvista匯量科技的新一代大數據智能平臺EnginePlus近日已與華爲雲進行合作,賦能企業數字化轉型。
在朱亞東看來,此次EnginePlus聯手華爲雲,一方面能夠推進匯量科技的“SaaS工具生態”戰略的執行和落地;另一方面,在全球企業上雲浪潮的背景下,EnginePlus與華爲雲實現產品技術層面的深度集成,從而賦能更多雲端用戶、助力其業務增長,同樣有益於華爲雲的服務生態。
談及未來EnginePlus的發展方向,朱亞東希望在未來可以構建新一代的基建體系,幫助客戶用最低的技術門檻、最低的成本、更小的風險實現數字化轉型、智能化升級:
“我們希望能幫助客戶快速建立起從數據攝入、分析到AI模型離線訓練、在線預測的一體化能力,從而快速高效地實現企業的數字化轉型和升級。”
以下爲對話精選摘錄:
問:EnginePlus是一個怎樣的產品?在企業業務、數字化轉型過程中,可以幫助用戶解決哪些問題?
朱亞東:EnginePlus是一個一站式的雲原生大數據和人工智能平臺,提供從數據攝入、大數據計算分析、到AI模型訓練、模型線上推理的一站式SaaS服務;目前已應用於互聯網金融、出海電商、移動廣告等多種業務場景。
問:相比同類產品,EnginePlus有何特點?
朱亞東:當前,越來越多的企業都加入了研發開源機器學習平臺框架和大數據計算框架的大潮,比如Google的TensorFlow,Facebook的PyTorch,以及Hadoop,此外,我們看到Databricks也研發了Spark。
然而,市面上主流產品仍存在一些不足之處,例如一些企業提供的AI框架與大數據計算框架之間是割裂的,同時對雲原生和數據湖的支持較弱,且回到AI框架本身,在互聯網語境下,這些平臺對模型的超大規模離散特徵支持較差,並缺乏一體化的在線推理能力;而一些提供開源大數據計算框架的公司,其機器學習框架層面的能力又較弱。
所以,總的來講,EnginePlus平臺具有自己獨特的核心優勢,包括一站式、雲原生、超大規模等特點。
問:此次EnginePlus選擇攜手華爲雲,合作契機是什麼?對於EnginePlus自身發展來講,這次合作具有怎樣的戰略意義?
朱亞東:首先,Mobvista匯量科技和華爲雲已經有比較久的業務合作,相互之間有較好地業務契合度和流暢的業務溝通經驗,這個是基本的背景和前提;另一方面,華爲雲在ICT領域有30多年的技術和業務積累,企業具備很強的針對to B領域的交付方案解決能力,這個恰好是匯量科技“SaaS工具生態”戰略亟需的基礎能力;所以這次EnginePlus和華爲雲的合作,對於匯量科技“SaaS工具生態”戰略的執行和落地都有很好的推進作用;
另外,在全球企業上雲浪潮的背景下,EnginePlus也能幫助雲上企業在充分利用雲商已有服務的同時,實現高效的大數據分析、計算、及數據智能的挖掘和利用,這個對華爲雲的服務生態也是非常有益的。
問:從技術層面,EnginePlus與華爲雲合作模式是怎樣的?
朱亞東:EnginePlus與華爲雲進行了深度的產品技術集成,包括在華爲雲CCE容器引擎之上構建的統一彈性計算引擎,在華爲雲OBS對象存儲之上構建的湖倉一體數據框架StarLake,以及離線在線統一的MindAlpha AI框架。
整體上來講,EnginePlus在華爲雲上實現了高彈性、高性能、計算存儲分離的架構,並能夠實現便捷、快速的部署。牽手華爲雲後,EnginePlus將以其雲原生、一站式數據智能的服務,賦能華爲雲全球客戶,爲其提供從數據分析到智能模型決策的一站式服務。
問:您能簡單聊一聊EnginePlus誕生於怎樣的背景? 這些年經歷了什麼樣的演化?
朱亞東:2017年匯量科技自主研發了以AI+Big Data爲核心的技術中臺架構,之後多個技術中臺組件研發產出,併成功賦能匯量科技的多個前臺業務,包括數據中臺Datatory、統一的計算引擎中臺、以及機器學習中臺MindAlpha等,後來,這些中臺組件都成爲了EnginePlus SaaS平臺的重要基礎;
在深度融合自身業務需求場景的同時,匯量科技 技術中臺從中沉澱出平臺化的能力,使之產品化、商業化,對外創造價值,從而最終建立可對外商業化輸出的EnginePlus平臺;以匯量科技旗下程序化互動式廣告平臺Mintegral爲例,其日均數據量已達PB級,調度數萬CPU核心。基於EnginePlus平臺,Mintegral能實時處理用戶行爲特徵,進行毫秒級反饋響應。在每天千億次DNN模型預測請求下,滿足萬億級排序量的排序業務服務,有效奠定了Mintegral在全球的領先地位。
問:前面提到,EnginePlus最初源於匯量科技自身廣告業務的數據處理需求,目前,EnginePlus處於匯量科技業務鏈條的哪一環?
朱亞東:2019年,匯量科技提出“SaaS工具生態”戰略:通過構建更完善的產品矩陣,覆蓋開發者由小到大發展過程中,從統計分析、用戶增長和商業化到雲成本優化等不同階段的核心場景。脫胎於匯量科技自身業務實踐的EnginePlus,作爲“SaaS工具生態”的重要組成部分,也將與華爲雲共享“技術外溢”成果,賦能更多用戶,助力企業的數字化轉型之路。
問:EnginePlus的技術架構如何?StarLake數據湖框架的應用場景如何?
朱亞東:EnginePlus包含了幾大塊,具體來講有StarLake(自研數據湖框架),Spark on K8s(雲原生計算平臺),MindAlpha(自研開源機器學習框架),MindAlpha Serving(異構彈性預測服務)等多個組件功能,用戶可以根據需求單個/多個組合使用;
數據湖作爲一種新一代的中心數據存儲的容器,具有海量、高效、便捷的特性,但伴隨着的是相當高的數據處理複雜度和高昂的計算成本。爲了讓客戶更好地用上這種數據儲存分析方式,匯量科技自研並開源了數據湖框架StarLake,實現了大規模數據的實時攝入和更新;通過優化的行列upsert功能、高併發入湖、元數據管理、對象儲存IO性能深度優化等特性,StarLake數據湖框架能夠高效構建湖倉一體化的分析平臺,相比開源同類數據湖框架具有顯著優勢。所以StarLake適用於大數據量的用戶行爲信息聚合、對大批量行列更新有較高性能要求的場景。
問:MindAlpha機器學習框架是怎樣解決海量數據的分析和模型訓練挑戰的?
朱亞東:MindAlpha機器學習框架能輕鬆處理大規模的離散特徵,與EnginePlus之上的Spark on K8s、StarLake無縫結合,它能提供從數據的輸入到智能的一體化、一站式的高效體驗。
MindAlpha的開源Parameter Server SDK支持千億級大規模稀疏離散特徵,與PyTorch、Spark MLLib無縫銜接,特徵處理與模型推理邏輯和參數能全自動導出至線上Serving服務。同時,其高性能在線Serving能進行模型橫向切分,支持萬億參數,具有低延遲、自動彈性伸縮的特性,能進行CPU、GPU異構混布調度和負載均衡。
問:前面提到,EnginePlus自研的數據湖框架StarLake,是你們進行的有關數據湖和湖倉一體的技術實踐。你怎麼看湖倉一體的未來?
朱亞東:湖倉一體的未來方向主要有兩個方面,第一個是統一數據存儲,以湖爲底座,通過流批一體,併發更新等創新技術,簡化數據導入的流程和成本;
第二個方向是計算引擎對湖倉一體的適配,實時、批量計算、統計分析和機器學習,都能夠直接使用在湖上構建的存儲體系,消除數據冗餘,最大化數據資產的價值。
問:目前,企業數字化轉型過程中,越來越多地提到“雲原生”概念。之前公網資料裡,EnginePlus也是雲原生數據湖的深度用戶,EnginePlus在雲原生領域都進行了哪些技術探索?對用戶來說,雲原生架構有哪些實際意義?
朱亞東:EnginePlus從一開始採用了完全雲原生的架構設計,在計算引擎層面,針對Spark on K8s做了大量優化,解決了很多社區開源版本的問題;在數據讀寫層面,針對雲上對象存儲系統,重新開發了異步並行IO的實現,相比開源提升了3倍的性能;整個平臺的所有組件都針對雲環境做了適配。
對於用戶來說,得益於雲原生的架構和優化,能夠做到很快捷的部署,同時計算資源和存儲資源都具有高度彈性的能力,在大幅提升計算效率的同時,也具備很高的性價比。
問:未來,EnginePlus將瞄準哪些發展方向?
朱亞東:簡單來講,我們希望成爲中國版AI加持的Databricks,跨越數據爆發式增長到智能處理之間的鴻溝,構建新一代的基建體系。幫助客戶用最低的技術門檻、最低的成本、更小的風險實現數字化轉型、智能化升級。
問:在您看來, EnginePlus這樣的產品對行業的發展和其他企業的發展有什麼借鑑意義?
朱亞東:EnginePlus融合了豐富行業套件、開源代碼、數據算法模型,能在數據分析、技術開發、業務發展等多個維度賦能客戶;EnginePlus可以幫助客戶站在衆人肩膀上,快速建立起從數據攝入、分析到AI模型離線訓練、在線預測的一體化能力,快速高效地實現企業的數字化轉型和升級。