超級獨角獸 Databricks 的崛起之路

文 | 鄭博

隨着互聯網數據的爆炸性增長,數據已經成爲企業的新型資源,猶如石油般重要。越來越多的企業希望利用各種結構化和非結構化數據來發揮自己的優勢。

然而,他們面臨着複雜的遺留基礎設施、數據孤島的解決以及高延遲的管理等挑戰。因此,數據湖的需求逐漸增長。數據湖是一種存儲庫,能夠以本機格式攝取大量原始數據,使企業能夠在需要時輕鬆地訪問它們。

Databricks 是目前一級市場中的超級獨角獸公司。其幫助企業準備用於分析的數據,支持採用機器學習和數據驅動的決策。它還使數據科學能夠與數據工程和其他業務部門協作來構建數據產品。今天,它已經擴展成爲一個更廣泛的湖倉一體的 Databricks Marketplace。

Databricks 團隊由七位計算機科學博士組成,他們一直致力於開發用於數據處理的 Spark 引擎。該項目在 2014 年創造了數據排序速度的世界紀錄。

爲了讓更多用戶使用 Spark,他們選擇將其開源,並在 2013 年創立了 Databricks 公司。同年,該公司完成了 A 輪融資,由 A16z 領投。2016 年 1 月,Databricks 更換了新的 CEO。一年後,該公司完成了第一筆百萬美元的交易。

總體而言,Databricks 團隊是 Apache Spark 的核心開發者,具有絕對的影響力和理解力,因此作爲 Spark 的商業化公司,Databricks 名正言順。

Databricks 最初專注於 Spark,用於查詢存儲在數據湖中的大型非結構化數據集。此後,爲迎合市場,Databricks 升級爲湖倉一體平臺,其基於 Spark 構建,提供爲數據湖提供 ACID 事務和數據版本控制的 Delta Lake;用於管理機器學習工作流程的開源平臺 MLflow;以及基於 SQL 的數據分析協作工具 Redash。

總體來看,Databricks 湖倉一體平臺結合了數據湖和數據倉庫的元素。它具有數據湖的靈活性、成本效益和規模,同時還提供數據倉庫的數據管理和 ACID 事務。用戶可以在所有數據上啓用商業智能和機器學習。

Databricks 產品在 AWS、Azure、GCP 等主要雲服務上提供,其平臺爲數據、分析和機器學習工作提供了一個統一的環境。可視化可以成爲這些不同活動的組成部分。

Databricks 相信企業正在擺脫孤立的系統來存儲數據,而是選擇集中式的數據存儲。這種方法幫助企業通過商業智能和預測分析深入瞭解過去和未來的趨勢。

數據湖技術正是基於此,其允許將所有數據類型和來源存儲在一起。數據表明,數據湖市場將由 2019 年的 79 億$增長到 2024 年的 201 億$。

此外,Databricks 的客戶橫跨大中小企業,以及各個行業。截至 2023 年 03 月,其全球已有超過 9000 家企業用戶。包括 AT&T、殼牌、巴寶莉、豐田、Adobe、康泰納仕和再生元製藥等。

如果我們用 Databricks 2022 年 Q2 末的 ARR 10億$除以它 2022 年 Q2 末 7000+的客戶數量,我們可以粗略估算 Databricks 的 ACV(平均合同價值)約爲 14.3 萬美元,相比 Snowflake 的 30.1 萬$ (2023.Q3 估算),仍有提升空間。

2012 年,前 Oracle 架構師創立的Snowflake 是 Databricks 不可忽視的對手。最初,Snowflake 將自己定位爲提供數倉和分析計算工作負載的雲數據平臺,主要面向業務分析師和數據工程師等用戶。同期,Databricks 則一直受數據科學家和機器學習工程師的青睞。

但現在二者的界限在模糊,比如 Snowflak 發佈了 Snowpark for Data Science、事務數據庫以及 Python 支持功能,希望以此吸引數據科學家。而 Databricks 則推出了 Databricks SQL、Delta Lake 功能和 Unity 目錄等產品,以滿足數據存儲和注重安全的客戶。

從模式來看,Snowflake 是閉源生態,而 Databricks 是開源的。Databricks 的主要產品線都可以免費使用,當客戶需要獲得更高級的功能和支持時,可以選擇 Databricks 的企業產品。Snowflake 提供現成的解決方案,使公司能夠快速開展基本分析,而 Databricks 提供更好的定製和配置,讓客戶能夠完全控制他們的設置。

2022 年底,Snowflake 的年收入 21 億$,而 Databricks 預計年收入 14億$。預計兩家的競爭會愈發激烈。

第二類競爭對手是雲廠商。Databricks 與雲廠商的專有產品存在競爭。比如在大數據處理方面,AWS 有 Amazon EMR,Azure 有 Azure HDInsight,GCP 有 Dataproc。在業務分析解決方案層面, Amazon QuickSight、Azure的 Power BI Embedded 以及 GCP 的Looker 等,都與 Databricks 存在競爭。

最後,Databricks 與特定的數據管理和科學領域解決方案公司也存在競爭。比如 Databricks 的調度程序類似 Apache Airflow,MLflow 產品與 DataRobot 和 Alteryx 競爭。

Databricks 本身是開源軟件,其會通過提供附加功能收費。Databricks 會爲企業提供其開源軟件的完全託管版本,以及其他輔助工具,如用於編寫查詢的 SaaS 工具和用於連接數據源的連接器等。

付費模式方面,Databricks 根據客戶每秒消耗的計算資源量收費。爲此,其使用了一種自己獨創的 DBU 作爲其標準化單位,工作負載消耗的 DBU 數量取決於多個指標,包括使用的計算資源、處理的數據量、區域、所處的分級定價層以及正在使用的服務類型等。

此外,爲了吸引用戶,與其他開源公司類似,Databricks 也爲用戶提供了 14 天免費試用期。

財務方面,Databricks 也實現了跨越式的增長。2019.Q3 結束時其 ARR 爲 2 億$,2020 全年收入 4.25 億$,2021 年 ARR 超 8 億$。截至 2022 年 08 月,Databricks 的 ARR 已經超 10 億$,並且年增長超過 70%。

截至 2021 年 08 月 Databricks 的估值 380 億$,總共在資本市場籌集了 35 億$,其投資者也星光璀璨,包括 A16z、Tiger Global、Amazon Web Services、Microsoft、Coatue 等。

當然也有消息透露,2022 年 10 月 Databricks 降低了內部股價,使其估值下調至 310 億$,比 2021 年同期下降約 7%。但無論如何,Databricks 仍然是一級市場中的超級獨角獸。

隨着雲存儲成本下降和網速提升,企業越來越多地選擇將所有數據存儲在中央存儲庫,而不是將不同的數據類型單獨存儲。這種集中化趨勢幫助公司通過實時商業智能和預測分析更好地瞭解業務運營。同時,數據爆炸式增長也使公司維護多個大型數據存儲變得不切實際,從而導致數據湖和數據倉庫融合到一個平臺中。

ChatGPT 一直是各行業的熱點。Databricks 也迎接了這一浪潮,其湖倉一體平臺允許數據團隊存儲和保護數據、生成分析和見解,並推動機器學習工具的開發。此外,Databricks 還提供與 TensorFlow、PyTorch 等流行人工智能框架的集成,使構建和部署機器學習模型變得容易。

Databricks 依靠 AWS、Azure 和 GCP 這類雲基礎設施供應商來提供服務。回望過去,與微軟的合作是 Databricks 的里程碑,這幫助其收入從 2017 年初的不到 100 萬$增長到 2018 年的超過 1 億$。如果與主要雲廠商關係發生變化,將影響 Databricks 的服務能力。

綜上所述,我們有理由相信雖然面臨挑戰,但在這個數據擴張以及 AI 興起的時代,Databricks 爲企業提供的單一的數據存儲和分析平臺是有價值的,其很有機會和能力抓住這一浪潮。