耗時一年,小紅書數據湖成功遷上阿里雲

11月6日,銀柿財經獲悉,經過一年奮戰,小紅書已把業界體量最大的數據湖0故障遷上阿里雲。據統計,該項目共有1500人蔘與,遷移數據500PB。

作爲中國頭部互聯網公司之一,小紅書月活已過3億,其數據湖存儲了過去11年的所有原始數據,包括結構化、半結構化和非結構化數據。近年來,隨着業務的高速增長,小紅書在線處理數據的需求不斷增加,同時離線處理所積累的歷史問題,也會在未來的切換中帶來更多成本與風險。

爲此,2023年11月,小紅書發起遷雲項目——計劃一年內,把小紅書的數據湖搬上阿里雲。

遷移至阿里雲上後,數據湖可通過多個OSS Bucket支持納入統一資源池,實現多個Bucket共享資源池內的OSS吞吐及QPS能力。這樣的流控能力在面向小紅書複雜業務場景時,可靈活調配資源,高效利用吞吐性能,降低不同業務租戶間的互相影響。阿里雲原生HDFS+DLA元數據可實現無縫對接Hadoop EMR體系,支持元數據線性擴展能力,輕鬆應對小紅書數百PB數據下的元數據線性增長。

較於過往業界體量最大的案例,小紅書的本次遷移的數據體量更大。

注:任務=數據處理過程

據介紹,小紅書的遷雲項目經歷了三個階段。第一步,項目組首先解決標準問題,然後根據標準進行治理;第二步,完成治理後,項目在2024年5月正式進入雙跑階段。把數據拷貝到阿里雲上,兩邊同時跑數,驗證正確性與及時性;第三步,2024年8月,項目結束雙跑,進入割接階段。阿里雲團隊全程在現場保障,順利完成了割接。

2024年11月,小紅書遷雲項目正式宣告結束。在0故障的情況下,遷移數據500PB,任務11萬,參與人數1500人,涉及部門40多個。項目涉及產品之多和數據體量之大均創下業界紀錄。