行銷人進入數據世界:資料庫、資料倉儲、資料湖、數據中台?一篇搞懂其中差異與用途

行銷人進入數據世界:資料庫、資料倉儲、資料湖、數據中台?一篇搞懂其中差異與用途
快速導覽

前情提要

相信無論您是品牌內的行銷部門或是身在代理商的行銷人員,都感受到隨著品牌行銷越做越深,我們也從P-O-E(Paid-Own-Earn)、SEM+SEO、O2O等跨渠道、跨工具的整合,更進一步的頻繁接觸到第一方數據的整合與應用。在這些對話過程中,您是否也聽過技術廠商或IT/Data部門提到以下這些關鍵字呢?

  • 資料庫Database
  • 資料倉儲Data Warehouse
  • 資料湖Data Lake
  • 數據中台Data Middle Platform/Data Center
  • 同場加映:客戶資料平台Customer Data Platform

這些乍看都是收集存放數據的環境,但彼此之間仍然有使用方式和目的的不同。今天就透過這篇文章,用簡單好懂的方式展開這四種環境的介紹吧!

資料庫Database

資料庫應該是我們日常作業中最耳熟能詳的詞了,舉凡交易資料、上架紀錄、會員資料、消費紀錄...都可能存放在資料庫中。資料庫主要存放大量原始資料,比起運算速度和分析效果,資料庫重點講求的是資料的正確性。依照產業或公司自己的需求,不同的資料來源/資料種類,可能存放在相同或不同的資料庫中。舉例來說:

  1. 交易紀錄資料庫:

  a. 線下POS機的交易資料和線上EC的交易資料雖然欄位相似,但來源不同且避免互搶資料傳輸資源,會放在不同資料庫。

  b. 外送平台回傳的交易資料因為部門歸屬不同且儲存欄位有差異,因此單獨存放在一個獨立資料庫

2. 產品資料庫:產品倉儲資料、產品上架紀錄、產品行銷組合和售價登記資料各自獨立資料表,再統一存放在相同資料庫

資料庫和其中的資料表就像一個一個獨立的大小倉庫,他們之間可能共享一把鑰匙(key值),但基本上互不干擾,這是為了保持資料的正確性,避免在交互比對或連帶影響的過程中導致資料錯誤。只有在出現跨資料表/庫比對的需求時,才需要拿key值這把共用鑰匙,把資料取出來並且對齊,再往下進行作業。

資料倉儲Data Warehouse

如果說資料庫像一個一個獨立倉庫,那資料倉儲就是把所有資料都放在一個統一的大貨艙中。資料倉儲的主要運用目的是為了做進一步的分析,因此資料運算的速度是關鍵。將資料庫的資料都事先合併好放在資料倉儲,可以讓使用者更快速更有效率的取得需要的資料,以進行必要或常態性的分析。因此當所需資料散落在不同資料庫,而我們又經常性有跨資料庫取用或分析的需求時,就是資料倉儲登場的時候了。

💡
資料市集Data Mart:資料市集是資料倉儲的一部分,就像是在大貨艙裡額外拉出一間一間小房間,讓只需要拿取特定小房間內東西的人,不需要繞遍整個大貨艙,直接走進小房間即可。

資料湖Data Lake

前面的資料庫、資料倉儲都是用於儲存結構化/有固定格式的資料,而資料湖則相反!資料湖沒有表或格式的概念,可以用於儲存各種資料包含結構化資料、半結構化資料及非結構化資料等。所以當我們手上握有非常多各種類型、各種格式尺寸長相型態的資料時,就適合將這些資料都先存放在資料湖,在這邊把資料都預處理、整理乾淨後再丟進資料倉儲中。

💡
結構化資料是有行列分類歸類的表(table);半結構化資料包含CSV, JSON, XML, log等格式檔案;非結構化資料則指各種格式媒介的檔案例如影音檔、PDF、電子郵件等。

數據中台Data Middle Platform/Data Center

數據中台的概念相對於前面三種會抽象一點,不同公司對於數據中台的詮釋也會略有差異。以筆者個人經驗來說,討論到數據中台大多時候會近似於資料倉儲(Data Warehouse),我們是想建立一個數據中台,將關鍵或常用的資料都先整理好,以便隨時、即時、甚至是自動化的串接和取用。有時候數據中台的概念會從資料倉儲延伸擴及到資料庫、資料湖和資料市集,但目的是不變的:建立數據中台的目的是為了將資料整好,讓需要取用資料的單位都可以拿到自己需要且有權限看到的內容。

💡
我們常聽到的CDP(Customer Data Platform)和數據中台,主要在數據管理邏輯和應用方向有所不同。CDP通常是以後端2C應用出口的需求為導向,經常與行銷目的掛勾,並且會以人為單位(People-Based)做資料的匯總整併;數據中台則是以企業內部的數據集成和權限管理為目的,通常以部門需求或系統串接需求為單位做資料的匯總整併或切割。

Key Takeaway

  • 資料庫Database:目的是紀錄完整確切的資料,講究資料正確性。資料表和資料庫彼此獨立存放,共享一把鑰匙(key值)做資料的比對
  • 資料倉儲Data Warehouse:目的是用於分析,講究資料運算的速度。具相關性的資料皆已完成比對和彙整(joint),最終形成一張符合分析和觀察需求的大表
  • 資料湖Data Lake:可存放各種格式的資料,當資料非統一格式時,可利用資料湖先儲存並完成處理
  • 數據中台Data Middel Platform/Data Center:因應資料存取與內部應用需求搭建的完整資料存儲與傳輸環境,依照不同部門或後端應用工具的需求,會在數據中台將資料先做好整併或分割