在今年的鐵人賽多了一些跟資料工程相關的主題,
這也是隨著前幾年資料科學而興起的新職缺。
若將資料科學視為最終導出 Data Product 的出口,
那進口的原料則是 Data Engineer 來處理。
如果你也處於 Data Team 或是技援 Data Team 做事情,
處理源頭的資料到可用的程度,則是一件需要耐心處理的手工活。
--
在鐵人賽的主題中,多了一批新的生力軍,
那就是來自 taipei dbt meetup 組團參加貢獻了相關知識的系列文章
https://www.meetup.com/taipei-dbt-meetup/
https://ithelp.ithome.com.tw/2023ironman/signup/team/271
以下為目前進行中的文章:
https://ithelp.ithome.com.tw/users/20162689/ironman/6534
如何借助 dbt 優化當代資料倉儲及資料工程師的水肥之路分享 系列
以資料工程師的角度,透過 dbt core 及周邊 package 優化複雜的資料倉儲
心路歷程以及在 data pipeline 的水肥路上碰到的大小事分享
https://ithelp.ithome.com.tw/users/20160643/ironman/6051
被 dbt 帶入門的數據工作體驗 30 想 系列
從 2019 年開始因為身為 PM 很想看產品資料而開始學數據,
這個過程相當有趣,打開了另外一個世界! 這一系列的文章,
我想從以下 3 個視角分享 30 個想法,
1. 個人
2. 團隊與公司
3. 社群
希望代表在成為資料實踐者的旅程中,會經歷的階段
https://ithelp.ithome.com.tw/users/20161869/ironman/6057
當代資料工程與資料分析 系列
資料分析師主要應用的工具是:
Tableau, PowerBI, FineReport 這種集成式的軟體。
上述的軟體非常強大,就像 Microsoft 的 Office 360 一樣。
然而,我們有時候需要更靈活的工具:
我們希望我們的工具可以像 Linux Shell 一樣,
有許多小的零組件,一個零組件只做好一件事,
比方說: awk, sed, tr, sort, cat, ... ,卻可以靈活地組合起來,
而且,容易自動化。
本文就是要介紹「當代的」資料工程與資料分析技術,
這套工具與方法論就像是 Linux Shell 一般地靈活、容易自動化、
可以提昇數倍的產出。
--
若是對於 dbt 與 data pipeline 的關係想要有初步的理解,
可以參考我在 coscup 上場前的練習錄影,
前半段主要介紹 data pipeline 是什麼?dbt 參與了哪些部分?
[coscup] Reading and modifying the source code of the dbt adapter
https://youtu.be/GSVjPYWoIUM?si=hswyECjCegzPLfI0
--
ITHOME 鐵人賽觀賽看版持續為大家報導賽事內容
https://bit.ly/46dVxPZ
PS. JCConf 就是這週五囉!期待與大家相見。
--