: AI = 拼數據 沒數據就是吃毛
: 數據充足 爛模型亦為結果好棒棒
: 數據不足 神佛亦難救
: 在數據夠情況下 不要說底層優化到自己開晶片
: 就算是推論inference運行模型之晶片 還買都買得到
: 是的 我當初推論偏頗 以CUDA為深度學習量揣指標
: 我未想到還有AI專用晶片這路
: 以我這四年觀察 :
: 人工智能 離不開傳統做法為前處理 不論是統計分析還是訊號圖像處理
: 這些傳統處理 相當多適合一口令一動作無需判斷之併行計算
: (SIMD單指令多筆數據)
: 也就做CUDA(或SIMD(x86 SSE/AVX, arm NEON)優化
: 在數據夠 在玩到一定程度後 這些前處理必需優化
: 而數據量是核心之核心 以致根本沒幾間公司數據量達到需聘人優化前處理
: 人們現發現其實AI(在數據不足時)也沒這樣神
: AI今日退成統計分析之一環 與傳統方法互補
: 今日 累計數據之重要性 比 找個AI天才 來得重要
: AI常只是意謂 這公司有在做統計分析 至於是不是神經網絡 那不是重點
: 結果能用 正確 就可以了
: 採數據才是AI真議題 所以做單晶片韌體之人 比之前來得搶手
: 不過AI也不能說沒用 讓公司重視數據分析 看出些端倪 總是好是
認真說,這個立場有點偏頗,先說,我贊成你所謂的拼數據,但機器學習一直都是資料、統
計導向的學門,data driven本來就機器學習的一環,DL只是機器學習的一個子方法,他依
舊脫離不了資料統計建模,而所謂的AI是一個模糊超集,他包含專家系統、統計建模、機器
學習、範疇論、消息理論等等等,只用AI等於DL是一種不太健康的心態。
然後可以看看Stanford HAI REPORT根據2022全球關於AI(ML/DL)的領域產業發展概況其實可
以發現
統計到2021年底全球Hiring Job Position是有往上提升的,其中提升最大的職缺關鍵字是M
achine Learning,AI這些抽象或是Deep Learning這種狹窄的關鍵字提升不明顯,這邊看數
據的學問就出來了,這反而可以看出企業對於領域有比較明確而且理性的認識,也可以說所
謂
的熱錢海水正在退潮,真正有能力的人才反而能脫穎而出。另一個有趣的指標可以看到Foun
d AI Companies在2021是有趨緩的事態,但是卻發現到2021資金開始集中,這也顯示市場需
求跟場景開始明確,有能力做起來的Found Companies不怕沒資金,這個現象可以從今年ope
nAI的大成功發現到,現在chatGPT還是免費使用的狀況已經有大把資金看準投資這套技術了
。
最後,我也不是說看好未來這塊領域的前景,當前很多問題還沒解決,但是落地看起來是一
個現在進行式,成功的模型確實改變了整個生態產業,今年很多技術會議可以發現大家探討
的主題更偏重在AI工業化的流水線,舉凡像MLFlow、KubeFlow、AirFlow都是對於標準化的
加速需求,期望完全走向落地。
另一個學術上今年很多研討會的主題已經不再是從SOTA角度來看整個領域問題了,大家也慢
慢意識到你去訓練單一領域做到最好也不見得這個最優模型可以落地成功,還包含了模型的
公正性、倫理問題、是否能真正做到Multi-domain (像有雜訊、模糊人聲、多種口音的外語
),而不在是指限定在我要在SOTA上提升一個百分點的MAP這種自嗨的東西。其他還有如何符
合法規進行數據脫敏或是聯邦學習的問題,讓技術更能夠配合人性,而不是人類配合技術,
也是顯示大家對於這種衝分自嗨的熱潮已經開始退去,大家在學術上更能客觀理性評估你的
模型是否真實具備應用能力。
我反而覺得未來2023年會開始呈現高級人才具備有真正落地評估能力的人才能從人才庫脫穎
而出,所以大家從事這塊領域的就真的要評估自己有產業落地的專業跟熱忱,不然如果只是
期待刷個資歷過水的可能會失望。
差不多是這樣
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.16.35 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1671774625.A.37C.htmlVanced1樓推推ML真的太廣了 12/23 14:16
gn016428842樓其實AI反而是在資料很少的時候在用的 12/23 14:53
→ gn016428843樓如果有全部的資料 那直接index query不就好了? 12/23 14:53
ga0236304樓AI/ML/CV/NLP 太廣 12/23 14:58
watashino5樓推 樓上說的也不一定 如果資料的數量趨近於無限大 12/23 15:38
→ watashino6樓說不定透過特徵擷取來判斷會比直接query還快 12/23 15:38
先說,這其中的迷思包含你的所謂的全部樣本是否即是母體,機器學習中我們期望的是讓機
器透過逼近我們人類很難具體寫出的函數,如果你有全部資料但是不是母體,那機器學習依
舊有效,如果你知道母體像是我想讓機器學會fizzbuzz,那機器也可以學,就是殺雞用牛刀
而
已。
然後談到特徵壓縮如果我們要得是100%的準確率,那最好的壓縮即使你用機器學也超過不了
Shannon Limit。
→ DrTech7樓謝謝,這個版肯認真討論的人太少了。 12/23 17:10
Mchord8樓學界paper真正有貢獻的也是愈來愈少 12/23 20:24
m068008259樓魔改個model架構或是loss 提升1% mAP就能上頂刊… 12/23 20:59
→ m0680082510樓何樂而不為? 12/23 20:59
Vanced11樓推推ML真的太廣了 12/23 14:16
gn0164288412樓其實AI反而是在資料很少的時候在用的 12/23 14:53
→ gn0164288413樓如果有全部的資料 那直接index query不就好了? 12/23 14:53
ga02363014樓AI/ML/CV/NLP 太廣 12/23 14:58
watashino15樓推 樓上說的也不一定 如果資料的數量趨近於無限大 12/23 15:38
→ watashino16樓說不定透過特徵擷取來判斷會比直接query還快 12/23 15:38
先說,這其中的迷思包含你的所謂的全部樣本是否即是母體,機器學習中我們期望的是讓機
器透過逼近我們人類很難具體寫出的函數,如果你有全部資料但是不是母體,那機器學習依
舊有效,如果你知道母體像是我想讓機器學會fizzbuzz,那機器也可以學,就是殺雞用牛刀
而
已。
然後談到特徵壓縮如果我們要得是100%的準確率,那最好的壓縮即使你用機器學也超過不了
Shannon Limit。
→ DrTech17樓謝謝,這個版肯認真討論的人太少了。 12/23 17:10
Mchord18樓學界paper真正有貢獻的也是愈來愈少 12/23 20:24
其實真正有貢獻的一直都是鳳麟毛腳,如果你認真去看之前紅起來的Few Shot真的原始的Re
m0680082519樓魔改個model架構或是loss 提升1% mAP就能上頂刊… 12/23 20:59
→ m0680082520樓何樂而不為? 12/23 20:59
現在要做那1%越來越難,而且大家也開始思考multi domain這塊新興的應用思維開拓很多,
加上巨人openAI已經在圖像語言模型有巨大突破,所以你可以發現今年一堆入選CV頂刊的一
堆CLIPXX XD
→ OBTea21樓ML/AI 現在應用越來越多了 12/23 21:06
EvilSD22樓基本上以後AI就會是基礎科學的一部分 12/23 22:37
→ EvilSD23樓如果人能輕易的定義出規則與函數 就不用到AI 12/23 22:39
→ HotDogCC24樓因為要多個1%你不是做應用很難啊 12/23 22:43
→ HotDogCC25樓現在一般人就是做應用 當個數學模型算而已 12/23 22:43
acelp26樓說得好 12/23 23:07
lunashining27樓真正在亞麻做FL的講法怎麼不一樣ㄏ 12/23 23:21
我自己在外商工作,公司蠻多國際會議跟技術研討會討論,加上我這邊用有明確統計數據的
tay251028樓推 12/24 00:28
→ SILee29樓大家會酸AI仔的原因是因為市場上有一堆只是曾經用過 12/24 01:49
→ SILee30樓PyTorch之類套件的API就自稱是AI/ML專家的嘴砲仔。 12/24 01:49
這種未來會慢慢減少吧,市場會越來越理性,沒有熱忱跟專業的我看起來的趨勢是會越來越
辛苦。