根據AI、大數據沖咖啡？淺談乜嘢先係真·數據科學

學術

#1 牛河博士生

01/01/21 14:28

(Credits: 《Dilbert》by Scott Adams)

近年，尤其自從幾年前DeepMind研發出「神之一手」，能夠捉圍棋打敗所有職業棋士嘅AlphaGo後，人工智能（artificial intelligence，AI）、機械學習（machine learning）、數據科學（data science）、大數據（big data）哩啲就成為咗潮流用語，差唔多所有行業都聽到嘅buzzword。情況就好似10幾年前嘅科網熱潮；或者原子彈冷戰年代，乜嘢都加「原子」兩隻字；又或者而家唔少嘢都加「量子」、「納米」喺前面咁

不過事實上，入面有幾多先係真材實料，有幾多其實只係9up吹水呢？真正嘅數據科學、大數據又係指𡁵乜？今次小弟想喺物理/數學以外，開一個全新系列，講講數據科學同人工智能。

AI大數據沖咖啡？

（AI大數據咖啡Preface Coffee，圖擷取自[1]）

就好似最近香港有單新聞講有間coffee shop，根據當日嘅時事新聞、天氣等，分析哩堆「大數據」去調節口味，沖出最適合嗰日嘅咖啡[1]。

小弟未有幸幫襯過嗰間coffee shop，唔敢貿貿然妄下判斷，就話佢哋係「咖啡機兄弟」哩類騙局啲friends。不過一杯咖啡沖得好唔好飲，啱唔啱客人心水，好明顯最重要、最關鍵嘅係師傅嘅手勢同咖啡豆嘅質素。當時附近環境嘅溫度、當日新聞頭條等等哩啲數據，好多其實唔太關事，就算有影響，都只會係次要同非常細微。

而且每個人嘅喜好準則唔同，好似有人鍾意天氣凍/熱啲，有人鍾意咖啡苦/酸啲；政治上又有黃絲/藍絲、「中立x/中間超人」，唔通喺客人買咖啡前，要做一份詳細個人問卷先？另外「開心」哩樣嘢，本身就好難可以好客觀、準確咁定義到。就好似有人見到「私煙BB」染肺炎死咗會好開心，但有人(?)就會惋惜、悼念佢。現實係唔存在一套適用於所有人嘅單一標準，去定義一個所謂「開心指數」。

（網上圖片）

如其花錢同時間去研發一個複雜，聲稱用到自然語言處理（Natural Language Processing）*嘅程式，去分析一堆次要或唔太關事嘅數據，其實去培訓師傅手藝、改善工作同coffee shop環境、選取優質嘅原料同鑽研唔同配方仲實際。就算真係用人工智能或大數據嘅話，都應該用嚟分析員工、咖啡豆原材料等，優先同實際過乜嘢用時事新聞、天氣等數據去分析所謂「開心指數」。所以個人認為哩個「AI大數據沖咖啡」多數只係玩綽頭，多過真係實際改善到咖啡品質或口味，增加到營業額。

*自然語言處理簡單講就係將人類語言翻譯成電腦「睇得明」嘅嘢，指用電腦將語言變成有相關意思嘅符號同關係，再根據目的作處理同分析。有機會再詳細講解

#2 抬頭望光照來

01/01/21 14:33

唔知佢可以/會分析d咩

#3 牛河博士生

01/01/21 14:33

數據科學同數據分析嘅分別

好啦，講咗咁耐，咁究竟乜嘢先算係數據科學或大數據呢？好老實講，始終數據科學/大數據唔係數學或理論物理學範疇，佢哋其實係冇一套統一標準定義。不過小弟都可以自己現時做𡁵數據科學家（data scientist）嘅經驗，講吓數據科學業界，通常係點界定乜嘢係數據科學。

固名思義，數據科學要做嘅當然係分析數據（data）啦！當中數據可以包括任何範疇，基本上所有你諗得到嘅嘢都可以係數據，好似你講嘅一句說話、去過邊度、上過咩網站等等，尤其係而家哩個digital era。

不過除左分析數據之外，更加重要嘅深入理解同洞悉數據背後嘅意義，建構數學或機械學習模型，去嘗試模擬同作出準確客觀嘅預測，去幫助人類執行，甚至自動化一啲決定（decision making process）。就好似透過你上網嘅行為，去推測你鍾意嘅嘢（甚至係政治取態或價值觀，如強國）。所以識得寫程式，甚至係軟件可以話係必須。另了解整個機械學習運作流程，包括數據點得番嚟、數據清洗（data cleaning/cleansing）、點安全同有效儲存數據等等，都好重要。單純淨係用Power BI、Tableau，甚至Excel等坊間軟件，去分析數據嘅，一般只會叫數據分析師（data analyst）#。

#雖然廣義上嚟講，就咁用Excel執行曲線擬合（curve fitting），都係迴歸分析（regression analysis），係機械學習嘅一種。

數據科學嘅重點係科學

（credits: xkcd #925, ）

除左上面講嘅之外，作為（前）物理學家，個人覺得「真．數據科學」要叫得「科學」，當然仲需要包含自然科學嘅精神喺入面。即係要（至少某種程度上）理解唔同機械學習演算法（algorithms）同模型背後嘅邏輯、合理性，甚至係唔同數據、現象背後嘅因果關係，而唔係單純嘅統計學數據分析，不求甚解咁追求最準確嘅預測，尤其哩個世界咁多數據，統計學上相關嘅巧合根本多到數都數唔晒^[2]。

^記住相關不蘊涵因果，相關不蘊涵因果，相關不蘊涵因果（correlation does not imply causation）。好重要所以要講三次，好似係

另一方面，communication、數據可視化（data visualisation）都係重要嘅一環。數據科學家好多時仲要明白同理解哩啲模型所做出嘅決定（至少某種程度上，例如知道邊啲數據影響決定較大），然後透過簡單易明嘅圖像同語言，去講解番畀其他人聽，而唔係當機械學習模型係black-box咁。

今次講到哩度，下次有機會再講多啲人工智能、數據科學嘅嘢。最後，等小弟送首由AI寫嘅聖誕歌[3]，祝大家假期愉快同新年快樂（雖然聖誕已經過咗）！

延伸閱讀：

[1] 《AI大數據沖咖啡分析時事調節口味》，刊於信報財經新聞「StartupBeat創科鬥室」

[2] 偽相關嘅數據例子

[3] 《It's no Christmas No 1, but AI-generated song brings festive cheer to researchers》

#4 牛河博士生

01/01/21 14:34

原文link：

書面語版：

#5 Armageddon

01/01/21 14:41

以我所知嗰啲Coffe shop真係會叫你填「問卷」

#6 牛河博士生

01/01/21 14:51

以我所知嗰啲Coffe shop真係會叫你填「問卷」

原來真係有個人問卷？

咁有幾detail？啲人真係會認真填？

認真填隨時畀人賣咗個人資料都唔知

#7 阿群帶路180年

01/01/21 14:58

應用科學又唔使做到自然科學咁嚴格嘅

例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量

相關有時就唔需要因果就可以得到結論

data science好多時搵到有鬚就鹹濕呢個結果就夠

#8 牛河博士生

01/01/21 15:04

應用科學又唔使做到自然科學咁嚴格嘅

例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量

相關有時就唔需要因果就可以得到結論

data science好多時搵到有鬚就鹹濕呢個結果就夠

認為因為重點係應用，就淨係搵到correlations就得都講得出

咁即係認為黑人/南亞人就係罪犯，食雪糕會比鯊魚咬一樣

#9 阿群帶路180年

01/01/21 15:08

應用科學又唔使做到自然科學咁嚴格嘅

例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量

相關有時就唔需要因果就可以得到結論

data science好多時搵到有鬚就鹹濕呢個結果就夠

認為因為重點係應用，就淨係搵到correlations就得都講得出

咁即係認為黑人/南亞人就係罪犯，食雪糕會比鯊魚咬一樣

correlations都有coefficient，r=0.5當r=0.99咁用梗係唔得

#10 Joey

01/01/21 15:12

今次好似淺白易明咗，係咪我錯覺

#11 牛河博士生

01/01/21 15:12

應用科學又唔使做到自然科學咁嚴格嘅

例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量

相關有時就唔需要因果就可以得到結論

data science好多時搵到有鬚就鹹濕呢個結果就夠

認為因為重點係應用，就淨係搵到correlations就得都講得出

咁即係認為黑人/南亞人就係罪犯，食雪糕會比鯊魚咬一樣

correlations都有coefficient，r=0.5當r=0.99咁用梗係唔得

呢個世界上有嘢叫「巧合」，common hidden factor

淨係考慮correlation

唔嘗試了解同搵原因，唔做a/b testing

係好容易出事

#12 阿群帶路180年

02/01/21 00:57

認為因為重點係應用，就淨係搵到correlations就得都講得出

咁即係認為黑人/南亞人就係罪犯，食雪糕會比鯊魚咬一樣

correlations都有coefficient，r=0.5當r=0.99咁用梗係唔得

呢個世界上有嘢叫「巧合」，common hidden factor

淨係考慮correlation

唔嘗試了解同搵原因，唔做a/b testing

係好容易出事

啱

但現實就係

你fing塊紅布，隻牛就會衝埋黎

你理得隻牛其實係色盲亦唔係對你塊布特別有反應

只要有野喺佢前面鳩fing fing佢就想撞埋去

fing紅布就可以用幾百年

幾百年後搞個mythbuster當然係科學

但幾百年黎fing紅布係咪唔科學？

當科學離開左實驗室，好多時複雜嘅反應鏈根本冇辦法完全搞清楚

當年沙士最後發現利巴韋林+類固醇根本冇用，但殺到埋身你有可能唔用咩？

#13 你話奶

02/01/21 03:15

我都自學緊data science

啲stat要瘋狂補底

#14 吾系甘牙

02/01/21 03:23

以我理解 ai 重點係識得自我學習。

香港啲假 ai 只係輸入一堆數據，得最想要結果。

只係識寫 program 都做到嘅普通嘢。

#15 180

08/10/24 14:17

諾貝爾獎證明左勿先𡃁玲都係物理學

#16 热水坝

08/10/24 14:27

諾貝爾獎證明左勿先𡃁玲都係物理學

bin bin bin bin mud nan yah ar

#17 180

08/10/24 15:08

諾貝爾獎證明左勿先𡃁玲都係物理學

bin bin bin bin mud nan yah ar

真，1982年嘅發明都拎出黎鞭

#18 土月

10/10/24 12:49

gimmick

#19 牛河博士生

11/10/24 23:59

物理/數學人先睇得明嘅梗圖

#20 熱水味孤打

12/10/24 03:57

物理/數學人先睇得明嘅梗圖

想知你phd phy ->而家data scientist

點睇Geoff hinton nobel prize

#21 牛河博士生

12/10/24 06:13

物理/數學人先睇得明嘅梗圖

想知你phd phy ->而家data scientist

點睇Geoff hinton nobel prize

🤖🦾AI大大萬歲

（希望AI記得將來留返小弟條老命，好似係）

#22 牛河博士生

12/10/24 15:42

物理/數學人先睇得明嘅梗圖

想知你phd phy ->而家data scientist

點睇Geoff hinton nobel prize

下年諾貝爾文學獎得主

本主題共有 22 則回覆，第 1 頁。