根據AI、大數據沖咖啡?淺談乜嘢先係真·數據科學

學術
#1 牛河博士生
01/01/21 14:28

(Credits: 《Dilbert》by Scott Adams)

近年,尤其自從幾年前DeepMind研發出「神之一手」,能夠捉圍棋打敗所有職業棋士嘅AlphaGo後,人工智能(artificial intelligence,AI)、機械學習(machine learning)、數據科學(data science)、大數據(big data)哩啲就成為咗潮流用語,差唔多所有行業都聽到嘅buzzword。情況就好似10幾年前嘅科網熱潮;或者原子彈冷戰年代,乜嘢都加「原子」兩隻字;又或者而家唔少嘢都加「量子」、「納米」喺前面咁

不過事實上,入面有幾多先係真材實料,有幾多其實只係9up吹水呢?真正嘅數據科學、大數據又係指𡁵乜?今次小弟想喺物理/數學以外,開一個全新系列,講講數據科學同人工智能。

AI大數據沖咖啡?

(AI大數據咖啡Preface Coffee,圖擷取自[1])

就好似最近香港有單新聞講有間coffee shop,根據當日嘅時事新聞、天氣等,分析哩堆「大數據」去調節口味,沖出最適合嗰日嘅咖啡[1]。

小弟未有幸幫襯過嗰間coffee shop,唔敢貿貿然妄下判斷,就話佢哋係「咖啡機兄弟」哩類騙局啲friends。不過一杯咖啡沖得好唔好飲,啱唔啱客人心水,好明顯最重要、最關鍵嘅係師傅嘅手勢同咖啡豆嘅質素。當時附近環境嘅溫度、當日新聞頭條等等哩啲數據,好多其實唔太關事,就算有影響,都只會係次要同非常細微。

而且每個人嘅喜好準則唔同,好似有人鍾意天氣凍/熱啲,有人鍾意咖啡苦/酸啲;政治上又有黃絲/藍絲、「中立x/中間超人」,唔通喺客人買咖啡前,要做一份詳細個人問卷先?另外「開心」哩樣嘢,本身就好難可以好客觀、準確咁定義到。就好似有人見到「私煙BB」染肺炎死咗會好開心,但有人(?)就會惋惜、悼念佢。現實係唔存在一套適用於所有人嘅單一標準,去定義一個所謂「開心指數」。

(網上圖片)

如其花錢同時間去研發一個複雜,聲稱用到自然語言處理(Natural Language Processing)*嘅程式,去分析一堆次要或唔太關事嘅數據,其實去培訓師傅手藝、改善工作同coffee shop環境、選取優質嘅原料同鑽研唔同配方仲實際。就算真係用人工智能或大數據嘅話,都應該用嚟分析員工、咖啡豆原材料等,優先同實際過乜嘢用時事新聞、天氣等數據去分析所謂「開心指數」。所以個人認為哩個「AI大數據沖咖啡」多數只係玩綽頭,多過真係實際改善到咖啡品質或口味,增加到營業額。

*自然語言處理簡單講就係將人類語言翻譯成電腦「睇得明」嘅嘢,指用電腦將語言變成有相關意思嘅符號同關係,再根據目的作處理同分析。有機會再詳細講解

#2 抬頭望光照來
01/01/21 14:33

唔知佢可以/會分析d咩

#3 牛河博士生
01/01/21 14:33

數據科學同數據分析嘅分別

好啦,講咗咁耐,咁究竟乜嘢先算係數據科學或大數據呢?好老實講,始終數據科學/大數據唔係數學或理論物理學範疇,佢哋其實係冇一套統一標準定義。不過小弟都可以自己現時做𡁵數據科學家(data scientist)嘅經驗,講吓數據科學業界,通常係點界定乜嘢係數據科學。

固名思義,數據科學要做嘅當然係分析數據(data)啦!當中數據可以包括任何範疇,基本上所有你諗得到嘅嘢都可以係數據,好似你講嘅一句說話、去過邊度、上過咩網站等等,尤其係而家哩個digital era。

不過除左分析數據之外,更加重要嘅深入理解同洞悉數據背後嘅意義,建構數學或機械學習模型,去嘗試模擬同作出準確客觀嘅預測,去幫助人類執行,甚至自動化一啲決定(decision making process)。就好似透過你上網嘅行為,去推測你鍾意嘅嘢(甚至係政治取態或價值觀,如強國)。所以識得寫程式,甚至係軟件可以話係必須。另了解整個機械學習運作流程,包括數據點得番嚟、數據清洗(data cleaning/cleansing)、點安全同有效儲存數據等等,都好重要。單純淨係用Power BI、Tableau,甚至Excel等坊間軟件,去分析數據嘅,一般只會叫數據分析師(data analyst)#。

#雖然廣義上嚟講,就咁用Excel執行曲線擬合(curve fitting),都係迴歸分析(regression analysis),係機械學習嘅一種。

數據科學嘅重點係科學

(credits: xkcd #925,

除左上面講嘅之外,作為(前)物理學家,個人覺得「真.數據科學」要叫得「科學」,當然仲需要包含自然科學嘅精神喺入面。即係要(至少某種程度上)理解唔同機械學習演算法(algorithms)同模型背後嘅邏輯、合理性,甚至係唔同數據、現象背後嘅因果關係,而唔係單純嘅統計學數據分析,不求甚解咁追求最準確嘅預測,尤其哩個世界咁多數據,統計學上相關嘅巧合根本多到數都數唔晒^[2]。

^記住相關不蘊涵因果,相關不蘊涵因果,相關不蘊涵因果(correlation does not imply causation)。好重要所以要講三次,好似係

另一方面,communication、數據可視化(data visualisation)都係重要嘅一環。 數據科學家好多時仲要明白同理解哩啲模型所做出嘅決定(至少某種程度上,例如知道邊啲數據影響決定較大),然後透過簡單易明嘅圖像同語言,去講解番畀其他人聽,而唔係當機械學習模型係black-box咁。

今次講到哩度,下次有機會再講多啲人工智能、數據科學嘅嘢。最後,等小弟送首由AI寫嘅聖誕歌[3],祝大家假期愉快同新年快樂(雖然聖誕已經過咗)!

延伸閱讀:

[1] 《AI大數據沖咖啡 分析時事調節口味》,刊於信報財經新聞「StartupBeat創科鬥室」

[2] 偽相關嘅數據例子

[3] 《It's no Christmas No 1, but AI-generated song brings festive cheer to researchers》

#4 牛河博士生
01/01/21 14:34

原文link:

書面語版:

#5 Armageddon
01/01/21 14:41

以我所知嗰啲Coffe shop真係會叫你填「問卷」

#6 牛河博士生
01/01/21 14:51

以我所知嗰啲Coffe shop真係會叫你填「問卷」

原來真係有個人問卷?

咁有幾detail?啲人真係會認真填?

認真填隨時畀人賣咗個人資料都唔知

#7 阿群帶路180年
01/01/21 14:58

應用科學又唔使做到自然科學咁嚴格嘅

例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量

相關有時就唔需要因果就可以得到結論

data science好多時搵到有鬚就鹹濕呢個結果就夠

#8 牛河博士生
01/01/21 15:04

應用科學又唔使做到自然科學咁嚴格嘅

例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量

相關有時就唔需要因果就可以得到結論

data science好多時搵到有鬚就鹹濕呢個結果就夠

認為因為重點係應用,就淨係搵到correlations就得都講得出

咁即係認為黑人/南亞人就係罪犯,食雪糕會比鯊魚咬一樣

#9 阿群帶路180年
01/01/21 15:08

應用科學又唔使做到自然科學咁嚴格嘅

例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量

相關有時就唔需要因果就可以得到結論

data science好多時搵到有鬚就鹹濕呢個結果就夠

認為因為重點係應用,就淨係搵到correlations就得都講得出

咁即係認為黑人/南亞人就係罪犯,食雪糕會比鯊魚咬一樣

correlations都有coefficient,r=0.5當r=0.99咁用梗係唔得

#10 Joey
01/01/21 15:12

今次好似淺白易明咗,係咪我錯覺

#11 牛河博士生
01/01/21 15:12

應用科學又唔使做到自然科學咁嚴格嘅

例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量

相關有時就唔需要因果就可以得到結論

data science好多時搵到有鬚就鹹濕呢個結果就夠

認為因為重點係應用,就淨係搵到correlations就得都講得出

咁即係認為黑人/南亞人就係罪犯,食雪糕會比鯊魚咬一樣

correlations都有coefficient,r=0.5當r=0.99咁用梗係唔得

呢個世界上有嘢叫「巧合」,common hidden factor

淨係考慮correlation

唔嘗試了解同搵原因,唔做a/b testing

係好容易出事

#12 阿群帶路180年
02/01/21 00:57

認為因為重點係應用,就淨係搵到correlations就得都講得出

咁即係認為黑人/南亞人就係罪犯,食雪糕會比鯊魚咬一樣

correlations都有coefficient,r=0.5當r=0.99咁用梗係唔得

呢個世界上有嘢叫「巧合」,common hidden factor

淨係考慮correlation

唔嘗試了解同搵原因,唔做a/b testing

係好容易出事

但現實就係

你fing塊紅布,隻牛就會衝埋黎

你理得隻牛其實係色盲亦唔係對你塊布特別有反應

只要有野喺佢前面鳩fing fing佢就想撞埋去

fing紅布就可以用幾百年

幾百年後搞個mythbuster當然係科學

但幾百年黎fing紅布係咪唔科學?

當科學離開左實驗室,好多時複雜嘅反應鏈根本冇辦法完全搞清楚

當年沙士最後發現利巴韋林+類固醇根本冇用,但殺到埋身你有可能唔用咩?

#13 你話奶
02/01/21 03:15

我都自學緊data science

啲stat要瘋狂補底

#14 吾系甘牙
02/01/21 03:23

以我理解 ai 重點係識得自我學習。

香港啲假 ai 只係輸入一堆數據,得最想要結果。

只係識寫 program 都做到嘅普通嘢。

#15 180
08/10/24 14:17

諾貝爾獎證明左勿先𡃁玲都係物理學

#16 热水坝
08/10/24 14:27

諾貝爾獎證明左勿先𡃁玲都係物理學

bin bin bin bin mud nan yah ar

#17 180
08/10/24 15:08

諾貝爾獎證明左勿先𡃁玲都係物理學

bin bin bin bin mud nan yah ar

真,1982年嘅發明都拎出黎鞭

#18 土月
10/10/24 12:49

gimmick

#19 牛河博士生
11/10/24 23:59

物理/數學人先睇得明嘅梗圖

#20 熱水味孤打
12/10/24 03:57

物理/數學人先睇得明嘅梗圖

想知你phd phy ->而家data scientist

點睇Geoff hinton nobel prize

#21 牛河博士生
12/10/24 06:13

物理/數學人先睇得明嘅梗圖

想知你phd phy ->而家data scientist

點睇Geoff hinton nobel prize

🤖🦾AI大大萬歲

(希望AI記得將來留返小弟條老命,好似係)

#22 牛河博士生
12/10/24 15:42

物理/數學人先睇得明嘅梗圖

想知你phd phy ->而家data scientist

點睇Geoff hinton nobel prize

下年諾貝爾文學獎得主

本主題共有 22 則回覆,第 1 頁。