根據AI、大數據沖咖啡?淺談乜嘢先係真·數據科學
(Credits: 《Dilbert》by Scott Adams)
近年,尤其自從幾年前DeepMind研發出「神之一手」,能夠捉圍棋打敗所有職業棋士嘅AlphaGo後,人工智能(artificial intelligence,AI)、機械學習(machine learning)、數據科學(data science)、大數據(big data)哩啲就成為咗潮流用語,差唔多所有行業都聽到嘅buzzword。情況就好似10幾年前嘅科網熱潮;或者原子彈冷戰年代,乜嘢都加「原子」兩隻字;又或者而家唔少嘢都加「量子」、「納米」喺前面咁
不過事實上,入面有幾多先係真材實料,有幾多其實只係9up吹水呢?真正嘅數據科學、大數據又係指𡁵乜?今次小弟想喺物理/數學以外,開一個全新系列,講講數據科學同人工智能。
AI大數據沖咖啡?
(AI大數據咖啡Preface Coffee,圖擷取自[1])
就好似最近香港有單新聞講有間coffee shop,根據當日嘅時事新聞、天氣等,分析哩堆「大數據」去調節口味,沖出最適合嗰日嘅咖啡[1]。
小弟未有幸幫襯過嗰間coffee shop,唔敢貿貿然妄下判斷,就話佢哋係「咖啡機兄弟」哩類騙局啲friends。不過一杯咖啡沖得好唔好飲,啱唔啱客人心水,好明顯最重要、最關鍵嘅係師傅嘅手勢同咖啡豆嘅質素。當時附近環境嘅溫度、當日新聞頭條等等哩啲數據,好多其實唔太關事,就算有影響,都只會係次要同非常細微。
而且每個人嘅喜好準則唔同,好似有人鍾意天氣凍/熱啲,有人鍾意咖啡苦/酸啲;政治上又有黃絲/藍絲、「中立x/中間超人」,唔通喺客人買咖啡前,要做一份詳細個人問卷先?另外「開心」哩樣嘢,本身就好難可以好客觀、準確咁定義到。就好似有人見到「私煙BB」染肺炎死咗會好開心,但有人(?)就會惋惜、悼念佢。現實係唔存在一套適用於所有人嘅單一標準,去定義一個所謂「開心指數」。
(網上圖片)
如其花錢同時間去研發一個複雜,聲稱用到自然語言處理(Natural Language Processing)*嘅程式,去分析一堆次要或唔太關事嘅數據,其實去培訓師傅手藝、改善工作同coffee shop環境、選取優質嘅原料同鑽研唔同配方仲實際。就算真係用人工智能或大數據嘅話,都應該用嚟分析員工、咖啡豆原材料等,優先同實際過乜嘢用時事新聞、天氣等數據去分析所謂「開心指數」。所以個人認為哩個「AI大數據沖咖啡」多數只係玩綽頭,多過真係實際改善到咖啡品質或口味,增加到營業額。
*自然語言處理簡單講就係將人類語言翻譯成電腦「睇得明」嘅嘢,指用電腦將語言變成有相關意思嘅符號同關係,再根據目的作處理同分析。有機會再詳細講解
唔知佢可以/會分析d咩
數據科學同數據分析嘅分別
好啦,講咗咁耐,咁究竟乜嘢先算係數據科學或大數據呢?好老實講,始終數據科學/大數據唔係數學或理論物理學範疇,佢哋其實係冇一套統一標準定義。不過小弟都可以自己現時做𡁵數據科學家(data scientist)嘅經驗,講吓數據科學業界,通常係點界定乜嘢係數據科學。
固名思義,數據科學要做嘅當然係分析數據(data)啦!當中數據可以包括任何範疇,基本上所有你諗得到嘅嘢都可以係數據,好似你講嘅一句說話、去過邊度、上過咩網站等等,尤其係而家哩個digital era。
不過除左分析數據之外,更加重要嘅深入理解同洞悉數據背後嘅意義,建構數學或機械學習模型,去嘗試模擬同作出準確客觀嘅預測,去幫助人類執行,甚至自動化一啲決定(decision making process)。就好似透過你上網嘅行為,去推測你鍾意嘅嘢(甚至係政治取態或價值觀,如強國)。所以識得寫程式,甚至係軟件可以話係必須。另了解整個機械學習運作流程,包括數據點得番嚟、數據清洗(data cleaning/cleansing)、點安全同有效儲存數據等等,都好重要。單純淨係用Power BI、Tableau,甚至Excel等坊間軟件,去分析數據嘅,一般只會叫數據分析師(data analyst)#。
#雖然廣義上嚟講,就咁用Excel執行曲線擬合(curve fitting),都係迴歸分析(regression analysis),係機械學習嘅一種。
數據科學嘅重點係科學
(credits: xkcd #925, )
除左上面講嘅之外,作為(前)物理學家,個人覺得「真.數據科學」要叫得「科學」,當然仲需要包含自然科學嘅精神喺入面。即係要(至少某種程度上)理解唔同機械學習演算法(algorithms)同模型背後嘅邏輯、合理性,甚至係唔同數據、現象背後嘅因果關係,而唔係單純嘅統計學數據分析,不求甚解咁追求最準確嘅預測,尤其哩個世界咁多數據,統計學上相關嘅巧合根本多到數都數唔晒^[2]。
^記住相關不蘊涵因果,相關不蘊涵因果,相關不蘊涵因果(correlation does not imply causation)。好重要所以要講三次,好似係
另一方面,communication、數據可視化(data visualisation)都係重要嘅一環。 數據科學家好多時仲要明白同理解哩啲模型所做出嘅決定(至少某種程度上,例如知道邊啲數據影響決定較大),然後透過簡單易明嘅圖像同語言,去講解番畀其他人聽,而唔係當機械學習模型係black-box咁。
今次講到哩度,下次有機會再講多啲人工智能、數據科學嘅嘢。最後,等小弟送首由AI寫嘅聖誕歌[3],祝大家假期愉快同新年快樂(雖然聖誕已經過咗)!
延伸閱讀:
[1] 《AI大數據沖咖啡 分析時事調節口味》,刊於信報財經新聞「StartupBeat創科鬥室」
[2] 偽相關嘅數據例子
[3] 《It's no Christmas No 1, but AI-generated song brings festive cheer to researchers》
原文link:
書面語版:
以我所知嗰啲Coffe shop真係會叫你填「問卷」
以我所知嗰啲Coffe shop真係會叫你填「問卷」
原來真係有個人問卷?
咁有幾detail?啲人真係會認真填?
認真填隨時畀人賣咗個人資料都唔知
應用科學又唔使做到自然科學咁嚴格嘅
例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量
相關有時就唔需要因果就可以得到結論
data science好多時搵到有鬚就鹹濕呢個結果就夠
應用科學又唔使做到自然科學咁嚴格嘅
例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量
相關有時就唔需要因果就可以得到結論
data science好多時搵到有鬚就鹹濕呢個結果就夠
認為因為重點係應用,就淨係搵到correlations就得都講得出
咁即係認為黑人/南亞人就係罪犯,食雪糕會比鯊魚咬一樣
應用科學又唔使做到自然科學咁嚴格嘅
例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量
相關有時就唔需要因果就可以得到結論
data science好多時搵到有鬚就鹹濕呢個結果就夠
認為因為重點係應用,就淨係搵到correlations就得都講得出
咁即係認為黑人/南亞人就係罪犯,食雪糕會比鯊魚咬一樣
correlations都有coefficient,r=0.5當r=0.99咁用梗係唔得
今次好似淺白易明咗,係咪我錯覺
應用科學又唔使做到自然科學咁嚴格嘅
例如牛津唔洗知道半劑+一劑點解會有效過一劑+一劑先定都個最終劑量
相關有時就唔需要因果就可以得到結論
data science好多時搵到有鬚就鹹濕呢個結果就夠
認為因為重點係應用,就淨係搵到correlations就得都講得出
咁即係認為黑人/南亞人就係罪犯,食雪糕會比鯊魚咬一樣
correlations都有coefficient,r=0.5當r=0.99咁用梗係唔得
呢個世界上有嘢叫「巧合」,common hidden factor
淨係考慮correlation
唔嘗試了解同搵原因,唔做a/b testing
係好容易出事
認為因為重點係應用,就淨係搵到correlations就得都講得出
咁即係認為黑人/南亞人就係罪犯,食雪糕會比鯊魚咬一樣
correlations都有coefficient,r=0.5當r=0.99咁用梗係唔得
呢個世界上有嘢叫「巧合」,common hidden factor
淨係考慮correlation
唔嘗試了解同搵原因,唔做a/b testing
係好容易出事
啱
但現實就係
你fing塊紅布,隻牛就會衝埋黎
你理得隻牛其實係色盲亦唔係對你塊布特別有反應
只要有野喺佢前面鳩fing fing佢就想撞埋去
fing紅布就可以用幾百年
幾百年後搞個mythbuster當然係科學
但幾百年黎fing紅布係咪唔科學?
當科學離開左實驗室,好多時複雜嘅反應鏈根本冇辦法完全搞清楚
當年沙士最後發現利巴韋林+類固醇根本冇用,但殺到埋身你有可能唔用咩?
我都自學緊data science
啲stat要瘋狂補底
以我理解 ai 重點係識得自我學習。
香港啲假 ai 只係輸入一堆數據,得最想要結果。
只係識寫 program 都做到嘅普通嘢。
諾貝爾獎證明左勿先𡃁玲都係物理學
諾貝爾獎證明左勿先𡃁玲都係物理學
bin bin bin bin mud nan yah ar
諾貝爾獎證明左勿先𡃁玲都係物理學
bin bin bin bin mud nan yah ar
真,1982年嘅發明都拎出黎鞭
gimmick
物理/數學人先睇得明嘅梗圖
物理/數學人先睇得明嘅梗圖
想知你phd phy ->而家data scientist
點睇Geoff hinton nobel prize
物理/數學人先睇得明嘅梗圖
想知你phd phy ->而家data scientist
點睇Geoff hinton nobel prize
🤖🦾AI大大萬歲
(希望AI記得將來留返小弟條老命,好似係)
物理/數學人先睇得明嘅梗圖
想知你phd phy ->而家data scientist
點睇Geoff hinton nobel prize
下年諾貝爾文學獎得主