圖書館/統計的藝術
統計的藝術 book cover - Leapahead summary
收聽重點 1
0:000:00

統計的藝術

大衛.史皮格霍特勒

時長57 分鐘
重點9 重點
評分4.7 評分

內容重點

發現資料詮釋的力量,並學習如何運用統計方法做出有根據的決策。

您將學到

學習1. 統計的基礎
學習2. 了解資料的意義
學習3. 資料在決策中的角色
學習4. 避免統計上的錯誤
學習5. 統計在日常生活中的應用
學習6. 使用統計工具進行資料分析

重點

01統計不只是數學課

你聽到「統計」這兩個字,腦中浮現的是什麼畫面?是不是充滿了複雜的公式、令人頭痛的符號,還有大學時期那段差點被當掉的痛苦回憶?如果我告訴你,真正的統計學,跟你在學校裡學的可能完全是兩回事,它更像是一門藝術,一門教我們如何透過數據來理解世界的偵探學,你會不會有點好奇? 這本《統計的藝術》的作者大衛.史匹格哈特,他可不是那種躲在象牙塔裡的老學究,他是英國最頂尖的統計學家之一,還因為對統計學的貢獻被女王封為爵士。他想告訴我們的第一件事就是:忘掉那些嚇人的公式吧!統計的核心不是計算,而是「提問」。沒錯,一切都始於一個好問題。 作者提出了一個超級實用的思考框架,叫做「PPDAC循環」,這五個英文字母分別代表: P (Problem):問題 - 我們到底想知道什麼? P (Plan):計畫 - 我們要怎麼做才能找到答案? D (Data):資料 - 讓我們開始收集資訊吧! A (Analysis):分析 - 這些資料告訴了我們什麼故事? C (Conclusion):結論 - 所以呢?這一切代表什麼意義? 聽起來是不是沒那麼可怕了?這根本就是我們解決日常問題的思路嘛!比方說,你想知道「每天喝一杯珍珠奶茶,真的會變胖嗎?」這就是你的「問題(Problem)」。 接著,你會開始「計畫(Plan)」。我該怎麼找出答案?我應該找兩組人來實驗嗎?一組每天喝,一組完全不喝?我要追蹤多久?一個月?三個月?我要怎麼測量「變胖」?是只看體重,還是要看體脂率?這些思考過程,就是統計學的計畫階段。一個好的計畫,能讓你避免走一堆冤枉路。 再來是「資料(Data)」。你開始執行你的計畫,每天記錄兩組人的體重、體脂、飲食內容。這些原始的紀錄,就是你的資料。這個階段的重點是「忠實記錄」,不能因為某天某個人吃了大餐,就覺得這個數據「不準」而把它刪掉。 然後,最有趣的「分析(Analysis)」階段來了。你把這一個月的資料攤開來看,可能會畫個圖表,比較兩組人體重變化的趨勢。你會發現,喝珍奶那組的平均體重,是不是真的比沒喝的那組增加了?體脂率的變化又是如何?有沒有什麼特例?比如,有人天天喝,但因為他同時也在瘋狂健身,所以反而變瘦了?分析,就是從一堆看似雜亂的數字中,找出模式和規律,像個偵探一樣,尋找線索。 最後,就是「結論(Conclusion)」。根據你的分析,你可能會得到這樣的結論:「在這次為期一個月的實驗中,每天喝一杯全糖珍珠奶茶的組別,其平均體重比對照組增加了1.5公斤。這顯示,在其他條件不變的情況下,每天攝取珍珠奶茶可能與體重增加有關。」同時,你也要說明這個結論的局限性,比如這次實驗的樣本數很小,或者時間不夠長,所以不能完全推論到所有人身上。 你看,從頭到尾,我們有用到任何複雜的數學公式嗎?沒有。這整個過程,就是一趟充滿邏輯與思辨的旅程。作者說,這就是統計的「藝術」所在。它不是冷冰冰的計算,而是充滿人性的探究。它需要我們發揮好奇心去提問,發揮創造力去設計計畫,發揮嚴謹的態度去收集資料,發揮洞察力去分析,最後,用清晰且誠實的方式,說出我們從數據中學到的故事。 這跟我們平常在新聞上看到的統計數字有什麼不同?最大的不同在於,我們通常只看到「結論」。例如,「研究顯示,喝咖啡可以降低罹患心臟病的風險!」但我們很少去問:這個「研究」是誰做的?它的「問題」是什麼?它的「計畫」有多嚴謹?它收集了多少人的「資料」?追蹤了多久?它是如何「分析」的?有沒有可能,是那些本來就比較注重健康、有餘裕喝咖啡的人,心臟病風險才比較低? 如果我們不懂得去問這些問題,我們就只能被動地接收這些結論,把它們當成聖旨。但一旦你掌握了PPDAC這個思考框架,你就等於拿到了一把萬能鑰匙,可以去打開任何統計數據的黑盒子,親自檢視裡面的東西是貨真價實的黃金,還是只是鍍了金的廢鐵。 所以,統計學遠比我們想像的更貼近生活。它不只是考試卷上的一道題目,它是我們在這個資訊爆炸時代,用來辨別真偽、做出明智決策的必備工具。從決定要不要買某支股票,到評估一種新的減肥方法有沒有效,再到看懂政府公佈的疫情數字,背後都隱藏著統計的邏輯。 這本書,就是要帶我們走一遍這個完整的旅程。它會教我們,在每個環節,有哪些常見的陷阱,有哪些我們必須睜大眼睛看清楚的「眉角」。這趟旅程的起點,就是先建立一個正確的心態:統計不是數學,它是一門解決問題的藝術與科學。有了這個心態,我們就能擺脫對數字的恐懼,開始享受從數據中挖掘真相的樂趣。準備好了嗎?讓我們一起來學習如何像個偵探一樣思考吧!

02你的數據可信嗎?

我們上一章聊到,統計就像一趟偵探之旅,而PPDAC循環就是我們的辦案地圖。這趟旅程的第一站,就是要問對問題,然後制定一個好計畫。但接下來,我們要面對一個最關鍵,也最容易出包的環節,那就是「資料(Data)」。俗話說得好,「垃圾進,垃圾出」(Garbage In, Garbage Out),如果一開始收集到的資料就有問題,那後面不管你用多厲害的分析方法,得出來的結論也只會是一堆沒用的垃圾。 那麼,什麼樣的資料才算是「好資料」呢?作者告訴我們,關鍵在於「代表性」。也就是說,你收集到的這一小群人的資料,能不能真實地反映出你想要研究的那一大群人的樣貌? 舉個例子,假設你想知道「台灣上班族平均每天花多少時間通勤?」你跑到台北捷運的忠孝復興站,在早上八點發問卷,問了一千個行色匆匆的上班族。這樣收集到的資料,你覺得能代表全台灣的上班族嗎? 恐怕不行。首先,你只在台北問,那中南部、東部的上班族呢?他們的通勤狀況可能完全不同。其次,你只在捷運站問,那那些開車、騎機車、搭公車,甚至走路上下班的人呢?他們都被你忽略了。最後,你只在早上八點問,那些需要輪班、工作時間比較彈性的人,也都被你排除了。 你這樣做,就犯了一個統計上最常見的錯誤,叫做「抽樣偏差(Sampling Bias)」。你的樣本(那一千個在忠孝復興站被你問到的人),根本無法代表你的母體(全台灣所有的上班族)。用這個有偏差的樣本得出來的結論,比如說「台灣上班族平均通勤時間為一個半小時」,很可能就會嚴重高估實際情況。 這就是為什麼我們常常在網路上看到一些很瞎的民調。比方說,某個汽車論壇辦了一個投票:「你下一台車會考慮買電動車嗎?」結果顯示90%的網友都說會。這個媒體小編看了可能就馬上發一篇新聞:「台灣駕駛人心態轉變!九成車主未來將換購電動車!」但這可信嗎?當然不。會去逛汽車論壇,又願意參與投票的人,本身很可能就是對車子、對新科技特別有熱情的一群人,他們的想法,怎麼能代表所有開車的人呢? 那麼,要怎麼做才能避免抽樣偏差,得到有代表性的資料呢?統計學家發明了一個最強大的武器,叫做「隨機抽樣(Random Sampling)」。 「隨機」這兩個字聽起來很簡單,但執行起來卻非常嚴謹。它的核心精神是:母體中的每一個成員,都有「相同」的機會被選中。這就像我們辦抽獎,會把所有人的名字都丟進一個大票箱裡,然後攪拌均勻,再伸手進去盲抽。這樣對每個人才公平,抽出來的中獎者,才不會有爭議。 做研究也是一樣的道理。如果要認真地做前面那個通勤時間的調查,研究機構可能會先從政府那裡,拿到一份涵蓋全台灣、各行各業的上班族名冊(當然要去掉個資),然後用電腦程式,像抽獎一樣,從裡面隨機抽出幾千個號碼,再派訪員去一一聯繫這些被抽中的人。這樣得到的樣本,才會比較接近全台灣上班族的真實樣貌。 你可能會想,這樣也太麻煩了吧!的確,完美的隨機抽樣,既花錢又花時間,在現實世界中很難做到百分之百。但重點是,我們要對「資料是怎麼來的」這件事,抱持著高度的警覺心。 下次當你看到一則報導說,「調查顯示,有七成的民眾支持XXX政策」,你腦中第一個警鈴就該響起。你要去問:這個「調查」是誰做的?他們是怎麼找到這些「民眾」的?是在網路上讓人自由填寫的嗎?那可能只有對這個議題特別有意見的人才會去填。是在路邊攔人問的嗎?那他們在哪條路、什麼時間攔人?這些細節,都會嚴重影響調查結果的可信度。 作者在書中舉了一個經典的例子,就是1936年的美國總統大選。《文學文摘》這本雜誌,寄出了一千萬份問卷,回收了兩百多萬份,根據這個超巨大的樣本,他們信心滿滿地預測共和黨的候選人會大勝。結果呢?民主黨的羅斯福壓倒性地贏了。 為什麼會錯得這麼離譜?因為他們的抽樣出了大問題。他們是從電話簿和汽車登記名單去找人的。但在1936年那個年代,家裡有電話、有汽車的,大部分都是比較有錢的共和黨支持者,而廣大的勞工階級、窮人,也就是羅斯福的主要票倉,根本就不在他們的名單上。他們的樣本雖然大,卻有著致命的偏差。 與此同時,一個叫蓋洛普的年輕人,只用了幾千人的隨機樣本,就成功預測了羅斯福會勝選,從此一戰成名,開啟了科學民調的時代。這個故事告訴我們:樣本的「品質」,遠比「數量」來得重要。一個小而美的隨機樣本,勝過一個大而偏頗的垃圾樣本。 除了抽樣偏差,資料的來源還有很多其他的坑。例如,問題的問法也會影響答案。如果我問你:「為了下一代的健康,你是否支持政府課徵含糖飲料稅?」這樣帶有引導性的問法,可能會讓你更傾向於回答「是」。但如果我換個方式問:「你是否支持政府加稅,讓你的手搖飲變得更貴?」答案可能就完全不一樣了。 所以,當我們在解讀任何統計數據之前,一定要先像個龜毛的偵探一樣,對資料的來源進行一番嚴格的審查。問問自己:這個數據是怎麼來的?樣本是誰?是怎麼被選出來的?有沒有可能存在系統性的偏差?問問題的方式公正嗎? 如果這些問題的答案都交代不清,那這個統計數據的可信度,就要先打上一個大大的問號。記住,面對數據,我們的第一反應不該是全盤相信,而應該是「等等,讓我想想」。這種批判性的思考,正是《統計的藝術》想教會我們的核心技能之一。

統計的藝術 book cover - Leapahead summary

使用 LeapAhead 應用程式繼續閱讀

完整摘要正在應用程式中等您

03. 數字到底想說啥

04. 別被相關性騙了

05. 賭一把的科學

06. 從一小撮人看全世界

07. 好故事比好數據更危險

08. 結語

關於 大衛.史皮格霍特勒

大衛.史皮格霍特勒(David Spiegelhalter)為英國知名統計學家,現任教於劍橋大學統計實驗室,並擔任溫頓風險理解講座教授。他長期致力於統計學與風險溝通的研究,是該領域備受推崇的權威之一,同時也是活躍於公共領域的統計教育者,擅長以清晰易懂的方式,引導大眾正確理解數據、機率與不確定性。在《統計的藝術》中,他結合嚴謹的學術基礎與豐富的實務經驗,展現統計思維如何幫助我們更明智地解讀世界。

探索分類