如同封面副標所言:「本書最大宗旨在於如何解讀統計數據資料!不使用艱深的數學式,就能讓你看穿數字背後的真相。」本書書真的沒有一直拿大學必修的統計計算公式出來使讀者見周公,也沒意圖使讀者闔上書籍出遊去,而是以過來人的經驗「告知」你:(看吧,)只要懂點統計學,就能在具有不確定性的情況下稍微作點(無傷大雅的)弊,等等之類的直白語句。
如,第一趴就跟你說:他(作者大學朋友)一定是因為這樣的鬼腳圖抽中率,才經常帶著「不知為何運氣總是很差」的心情去替大家跑腿。(笑)
又如,第某趴提到:若你的統計分析完全無法揭露任何事實上可以達成、預期能獲得良好投資回報的行動,那還不如一開始就只靠經驗和直覺來決定就好。(微笑)
但!
這實實在在就是一本統計學書啊!
只是比學生時代的統計學書有趣些,然後沒有複雜的公式。本書開頭就先講為何統計學是最強的武器—「掌握了統計學(資訊)就等於掌握了全世界。」這句話貫穿了整本書,而目次頁也把所有重點精闢地講完。(心得完)
接者開始從基礎介紹統計學。
普查 vs 抽樣調查
誤差
判斷所需之最小資料量
因果關係
卡方檢定與 p 值
隨機對照實驗
回歸分析
多元分析回歸與邏輯回歸
傾向分數
以前,我在課堂上(認真的)學習統計學,學了很多統計學基本相關知識,寫了很多試題,但那只為了通過必修學分以及不讓考試分數難看,並不同於經濟學課堂上,與世界接軌(瞭解所學在各年代時事的應用或相關背景)的有趣。
本書作者用了在不同企業上碰到的例子來搭配解釋,並循序漸進的讓我們了解統計學相關知識,亦用了這些例子來告訴讀者:「統計學的偉大之處,就是能以最快的速度,明確指出一條通往「最好」的路徑。」(所以,還不快來學統計學!)
Google 的首席經濟學家哈爾 · 韋瑞安(Hal Varian)博士與2009年1月,在麥肯錫公司所發行的期刊上說:
I keep saying the sexy job in the next years will be statistician.
對於近年來被炒熱的大數據(及其他的專業術語),作者也有提到一些看法。
「先從正確判斷出所需之最小資料量開始」
在分析數據的過程中,往往需要一些試探性的作業。原始資料越複雜,實際嘗試後,愈容易出現剛好與理論相反的結果,為了保險起見,便需要嘗試各種不同的分析方法,又或者發現了所用數據本身有某些問題存在,必修先加以修正等,這些都是連經驗豐富的統計學家也無法避免的過程。
…(略)
觀察結果的同時並嘗試各種方法與分析角度,這樣的試探性分析最重要的莫過於嘗試錯誤的次數。
…(略)
由此可知,即使最終仍需以所有資料為對象來進行分析及驗證,一開始只使用分量適中的抽樣資料來做試探性分析,並找出假設目標會比較好。
畢竟,分析本身並無任何價值,其價值是從分析結果所採取的行動,到底可以帶來多少價值而定。
最後這部分跟翟大(和沛科技 翟本喬)的說法差不多——大數據的層次:
「
存得起來的,就是 Storage (儲存);
看得到的,才是 Data (資料);
看得懂的,叫做 Information (資訊);
用得出來的,才能稱為 Intelligence(情報)。
」
對於數據分析來說:該分析所產生的判斷,是否能為公司帶來高於分析成本的利益?
除了「感覺似乎掌握了現況」(彙整資料)之外,還需「能夠改善經營或業務的具體行動」。分析結果至少要能回答以下三個問題:
- 那個因素的變化能提高收益?
- 採取可引發這種變化的行動,可行嗎?
- 若是可引發該變化的行動可行,其成本會高於所增加的收益嗎?
這樣才有希望達到「透過行動來提高收益」的目標。
而數據分析之所以行不通,終究還是因為多數人「只會做無助於商業判斷的數據分析」。(這部分確實是我目前所缺少的部分!!!)
「經驗」很不可靠。
有時我們的經驗會受到「記憶偏見」的影響,過度擴張令人印象深刻的經驗。
只靠經驗與直覺並無法判斷我們是「真的知道」,還是「自以為知道」可以左右收益的差異在那裡,但若有正確的資料得以比較,就能明確找出差異。
除了經驗不靠譜外,不考慮「誤差」的試算都不切實際。
「該收集並分析什麼樣的資料」?
比較「已達成目標者」和「未達成目標者」之間的差異。
獲得密技的三個關鍵:
- 進行適當的比較
- 除了資料彙總,還要明確算出其誤差與 p 值
- 該分析什麼樣的數據
「因果關係是有方向性的」
因為注意到該廣告,所以購買商品?
因為買了商品,才注意到有這個廣告?
「電動玩具與青少年犯罪,真有實質的因果關係嗎?」
從同一時間點的資料,無法找出確定的因果關係,是因為拿來比較的母體條件並不一致,也就是因為「不公平」造成的。p111
解決方案有二
- 所有能想得到的「相關條件」進行持續的追蹤調查,並運用統計學的方法,至少讓所有已測量到的條件都盡量一致,藉此達到「公平的比較」。
- 取得資料的時間點就達成「條件的公平及一致」,而不是到了分析時才做。
統計學的終極必殺技:隨機對照實驗(也就是最近在網路相關領域裡的常被討論的 A/B 測試)
隨機對照實驗能耐在於「對於人類可控制的任何東西,它都能分析其因果關係。」
如果是因為預算太大,風險太高,而必須盡可能降低錯誤發生率來說,隨機對照實驗便能發揮作用。
但隨機化並不是什麼時候可以使用,三個隨機化障礙:
- 做不到隨機化這個動作——「現實」
- 隨機化的動作不被允許——「道德」
- 執行上本應沒有任何問題——「情感」
將「基本上都是相同手法」這樣的概念為基礎,依據使用時機和該觀察的數據等條件,整理成一張表。
統計學是「以公平的比較為基礎」,目的在找出產生差異的主要因素,而只要決定了想使用什麼樣的分析軸來比較什麼樣的值,便能輕鬆選出該採用的分析方法。
統計學的六大領域:
- 目的在於掌握實際狀況的社會調查法
- 目的在於找出原因的流行病學及生物統計學
- 目的在於測量抽象概念的心理統計學
- 目的在於機械式分類的資料採礦
- 目的在於處理自然言語的文字勘察
- 著重在推論的計量經濟學
本書最後的章節說明上述六個重要思維,使理解現在大部份的統計學相關言論,分別是從什麼樣的立場來論述的。
如果在我大學階段就讀了這本書,我想⋯⋯對於統計學的興趣(分數)應該會更高吧!
有興趣的朋友,可以到博客來購買此書,附上傳送門:統計學,最強的商業武器 從買樂透到大數據,全都離不開統計學;不懂統計學,你就等著被騙吧!
同場加映:統計學,最強的商業武器:實踐篇