Werden wir Helden für einen Tag

one-number-per-subject

Posted on Sep 2, 2008 by Chung-hong Chan

看到 Seth Roberts ((此君未夠 60 歲已經退休，現在是加州柏克萊大學心理學系榮譽退休教授)) 寫 "Three things statistics textbooks don't tell you" ，看得很過癮。話實，我的統計學是無師自通，期間都沒有看統計書藉，是多看其他人怎樣的分析數據，從中「偷師」。亦因此，我不是根正苗紅統計學出身，理論基礎不太濃厚。現在去讀一個生物統計學碩士純是用作證明我會統計學之用。
回歸正傳， Seths 提出了三點統計書藉永遠沒有告訴你的東西。第一點是統計圖表的主要作用，不只是統計書藉所強調的展示統計結果，而係在數據分析時觀察關係，再找出合適的分析方案。有時甚至可以從此找到新的研究題材。（ Idea Generation ）第三點是 Data Transformation 可令數據關係更易見到，這亦是老生常談，只是統計書藉較少著重有關討論。
至於第二點，他說可多用 one-number-per-subject 方法。這是我相當少見到的，所以帶來的思想衝擊甚大。借用 Seth 例子，如有 60 個研究對像，他們每天都量度睡眠時間及情緒分數，共六十天。即總共有 3600 對睡眠時間及情緒分數數據。我們想看看睡眠時間及情緒分數有沒有關係。好了，你會怎樣去分析這 3600 個數據？想當然的方法，是將 3600 點的睡眠時間和情緒分數做 correlation/regression 。但這樣做是錯的，因為我們不是有 3600 個研究對像，這樣做明顯有違 Regression 四大假設的 independence ((另外三個分別是 Linearity, homoscedasticity 及 normality of error )) 。有些人又會說做 Multiple Regression analysis 控制每個研究對像的不同，這亦是我輩會想到的分析套路。 ((即是將 Subject 當作一個 dummy variable 。因為我們有簡單複雜化的傾向，面對複雜問題用更複雜的方法)) 但這仍未解決到 independence 的問題。 Seth 提出的方法，是我想不到的：將 60 個研究對像的 60 天的睡眠時間及情緒分數，每人計一個 correlation coefficient 。再計算 60 人的平均 correlation coefficient 是否明顯高於零。 ((即是每個對像以一個 correlation coefficient 作為一藍子數據的 summary ，再分析這個 summary 。故作 one-number-per-subject。 )) 他指出這方法不但解決了 independence 的問題，亦可解決了數據缺失及 outliner 。亦令分析簡單方便但又不減低分析的 sensitivity 。
這個技術好像沒有人教過我。在此向大家分享。 ((雖然沒有人教，但我的 innate response 驅使我用過這些方法。例子是在分析去年港島補選的 Meta-analysis ，我沒有用到每次民調的 raw data ，而只使用葉劉和陳太的 margin 。由於每次 sample size 及 Margin 都有不同，故此 Standard Error 不同，我使用了 Meta-analysis 控制 Standard Error 不一的影響。))