He’s the one
Who likes all our pretty songs
And he likes to sing along
And he likes to shoot his gun
But he knows not what it means

In Bloom, Nirvana

Big Data

其實 Big Data 在 2012 年已經爆了煲,何苦又要再拿出來。在我看來,真真正正的 Big Data 是一般 database 無法儲存的數據,因此分析方法也亦有不同,例如要用到 Online Learning / MapReduce 等等。而拿一點點數據(少於 1TB)作分析,就說自己是 Big Data 其實好好笑。為何不說自己用的方法叫做 Statistics 或 Machine Learning ? 每次有人說自己在做 Big Data ,我會想起街邊賣寬頻的,會說自己是甚麼甚麼顧問。又或者現在興 Dubstep ,就明明自己玩的音樂只是 Cantopop 也說自己的音樂有 Dubstep 完素。
Big Data 已經過期了。別人己在談 Hyperdata ,要追潮流?追死你。

微博

無錯,我的主業真是研究微博。但人人都說要研究微博,那就是 jumping on the bandwagon 。微博真是很多 data ,又有 censor 夠晒 juicy ,但問題是那個 data 有其局限,主因是用微博的多是國內人士,故此那不是萬能銀彈。舉個例,我想是無法用微博的數據來研究颱風海燕對菲律賓的影響。
我也在想 PhD 研究不再分析微博。人是要 moving forward 的,難道那麼多 Social Media 只有新浪微博值得研究?

Big Data

Big Data 是值得講兩次的,由此可見我是如何討厭此物。
其中一種常常有人做的「 Big Data 研究」是數某個 Keyword 出現在 Social Media 的頻次。但請問這種研究證明到甚麼假設呢?那就像一個統計模型只有 x 一樣,這個 keyword 的頻次到底是與甚麼現像 (y) 有關?
我想起以前做醫學研究時,由於醫院永遠只有病人,故此絕大部份的研究都沒有對照組,到頭來甚麼都證明不到。