《在這個年代,不相信中國的數據,都算一種自保手段》
-遼寧省2016年GDP虛報23%,2011年至2014年的財政數據原來有部份造假。
-天津2016年生產總值從一萬億元調整為6654億,當年報大30%。
-內蒙古 核減2016年規模以上工業增加值2900億元,佔全部工業增加值的40%。
這些,都只是冰山一角。
記得一年前,有位朋友跟我談起「大灣區」機遇。
他說:
「大灣區呢三隻字擺明多水份,呢啲我緊知啦。嗱,但9成水份,總帶住一分真!我研過啦,呢幾個位前景應該真係好。我諗住入,你點睇。」
其實問我點睇是「嘥氣」的,
我又沒資本…
他不過是想從我身上得到「認同」罷了,
只要我乖乖說句「哇屌!你眼光好好牙!」就可完事。
可是,我又帶點反叛,
於是隨手看看他這份計算模型,基於中國的官方數字,推測得有模有樣。
最後問了一句,
令這段對話不歡而散。
那一句是
『如果你用嚟整呢份嘢嘅第一粒數,係假嘅,咁點算?』
我也不是刻意留難,只是合理懷疑。
這是中共予人的基本印象-「謊言」與「粉飾太平」。
所以在武漢肺炎一事上,
中國的所有數字,參考就盡量唔想。
叫我盡信?直頭不了。
因為只要推敲中共政權的官僚獨有文化,
就知道「真正的數字」,
可能連中國的最高領導人都「估唔到」。
他們的文化是甚麼?
對比西方國家,就是「不透明」與「亂嚟」。
地區官員想「升官」、「擦鞋」、「怕得罪中央」,
造成用「謊言」取代「真話」的現象,
「假」數字由四方八面組成,經過幾百個部門各自加工。
原本的真相?比起尼斯湖水怪更難找。
有人問「香港人應付疫情有咩心得。」
答案很簡單:
「對中國的所有數字抱有質疑。」
口罩非無雙,心態最重要。
IG: cheungson88
https://www.instagram.com/cheungson88/
另外,Twitter戰線!互相Follow吧!
https://twitter.com/cheungson88
「數據謊言與真相心得」的推薦目錄:
- 關於數據謊言與真相心得 在 張晨("鳥"不起) Facebook 的精選貼文
- 關於數據謊言與真相心得 在 [心得] 《數據、謊言與真相》導讀- 看板book - 批踢踢實業坊 的評價
- 關於數據謊言與真相心得 在 [心得] 數據、謊言與真相- book 的評價
- 關於數據謊言與真相心得 在 公務人員專書閱讀網- 【每月一書】2月~數據.謊言與真相 的評價
- 關於數據謊言與真相心得 在 [心得] 《數據、謊言與真相》導讀- 看板book 的評價
- 關於數據謊言與真相心得 在 【請問時書】第三問:大數據會歧視人嗎? - YouTube 的評價
- 關於數據謊言與真相心得 在 《數據.謊言與真相: Google資料分析師用大數據揭露人們的 ... 的評價
- 關於數據謊言與真相心得 在 [討論] 最近怎麼少了很多暢銷書心得? PTT推薦- book 的評價
- 關於數據謊言與真相心得 在 作者xinxi26 在PTT 全部看板的留言(推文), 共148則 - PTT網頁版 的評價
數據謊言與真相心得 在 [心得] 數據、謊言與真相- book 的推薦與評價
[心得] 數據、謊言與真相 ; 看板, book ; 作者, shoshin ; 時間, 2020-02-29 16:55:24 ; 最新, 2020-03-01 03:24:00 ; 留言, 2則留言,2人參與討論. ... <看更多>
數據謊言與真相心得 在 公務人員專書閱讀網- 【每月一書】2月~數據.謊言與真相 的推薦與評價
【每月一書】2月~數據.謊言與真相:Google資料分析師用大數據揭露人們的真面目數位經濟的核心在於平台經濟,及和平台經濟密切相關的大數據,Google允為其中要角。 ... <看更多>
數據謊言與真相心得 在 [心得] 《數據、謊言與真相》導讀- 看板book - 批踢踢實業坊 的推薦與評價
【書名】:數據、謊言與真相
【作者】:賽斯‧史蒂芬斯—大衛德維茲
【譯者】:陳琇玲
【出版】:商周出版
—
四張內頁圖表,排版優化原文
Matters|https://tinyurl.com/y4pzy2hv
.
.
「人們搜尋資訊,這種行為本身就是資訊」
「人們會把自己可能不會告訴任何人的事情,告訴這個大型搜尋引擎。」
是的,《數據、謊言與真相》即將為讀者揭示「大數據」的各種議題,包括如何運作,以
及產生什麼重大發現,也談到其所受的限制資料多數源自 Google 這座寶山。
.
.
■ 何謂數據科學?大數據?
.
其實,我們一直都透過大腦裡的大型關係資料庫,做各種分析、判斷:發現模式,預測一
個變數如何影響另一個變數,這就是數據科學。
良好數據科學的方法論通常是直觀的,但結果往往違反直覺,原來這世界的運作跟我們所
想像的截然不同。而透過大數據,讓我們挖掘更多、發現更多、理解更多。
作者在一開始就言明,不會對大數據做出一個精準定義。究竟多大才算大?這是一個籠統
的概念,他寧可對大數據的特性採用涵蓋性更廣的看法(有四,稍後詳談)。
通讀本書,就我個人的體悟,大數據中的「大」是一種相對性,取決於研究者提問的。若
只是殺雞一般的問題,小樣本抽樣就夠「大」了,根本不用祭出牛刀;提出正確的問題、
採用正確的資料,才是最攸關的,未必總是需要大量數據。
現在,讓我們一起來看看大數據的四種獨特力量(特性)。
.
.
■ 1. 提供新穎的資訊
.
重新想像什麼東西有資格當成數據,通常大數據的價值不在於本身的大小,而在於提供新
類型的數據,也就是以往從未蒐集過的資訊。
▍跟蒐集更多數據無關,而跟蒐集正確(更好的)數據有關。
若你有看過《魔球》,相信不難理解非傳統新數據的超大價值。書中舉另一個異曲同工的
例子:成為賽馬明星的關鍵是什麼?傳統賽馬經紀人通常從一匹馬的血統和步態著手,然
這位取得許多哈佛大學學位,後成立 EBQ 公司的馬匹狂熱份子傑夫.塞德(Jeff Seder)
並不這麼想,他打算評量賽馬的各種屬性,並看看哪些屬性跟賽馬場上的表現有關。
賽德測量過馬匹的鼻孔大小、快縮肌體積,甚至連排泄物重量也不放過,多年來只是徒勞
無功。後來總算是走運了,他決定測量馬的內臟大小,成效斐然。他發現心臟大小,尤其
是左心室的大小,就是能否成為賽馬明星的關鍵預測因素。為此,成功幫客戶揪出「美國
法老」這匹 30 年來首屈一指的三冠王。
拜數位化之賜,「什麼可以當成數據使用」有著更多可能性,像是書籍中的字詞、約會中
的交談聲、畢業紀念冊中的照片 一切都是數據!
.
.
■ 2. 提供誠實的數據
.
先是以「社會期許偏誤」(social desirability bias )破題, 點出許多人在問卷調查
問及令自己困窘的行為和想法時,都會說謊的現象。即使是匿名的網路問卷,人們還是希
望保持自己的良好形象。
然某些線上來源,像是你搜尋什麼?瀏覽什麼?這類數位足跡的作用就像誠實豆沙包,吐
露了人們真正的看法、感受和慾望。這是大數據的第二種力量,因為你有「以為沒人知道
」誘因,就更願意說出真相。
▍不要相信人們告訴你什麼,要相信他們做了什麼。
人們可能聲稱自己很憤怒,對一些「垃圾新聞」加以譴責,但是人們還是會點擊。
題外話,關於這種「說一套做一套」的落差,剛好是我最近讀的另一本書《盲點》深入探
討的主題;一方面我們很不擅長預測未來的自己,或是說在預測時和執行時的動機往往不
一樣,再加上「道德褪色」的推波助瀾,終焉導致這種「言行不一」的矛盾。
.
.
■ 3. 把焦點放在人口中的小子集
.
大數據就像 RAW 檔。
當觀察數「夠大」時,就允許我們有意義地放大檢視數據集的細部。猶如為了將照片的一
小部分放大後還能清楚查看,照片需要有很高的畫素,這是大數據的第三種威力。
看到這邊特有別感。在台灣,平常我們在新聞上看到的各種電訪民調,樣本數抓 1000 至
2000 人差不多就緊繃,若要考慮各年齡層的分佈,多半採用「每十歲(年)」作為級距
。
而下列這個棒球研究的例子,卻是用「每一年(歲)」進行切割。要做到這樣,需要有數
百萬次觀察,唯有大數據才能提供支持。
「把資料切成這麼細,是要做啥?」
大數據允許我們使用與問卷調查截然不同的設計,提出嶄新的問題。觀察中發現在 1962
年和 1978 年出生的這群人中,大都會隊非常受歡迎,那段時間究竟發生什麼事?原來,
大都會隊分別於 1969 年和 1986 年贏得兩次世界大賽。於是引出了一項重要指標的檢視
:
▍讓男性從小到大死忠支持某支棒球隊的最關鍵年紀,大概就發生在八歲那段時期。
這是「小數據」做不到的格局。
.
.
■ 4. 進行許多因果關係的實驗
.
在數位世界裡,要進行「隨機對照實驗」變得容易進行,整個世界就是一間實驗室。
隨機對照實驗,或稱之為「A/B測試」,就是隨機將人分成兩組,一個是要做某件事的實
驗組,另一個是什麼也不必做的對照組。然後觀察每一組的回應,兩組在結果之間的差異
性就是取得的因果關係。
在離線環境,像是最近吵得沸沸揚揚的疫苗第三期臨床試驗,動輒需要上萬人的實驗人數
,得投入大量資源;但在線上,就是幾行程式碼的事情,既省錢又省時。
Google 和臉書每天都進行大量的 A/B測試。引用書中例子,在 2012 年 12 月,Google
更改廣告,在廣告右方添加一個由正方形包圍的向右箭頭。
說多怪就有多怪,它指向右方,但右方根本沒有東西。事實上,這個看似無意義的箭頭,
卻在 A/B測試中勝出,這樣做會有更多人點擊,讓 Google 和他們的廣告客戶賺大錢。
▍就是因為我們不了解人性,所以測試才這麼有價值。
大數據以真正奏效的因果關係,取代直覺、猜測、普遍看法和虛假相關性。
.
.
■ 後記:表皮,果肉與纖維
.
在閱讀過程中,時而覺得這本書頗有《蘋果橘子經濟學》的氣質,行至結論,作者還真提
到他寫這本書的最大原因,是受到 李維特(Steven D. Levitt)的啟發。
看似蘋果,切下去變成橘子,用來比喻「事情的本質跟表面往往不同」,也呼應本書提到
的「結果往往違反直覺」。
我喜好《數據、謊言與真相》更勝《蘋果橘子經濟學》,更嚴謹的研究方法、更有組織的
書寫脈絡、更貼近你我周遭的議題,佐以更細膩的資料探勘技術。
以前剖開表皮,見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。
--
閱讀筆耕|一週一耕,佐以心智圖耘襯
https://linktr.ee/penfarming
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.35.172.186 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/book/M.1624805867.A.BB7.html
... <看更多>