[系列文章] 想要學人工智慧,你必須先懂些統計學(繁中)
大家好!今天要分享給大家的,是我在網路上找到的一系列文章:「想要學人工智慧,你必須先懂些統計學」。
這個系列目前出了十四篇,每一篇的連結如下所示:
(01)統計學導論和數據收集: https://is.gd/v7foEL
(02)數據的描述與概括性度量: https://is.gd/5AsDLi
(03)機率與機率分布: https://is.gd/Qj7L6J
(04)方差分析概述: https://is.gd/w9A8Jy
(05)單因素方差分析: https://is.gd/uhy9lF
(06)統計學中的顯著性水平、統計量和P值之間什麼關係?: https://is.gd/f1p9zI
(07)雙因素方差分析: https://is.gd/zfzngJ
(08)相關分析概述: https://is.gd/lJKkf5
(09)相關分析及顯著性檢驗: https://is.gd/jG7CDA
(10)回歸分析概述: https://is.gd/J8TIKA
(11)一元線性回歸: https://is.gd/0ACXDn
(12)回歸方程的顯著性檢驗: https://is.gd/ppAFkf
(13)回歸係數的顯著性檢驗: https://is.gd/PL66lM
(14)利用回歸模型進行預測: https://is.gd/0vMQoj
會找到這一系列文章,是因為我在台大計算機中心的機器學習新班昨天開班了( https://is.gd/lTOecq 耶~~)!課後大家的問題很踴躍!我也從晚間九點下課,回答大家的問題到九點四十分才離開。其中有一位同學問到,他聽了我第一堂課後,知道機器學習很吃統計概念。但他的統計基礎不太好,所以想知道有沒有什麼書籍或文章,可以快速惡補一下統計學的?
於是昨晚回到家後,找了一下資料,發現這一系列的文章寫得不錯,就把這十四篇文章,提供給該位同學,也順便分享給大家參考。希望大家喜歡!
如果你想要一本比較正式的統計書籍,我推薦「程大器」老師的書籍!寫得很好!我自己有買,而且已經很愉快的看完了!您可以在博客來書店找到程老師那兩本統計學的著作:
統計學(上): https://is.gd/Zh63mG
統計學(下): https://is.gd/5uliI9
希望今天的資訊,能夠幫助到想在學機器學習之前,加強統計背景的朋友!如果您有統計學該怎麼學?或者機器學習用到哪些統計學?以及這些統計學該怎麼應用到機器學習...等疑問的話,歡迎在底下留言給我。我會儘快回答您的問題的。
PS: 本文歡迎轉發、按讚、留言鼓勵我一下!您的隻字片語,都是讓我繼續提供好物的動力喔!
--------
看更多的紀老師,學更多的程式語言:
● YOTTA Python 課程購買: https://bit.ly/2k0zwCy
● Facebook 粉絲頁: https://goo.gl/N1z9JB
● YouTube 頻道: https://goo.gl/pQsdCt
● Instagram 日常生活: https://goo.gl/nBHzXC
● Twitter 碎碎念: https://is.gd/xFZeub
如果您覺得這個粉絲頁不錯,請到「評論區」給我一個好評喔!
https://www.facebook.com/pg/teacherchi/reviews/
線性回歸相關係數 在 JC 財經觀點 Facebook 的最讚貼文
《成功與運氣-解構商業、運動與投資,預測成功的決策智慧》
在看超值投資的時候,討論均值回歸的概念有提到這本書,讓我對此書產生了興趣,這本書是2012年出版的,剛好天下在今年3月時出版中文版,還很新,就這個機會讀了一遍。讀完之後內容其實某種程度上我覺得是比較偏向精準預測那一類的書籍,使用了很多統計的研究,讓我們可以用比較理性的角度去判斷事情的面向。內容其實也提到了很多經典書籍所包含的概念,讓我們再去重新思考當我們想要藉由過往的成功,去預測或評估未來的成功性時,需要考慮到哪些重要的環節。
當我們提到統計數據時,最常使用的就是運動競賽的例子,其所可以獲得的資訊最多,也最為準確。一位偉大的網球運動員,跟一支擁有眾多明星球員的棒球隊,所獲得的傑出成就,是什麼因素造成?為什麼最優秀的幾位網球員可以連續幾年排行在世界前幾名,而去年美國大聯盟的冠軍今年卻不一定可以進季後賽?如果以書內的書中的論述來說,其實兩者之間還是有區別的,這我們就可以運用作者所提到「能力」與「運氣」的兩個因素去討論,有可能是因為網球比賽的個人能力可以達到充分發揮,而棒球比賽有太多隨機因素,一個打者打擊出去,受到其他因素影響這個球是否可以形成安打的因素太多,可以造成比賽的輸贏的因素,也太多了,這時候除了球員的能力之外,運氣這個因素也佔了很大的成分。
以上述這個例子再來引申到商業或投資上面,我們也可以找到共通點。作者提出「運氣與能力光譜」上這個概念,可以讓我們很具體的了解兩者之間的關係,找出一件事情的本質。提到用三個問題來判斷一件事情在光譜上的位置,第一個問題是因果關係,如果我們可以很清楚找到原因,就表示這件事情勢比較偏向光譜上能力的那一端。第二個問題是回歸率,若是由能力主導的活動,回歸均質的現象比較慢。第三個問題則是,在哪些領域的預測比較準確?這時候則必需檢視過去的紀錄是否是一個可靠的指標了。
這三個問題又可以分別再深入討論。我比較關注的是,既然可以明確的判斷,那為什麼又會預測失準呢?作者在書內又舉了很多例子讓我們可以更有脈絡的去進行分析。一般人常見的錯誤,是陷入所謂的「因果謬誤」,也就是根據不充分的證據便輕易的認定其因果關係。真正的因果關係應該是穩定、線性的,穩定的意思是這些活動的基本結構長久都不會改變,線性是指某個特定行動每次都會產生同樣的結果反應。當確立了明確的因果關係後,我們也可以認定在這件事情上,「能力」的影響力應可超越運氣的影響力,我們可以藉由認真的練習來得到回饋,花時間與精力成為專家。
而均值回歸又要怎麼去檢視呢?這時候會有一個陷阱藏在裡面,我們在談均值回歸的時候,應該對平均值有概念,若是有少數極端大的值,以及眾多小數值去影響平均值就沒有太大意義。當一件事情中運氣所佔的成分較高,回歸均值的現象會快很多。所以我之前思考回歸均值在投資中扮演的角色時,應該要加上其他附加條件。前提是投資人對市場價格的短期隨機波動反應過度,而這種過度反應造成股價暫時背離真值,久而久之,股價後來會對著真實的價值的均值回歸。這是建立公司基本面上「能力」的展現,所以步調是緩慢而穩健的。當市場參與者一直高估熱門股的未來成長率,不知道比較可能的結果是回歸均值,那則有很大的可能遭受損失。葛拉漢曾說:價值投資預期股價在短期內會偏離真值,但長期會回歸真值。價值也會波動,我們犯的錯誤是檢視一檔股票的財報、分析其基本表現,從而認為走勢會延續下去。
最後一個問題是,在哪些領域的預測比較準確?如何運用統計數據來進行有效的預測,應該用兩方面檢視,一是持續性,又稱為信度(reliability),也就是能穩定的重複先前表現。另一則是預測性,又稱為效度(validity),這又可以再回到我們的第一個問題因果關係來討論了。統計學家會透過相關係數來評估持續性和預測值,決定要用哪一種統計,必須先把目標訂清楚,你希望用這些統計數據做什麼,再來必須決定那些因子能夠讓這些目標成真,故必須把因果理論轉化成可觀察與測量的數據,如此便能評估,能力(高穩定性)究竟對目標(高預測值)有多少貢獻。
本書作者使用了更淺顯易懂的筆法描述了關於決策過程的注意事項,並提供了我們面對能力與運氣的時候,應選擇什麼方法去分辨並採用可行的分析,讓我們可以更穩步的邁向成功。若用《精準預測》裡面的話來說,平靜接受我們不能預測的事,勇敢預測我們能預測的事,並睿智看出其中差異何在,轉化成本書的話語,面對運氣,應該抱著處之泰然的態度,即便運氣在過程中扮演了某種程度的角色,但在長時間之下,有能力的人還是可以得到應有的報償。
http://jcinvestingnotes.blogspot.tw/2017/04/blog-post_6.html
線性回歸相關係數 在 李傑老師 Facebook 的最佳貼文
高三(四)的孩子看過來!!!
104學測數學各章節重點如下:
1.數與式:有(無)理數的判定/雙根號/算幾不等式
2.多項式:二次函數的圖形及根與係數/恆正(負)/牛頓定理(一次因式檢驗法,重要)/拉格朗日插值法(重要)/虛根成雙定理(重要)/勘根定理(重要)/簡易的高次不等式
3.指對數:圖形(判別根之個數)/對數定義的應用題(星等,分貝,地震強度,ph值)/不等式(應用題)/首尾數(位數的判定,複利,成長率,內插法(很重要)
4.數列級數:等差等比的綜合應用(重要)/等比求和/sigma的應用
5.排列組合:同物排列(重要)/排容原理/選排問題(重要)/分組分堆(重要)/同物分配與異物分配的比較/簡易的二項式/幾何計數(三角形,直線的計數)
6.機率:古典機率(銅板,骰子,數字問題)/條件機率(很重要)/貝士定理(很重要)/獨立事件
7.數據分析:標準差的判讀,資料混合求新標準差(重要)/相關係數(很重要)/回歸直線(很重要)/資料的伸縮與平移性質(很重要)
8.三角:定義(廣義角)/角度的轉換(重要)/正弦,餘弦定理(很重要)/
面積的求法/中線與偏線長(重要)/加減法公式/二倍角公式(重要)/三倍角公式/三角測量(立體+查表)
9.直線與圓:斜率的概念(重要)/4心(外,垂,重,內)/線性規劃(很重要)/圓與直線的位置關係(含最大,最小距離,很重要)/切線的求法(重要)
10.平面向量:加減法與作圖/共線理論(重要)/內積的性質與與應用(求夾角,長度,很重要)/直線的距離與夾角
11.空間向量:兩面角與三垂線/坐標系的設定(重要)/外積與體積(重要)
12.空間中的平面與直線:平面方程式(重要)/點面距/夾角問題/平面與直線的位置關係(求交點,夾角,平行,垂直,很重要)/兩線求交點
13.距陣:高斯消去法/乘法與性質(重要)/馬可夫鏈(很重要)/反距陣(很重要)
14.二次曲線:拋橢雙的定義與應用(很重要)/共焦點問題(很重要)/求方程式/兩圖形的交點個數(重要)
最後幾天按照上述重點,逐一複習,考試必得佳績
夠 夠 夠 (握拳)
(本文歡迎轉載分享/請註明出處)
線性回歸相關係數 在 第8單元相關與迴歸| 心理科學基礎統計 的推薦與評價
這個單元介紹兩個連續變項相關程度的皮爾森相關係數,以及如何計算兩者之間的簡單迴歸。以統計方法的發展歷史來說,相關與迴歸的分析方法比假設檢定還早出現。 ... <看更多>
線性回歸相關係數 在 [解題] 高一下數據分析相關係數與迴歸直線- 看板tutor 的推薦與評價
1.年級:高一下
2.科目:數學科
3.章節:第四章 數據分析
高雄市新興高中100學年度下學期第三次段考
題目來源:https://ppt.cc/EfBi
4.題目:
S高中的高一有學生700位,第一次期中考與第二次期中考的數學
成績分別以X與Y表示(用0至100評分),若X與Y的相關係數為0.83,
則下列敘述何者正確?
(A) 由相關係數得知,X與Y有正向關係(即第一次期中考考得好,
則第二次期中考考得會比較好;反之,則第二次期中考考得會
比較差)
(B) 此兩次段考成績適合用x=a+by表示其相關情形(其中a,b為
^^^^^^^^
常數,b>0)
(C) 2x+5與5-2y的相關係數為0.83
(D) 7+2x與5-2y的相關係數為-0.83
(E) ( log x )×50與( log y )×50的相關係數為 | log 0.83 |
5.想法:
這題新興高中給的答案是(A)(B)(D),
只是我對(B)選項有點不解,
雖然查了一下維基百科https://ppt.cc/pMFV
簡單線性回歸(英語:simple linear regression)
應用時機:
1. 以單一變數預測
2. 判斷兩變數之間相關的方向和程度
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
但是很難理解如何用簡單線性迴歸去看兩變數間的相關程度,
一個迴歸係數為正的迴歸直線無法直接看出它們的相關程度吧?
即使是題目已給相關係數為0.83的高度相關,
這迴歸直線也只能看出他們的分佈情況,而非相關情況阿0.0
所以想請問所學是統計專長的老師,
還請您指點迷津,感恩!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.64.108.17
※ 編輯: diego99 來自: 61.64.108.17 (06/18 10:16)
題目已經說明它的相關係數了,
在選項裡面放個適合用迴歸直線表示其相關情形是件很奇怪的事情...
我要表達的是這條直線並無法表示相關情況阿。
可以請老師您提出哪邊的邏輯很怪嗎?
※ 編輯: diego99 來自: 61.64.108.17 (06/18 12:44)
不會,很感謝你們:)
現在我倒是滿期待知道我邏輯很怪的點在哪
※ 編輯: diego99 來自: 61.64.108.17 (06/18 12:53)
感謝各位老師的回應,
https://ppt.cc/DtI6
剛剛看了一下這一篇,順便複習了一下很久以前學的,
假設相關係數(或判定係數)夠高並且被檢定為顯著好了,
真的會有人說適合用一條直線來表示資料間的「相關」情形嗎?@@
※ 編輯: diego99 來自: 61.64.108.17 (06/18 14:30)
可是我看的書好像不是這樣耶,
判定係數R^2 = SSR/SST,目的是用來說明迴歸式的解釋能力,
做到這個地步的確可以解釋兩變數間呈現高度相關。
我要說明的事情是,
就算是用簡單線性迴歸,
你還是必須將判定係數計算出來,
才能知道兩變數間的相關情況,
而不是只拿出一條最適合直線出來就要說可以表示兩變數間的相關情形。
所以相關係數夠高,做出的迴歸直線就足以表示兩變數間的關係了嗎?
感謝,受教了:)
其實我更好奇的是明明題目就有說相關係數了,
為什麼選項中還要寫個適合用一條直線表示相關情形...
感覺一整個鬼打牆阿...
無論如何,感謝指教啦 :)
※ 編輯: diego99 來自: 61.64.108.17 (06/18 16:31)
這題我最初的問題是
在相關係數夠高的情況下,是不是真的能用一條直線去表示其相關情況?
在我原本的認知中,只能說大多數樣本點會散佈在離這條直線很近的地方,
而非直接用這條直線就能把他們的相關情況給找出來。
不過有專家們的背書,我想我應該知道要如何跟學生解釋了。
感謝版上各位統計專家的指教 :)
※ 編輯: diego99 來自: 61.64.108.17 (06/19 11:39)
... <看更多>