[分享完成數據分析的 5 個關鍵步驟]
近期大致有發現滿多是因數據 or 行銷相關領域來關注我貼文的朋友們 (真心感謝🥰),所以決定來跟大家先簡單分享完成 #數據分析 的關鍵流程,好的數據分析無關使用困難或是簡單的數據分析方法,#只要能解決問題就是好的方法。通常我在做數據分析報告都會走以下的脈絡,分享給大家(如果大家真的喜歡,我之後再整理更細緻的圖文版☺️):
1. #定義商業問題 (Define Business Problem)
這步驟絕對是做任何題目最關鍵的,必須要確認你現在在做的題目是「真的有需求、真的有 #商業痛點」,並要能聯想,如果你完成這個這題,「能帶來多少貢獻?」
-
2. #資料準備 (Data Preparation)
針對已定義好的商業題目,開始搜集數據,你需要確認數據的時間、商業範圍。例如:你要分析近半年哪些產品的成長是特別有潛力的,那你就必須去找出商品的銷量數據,而且必須要有時間的顆粒度。如果沒有數據,那就去外面找,可以透過 #爬蟲技術 去抓外部的數據、也可以另外去下載公開的數據源。
-
3. #資料探索 (Data Discovery)
拿到數據以後,必須花一些時間了解你手上的數據,這時需要有一些批判式的思維在洞察的過程上,例如:數據有沒有比較歧異的值不應該被納入後續的分析?哪些數據應該可以被整理在一起,才能讓後續的分析更容易判讀?
-
4. #資料分析 (Data Analysis)
到此步驟,就會延伸各種分析方法了,如果你是資料技術人員,你可能會想用各種 #資料科學演算法 執行數據分析; 如果你是行銷人員,你可能會想用一些 #視覺化工具 輔助,幫你透過不同的維度,執行數據分析。
-
5. #結果呈現 (Result Summary)
最後,切記做完的所有努力都要好好的整理「#商業價值」在哪裡,必須要能回扣到第 1 個步驟 - 定義商業問題。通常我就會做一個簡報把上面的所有過程都帶過一次,最後強調商業效益並分享給 Stakeholder 。
-
希望以上的分享,對大家日常工作有幫助,如果喜歡我會另外再整理更多實用的視角給大家🙌
-
這張照片是真實在開箱戰利品的我😆,最近終於有出門購物,常買的品牌太強,除了我確實補貨了一堆之外,品牌也有紀錄我兩個月前生日,記得補生日禮給我😌
#資料科學 #行銷數據分析
同時也有16部Youtube影片,追蹤數超過12萬的網紅朱學恒的阿宅萬事通事務所,也在其Youtube影片中提到,一個明明應該要精準的細胞簡訊,結果發到一百一十萬封,是演算法有錯,還是主事者不想用大數據分類,結果搞到各種數據彼此衝突這真的是大數據防疫嗎? 全國恐慌之後又要甩鍋給地方了說是地方的漏洞了,說好的防疫優先不要鬥爭呢?你有研發出蟲洞讓病毒直接從雙北出現,你要說啊,國門放進來還不是中央的責任難道是蟲洞的...
「資料科學演算法」的推薦目錄:
- 關於資料科學演算法 在 Irene 與資料職涯大小事 Facebook 的精選貼文
- 關於資料科學演算法 在 軟體開發學習資訊分享 Facebook 的精選貼文
- 關於資料科學演算法 在 軟體開發學習資訊分享 Facebook 的最讚貼文
- 關於資料科學演算法 在 朱學恒的阿宅萬事通事務所 Youtube 的最佳解答
- 關於資料科學演算法 在 陳寗 NingSelect Youtube 的最佳解答
- 關於資料科學演算法 在 志祺七七 X 圖文不符 Youtube 的最讚貼文
- 關於資料科學演算法 在 Re: [心得] 2021 外商資料科學求職心得- 看板Soft_Job 的評價
- 關於資料科學演算法 在 資料科學家的工作日常 - Facebook 的評價
- 關於資料科學演算法 在 機器學習及演算法-第五課人工智慧基礎2(最大概似估計法與 ... 的評價
- 關於資料科學演算法 在 適用于初學者的資料科學-Azure - GitHub 的評價
- 關於資料科學演算法 在 10 資料探勘| 資料科學與R語言 - Yi-Ju Tseng 的評價
資料科學演算法 在 軟體開發學習資訊分享 Facebook 的精選貼文
該課程由 App Brewery 的首席講師講授,這是倫敦領先的實體程式設計訓練營搬到線上課程,教材跟實體課程( 價值 12000 美元 ) 一樣
✅ 在本課程中,你將學習到谷歌、亞馬遜或者 Netflix 的資料科學家所使用的最新工具和技術。
✅ 這個課程沒有偷工減料,有美麗的動畫解釋視訊和實戰的專案構成。
✅ 該課程是與業內專業人士、研究人員以及學生測試和反饋共同制定的,歷時三年。
✅到目前為止,我們已經教授了超過 20 萬名學生如何程式設計,其中許多人已經通過課程在這個行業找到工作或者開始自己的技術創業來改變他們的生活。
✅ 由註冊本課程,你可以為自己節省超過 12000 美元,卻又可以獲得相同的教學材料,並且可以像親身參與我們的程式設計訓練營一樣,跟著相同的教師和課程學習。
從這 41 小時的課程,你會學到
✅通過實際專案學會如何使用 Python 程式設計
✅使用資料科學演算法來分析實戰專案中的資料,如垃圾郵件分類和影像識別
✅建立一個資料科學專案履歷組合,到業界申請工作
✅瞭解如何使用最新的資料科學工具,包括 Tensorflow、 Matplotlib、 Numpy 等等
✅建立你自己的神經網路,並瞭解如何運用它們執行深度學習( deep learning )
https://softnshare.com/python-data-science-machine-learning-bootcamp/
資料科學演算法 在 軟體開發學習資訊分享 Facebook 的最讚貼文
如果你對資料科學、演算法交易、機器人技術或任何人力被機器取代的行業感興趣,那麼你來對地方了! 這是一門令人驚喜的課程,不僅讓你熟悉,還幫助你了解機器學習能多深入地運作。
https://softnshare.com/machine-learning-with-tensorflow-fo…/
資料科學演算法 在 朱學恒的阿宅萬事通事務所 Youtube 的最佳解答
一個明明應該要精準的細胞簡訊,結果發到一百一十萬封,是演算法有錯,還是主事者不想用大數據分類,結果搞到各種數據彼此衝突這真的是大數據防疫嗎?
全國恐慌之後又要甩鍋給地方了說是地方的漏洞了,說好的防疫優先不要鬥爭呢?你有研發出蟲洞讓病毒直接從雙北出現,你要說啊,國門放進來還不是中央的責任難道是蟲洞的責任?簡訊亂發難道也是地方的責任?
8月13號到9月2號這一群機師
跟他們的密切接觸者
在台灣留下來的軌跡
我跟你講就是確定是一個
確定是Delta病毒
那所以有一個問題在這樣子的狀況之下
廣發了110萬通細胞簡訊
我記得今年年初的時候還有去年吧
高虹安好像討論過細胞簡訊對隱私權
還有通保法之間到底有沒有扞格之處
到底有沒有侵犯人民隱私之處
妳那個時候的討論是針對什麼地方
那時候是敦睦艦隊吧我記得
不只還有鑽石公主號
對 因為他們下來之後其實他就是有接觸
然後因為後來陳其邁有把它寫成一篇論文
他就說有用了62萬人的基地台定位
那這件事情基本上就是完全是用了特別條款
反正就是最高上限指揮官可以做任何處置
就是侵犯人權我們坦白講
對他等於是說要去存取到這些資訊
那當然後來其實他們也出來講說
那個基地台的定位並不是很精確說
一定是定到他本人的一些行為等等的
就是說有經過基地台才會被搜到這個訊號
但是它還是代表著是你一個行為的足跡
我自己也收到那個簡訊
真的假的妳為什麼收到簡訊
我後來去了解了一下
是因為我在8月24號的時候
有代表郭董去桃園機場的醫院
就是我們那邊有一個聯新醫院
去那邊捐防疫物資
我那時候到的是一航廈
好像那個機師在那一天好像是出現在二航廈
所以反正是因為這樣的關係
所以我的就是可能也被基地台的定位掃到
但是我覺得很奇怪的一點是說
其實110萬人這個簡訊真的有點妙
是因為其實我們都有掃實聯制
所以其實按理來講的話
其實實聯制如果是有實聯制的話
你應該是用實聯制的資訊去推
你怎麼會是用基地台去推這件事情
所以這有點怪因為變成是說好像
你本應該是要做精準疫調
結果變成是要用基地台去一個很擴大
而且重點是蔡英文總統還出來跟大家講說
有收到簡訊的人不要恐慌
如果是其他一般的民眾他們收到簡訊的時候
一定會擔憂
所以他們一定會想要去做篩檢
那這種時候就變成是你的全台灣
是不是有辦法去收納這麼多人
突然要去篩檢的這件事情
還是說去的地方又會造成一個群聚
但我先幫大家解釋一下
因為所謂的細胞簡訊
是當初我們在鑽石公主號
然後在這個過去
好幾次在沒有完整資料的時候所發的
因為細胞簡訊是一個未經同意
直接強行跟電信公司收取你的手機足跡的一種方式
所以第一個
它有沒有侵犯隱私權 有
第二個它用的是太上條款
就是有緊急需要的時候
由疫情指揮中心陳時中指揮官下令侵犯人權
也就是這個東西基本上調閱它是違反通保法
違反個人隱私法
幾乎是你知道的所有關於電信資料的保護都違背
但是為了防疫需要
就硬是把它拉出來
剛剛虹安講的意思是
你都侵犯人權了你都違反通保法了
你都違反個資法了
你調出來的資訊怎麼會是110萬人
3個確診機師可以接觸到110萬人
你以為他們選總統
我覺得是真的不知道說他到底是怎麼樣
去決定撈出這110萬
你是說反正我就是多匡一點
就是寧可錯殺也不要放過之類的想法嗎
但是我覺得他今天用這樣的方式去描述一段
他就跟你講8月13號到9月2號
他也告訴你說你有可能是
真的跟確診者有接觸到
還是你只是有在那個空間有可能碰到
我跟你講這個論述都超不精準的
就是你110萬出來之後
一個負責任的政府
我不知道他為什麼要這樣做
你起碼要告訴我說
你今天這個case是因為8月24號
那我對於我的情況會比較了解
或者是說我今天有掃實聯制
那你110萬你是從基地台抓出來的
那你難道不能夠再跟實聯制這些
我們每天掃的那個辛苦的實聯制
你不能再跟它交叉比對一下再跟我說
我是因為哪一個時間點所以有這個問題
你就丟了一個簡訊來讓大家莫名其妙的
這個之所以說不負責任
是新加坡用的技術TraceTogether用的是藍芽
比較接近我們那個 社交距離APP
對社交距離APP 它用的也是藍芽
所以新加坡 剛剛這個網友有講他說
你可以從TraceTogether裡面
找到你過去兩星期所有的精準定位
跟你注射疫苗的接種狀況
我們坦白講這個東西google map就做的到啊
你如果開你的定位
你其實到哪裡去google map都有登錄
那為什麼今天我們的細胞簡訊
照說可以很精準卻沒有精準的篩選之後
就狂發110萬封
這個東西的科學根據到底在哪
你之前是不是笑過對岸說Delta病毒
回追七天你笑他不科學
結果你現在做的作法
8月13號到9月2號應該...
世界怎麼跟得上台灣
這也太誇張了
等等你列了20天的時間
中間我只要跟他接近這個還不是用藍芽
就是我在基地台handshake
而且會到110萬看起來是沒有管那一天的小時
他那一天一定就是24小時之內我跟你重疊
距離算接近我就發
寧可全面錯殺也不要放過
那你說你今天讓全國110萬人覺得擔心害怕
懷疑他女友到底到哪裡去了
這個難道沒有社會成本嗎
你今天為了防疫不能夠再多篩一下
應該這樣講你沒有辦法用手機的細胞簡訊的話
你就要用實聯制嘛
實聯制是有時間然後店的位置
然後當然有進去的時間
出來就可能只能擲筊
或者是看他下一次掃實聯制是什麼地方
可是我這樣講你今天兩個系統都培養
為什麼不能交叉比對咧
你今天又不交叉比對你就隨便亂發
我們光這樣講110萬封簡訊要花多少錢
而且大家還乖乖的每天給你拍實聯制
在那邊掃實聯制的時候結果卻撈不出來
我覺得這整個過程就是
如果說你今天就是花了這些錢
然後build up一個實聯制的系統
然後你到真正要用的時候
卻還是用基地台定位
那我就真的不知道實聯制大家掃那麼辛酸
又花那麼多錢幾個億的到底在做什麼
現在的問題就是
現在機師的這件事情有沒有實際用到實聯制
其實沒有
機師去其他的地方有沒有掃實聯制
那如果有掃的話那你每一個空間
每一個unit你都可以抓出一群人
那你再拿這群人去跟他比對
而不是發110萬份簡訊
我現在不是要拿gps
直接去跟每一個單位的location去比對
我現在是拿機師的gps
去跟他自己的實聯制去做比對
你就會有第一點第二點第三點
每一個的地方你就可以拉的出來了
我不知道啦也許對他們來說真的很困難
或者是追求時效性他必須要趕快去做
所以他後面所有的處理都不做
就直接110萬撒出去
我不知道但是就我來講
我覺得既然實聯制有更精準的足跡的資訊
而且是大家比較願意去提供的資訊
那你為什麼不去使用實聯制的資訊
去比對這個東西呢
我這樣講政府施政不可能百分之百沒有疏漏
但是你明明知道有疏漏
你卻不把它補好
那你還一邊跟人家吹
我跟你講實聯制這個東西呢
我早就知道是一個妥協的狀況
你臨時要開發出這種實聯制來的確很困難
當然不周全
但是你不要開發出一個漏洞百出的系統之後
跟大家講說都是唐鳳
唐鳳好棒唐鳳是天才
唐鳳開發這個東西無懈可擊
我就問一句啊現在你能不能從裡面撈出來
靠實聯制確認這些機師去過哪些地方
幾點幾分進門
有沒有人在這個數字平台上跟他重疊
而不是只發細胞簡訊
你細胞簡訊一發出來表示你沒有別的方法了
而且還發了一個很粗陋沒有篩過的110萬份
我覺得這個對理工科的人來講我沒辦法想像
資料科學演算法 在 陳寗 NingSelect Youtube 的最佳解答
NOW! 成為陳寗頻道會員並收看獎勵影片:https://lihi1.com/ZT8bZ
頻道會員經費用於製作字幕及剪接,懇請支持頻道營運!
──────
陳寗嚴選 iPad Pro/iPhone 保貼 & 充電頭:https://lihi1.cc/VnHIF
陳寗嚴選兩聲道音響:https://lihi1.com/2ecL7
陳寗嚴選抗菌靜電濾網/防潑水抗菌強化膜:https://lihi1.cc/x7Sse
陳寗嚴選 NAS 團購:https://lihi1.com/SuL4Q
──────
00:00 本集分享:資料流量 kbps 會影響什麼?
02:20 以前的數位流只看有損/無損:Hi-Res 要多看取樣率、位元深度
02:55 但⋯什麼是資料流量?每秒聲音需用掉多少流量
04:04 同取樣率、位元深度,為何資料流量不同?砍掉超高頻,存到的資料不同
06:04 有損壓縮的作法:捨棄科學家認為聽不到的聲音
06:44 有損壓縮的特色:高頻細節少、低頻沒有下潛
07:36 有損壓縮的音樂,就如同一部小說被⋯捨棄的床戲,但保留完整劇情
09:31 無損壓縮又是什麼?用非破壞性演算法打包傳輸
11:57 無損壓縮不完美,但很務實!Hi-Res 檔案很大,能省則省
12:43 無損壓縮≠無壓縮:解碼無損壓縮也會影響聲音
15:05 音樂出不同版本時,會有不同嗎?不一定!Re-master 過,真的不一樣
19:03 玩音響格式要懂,但是…不可以用格式當作好聽標準!
20:18 小常識:盜版 CD 常是 MP3 燒錄的!勿以為音樂放進 CD=好聽
21:19 音樂版本不同,風味大不同!多做版本比較,可享受更大樂趣
#資料流量 #CD #音質比較
──────
陳寗實話說 Podcast 試營運上線:
Apple Podcast:https://lihi1.com/xXnHu
Google Podcast:https://lihi1.com/yfDKF
其餘各大 Podcast 平台也都有上線,請直接搜尋「陳寗實話說」!
──────
本頻道每晚 6 點鐘上新片,還有幾個原則跟你約定好:
1. 開箱零業配:
真實使用過後才發表心得,通常試用至少 1 個月,所以你通常不會看到我最早發表,但哥真性情的評論,保證值得你的等待。
2. 理性討論:
我有自己的偏好,你也有自己的好惡,我們互相尊重,時時用大腦,刻刻存善念,不謾罵,不矯情。可以辯論,不可以沒邏輯。
3. 我團購我驕傲:
我很愛買東西,也很愛比較產品,我自己使用過、多方比較過,還是覺得喜歡的東西,我才會辦團購。(簡單說就是挑品很嚴格,至今 80% 廠商找上門都被我打槍。)辦團購我一定有賺,但我跟廠商拿到提供給你的團購價,也會讓你一定有划算感。所以如果你品味跟我相近,或是剛好有需要,就跟我團購,我們互惠。如果你覺得跟我團購,你就是我乾爹,說話不懂得互相尊重,那就慢走不送,你可以去找一般店家買貴一點。
看了以上,覺得可以接受就請你訂閱,訂閱順便開鈴鐺。我們每天晚上 6 點見。
我的網站連結在這:https://ningselect.com/
也別忘了幫我的 FB 粉絲專頁按讚:http://bit.ly/ningfb
如果有任何問題,包括團購等問題,都可以在影片下方留言問我,同一支影片下很多人都想知道的問題會優先用留言回答,如果是比較大的題目,則有機會拍成 QA 影片回答~如果你想問的是針對個人的音響選購、配置問題,可以直接傳 Line 問我:http://bit.ly/ningline
另外團購商品請參考我的商城:https://shop.ningselect.com/
廠商合作請先了解相關原則:http://bit.ly/coopning
資料科學演算法 在 志祺七七 X 圖文不符 Youtube 的最讚貼文
✔︎ 成為七七會員(幫助我們繼續日更,並享有會員專屬福利):http://bit.ly/shasha77_member
✔︎ 體驗志祺七七文章版:https://blog.simpleinfo.cc/shasha77
✔︎ 購買黃臭泥周邊商品: https://reurl.cc/Ezkbma 💛
✔︎ 訂閱志祺七七頻道: http://bit.ly/shasha77_subscribe
✔︎ 追蹤志祺IG :https://www.instagram.com/shasha77.daily
✔︎ 來看志祺七七粉專 :http://bit.ly/shasha77_fb
✔︎ 如果不便加入會員,也可從這裡贊助我們:https://bit.ly/support-shasha77
(請記得在贊助頁面留下您的email,以便我們寄送發票。若遇到金流問題,麻煩請聯繫:service@simpleinfo.cc)
#校正回歸 #篩檢量能
各節重點:
00:00 前導
01:00「簡訊設計的 YouTube 片頭製作」廣告段落
01:46 為什麼要做校正回歸?
03:17 這樣做合理嗎?
04:59 其他國家都怎麼處理?
06:21 超前部署其實還有漏洞?
07:39 篩檢量能不夠怎麼辦?
08:55 我們的觀點
10:33 提問
10:57 結尾
【 製作團隊 】
|企劃:宇軒
|腳本:宇軒
|編輯:土龍
|剪輯後製:Pookie
|剪輯助理:歆雅
|演出:志祺
——
【 本集參考資料 】
→真的假的?確診數「校正回歸」很正常,但一次回補太多天恐使疫情判斷失準?:https://bit.ly/2SwgO6K
→採檢通報塞車害「校正回歸」 陳時中:沒疏漏!將簡化流程:https://bit.ly/3oZhrSu
→疫情週報:台灣疫情數據儀表板,與政府尚未公布的數據資料:https://bit.ly/2SC0m4M
→校正回歸日期算法曝光 陳時中:顯露疫情真實性:https://bit.ly/3usUND5
→疫情監測的原理與判讀(5月24日) - 國立臺灣大學公共衛生學院:https://bit.ly/3yLQvKf
→病例校正回歸非台灣獨有 何美鄉:各國多少都有:https://bit.ly/2RLIVPs
→「校正回歸」是台灣首創嗎?國外如何處理時間差的數據問題:https://bit.ly/3i18yWT
→Coronavirus: Why is there a test results backlog?:https://bbc.in/3vuBv1n
→科學防疫的缺口──快篩試劑未列入物資整備、社區感染演練也遭否決,為什麼?:https://bit.ly/2QYcsEW
→侯友宜談校正回歸:篩檢塞車最多差6天 應組國家隊補漏洞:https://bit.ly/3vv7LkV
【 延伸閱讀 】
→斷鏈的防疫線──確診者家人、醫護接觸者自力救濟下的防疫滑坡效應:https://bit.ly/3id2X07
→守住醫院、才能守住更多人:雙北疫情外溢全台,社區聯防如何儘速補位:https://bit.ly/3wIsCkX
→台灣疫情延燒,民眾如何因應?關鍵數據「檢驗陽性率」代表什麼? - 鳴人堂:https://bit.ly/2R0z1ch
\每週7天,每天7點,每次7分鐘,和我們一起了解更多有趣的生活議題吧!/
🥁七七仔們如果想寄東西關懷七七團隊與志祺,傳送門如下:
106台北市大安區羅斯福路二段111號8樓
🟢如有引用本頻道影片與相關品牌識別素材,請遵循此規範:http://bit.ly/shasha77_authorization
🟡如有業務需求,請洽:hi77@simpleinfo.cc
🔴如果影片內容有誤,歡迎來信勘誤:hey77@simpleinfo.cc
資料科學演算法 在 資料科學家的工作日常 - Facebook 的推薦與評價
分享#資料科學領域趨勢 交流#網頁開發技術發展 探索#科技職涯斜槓人生 持續#技術培訓社群經營--- ... 決策樹是一種利用「欄位的資訊量作為依據」的分類演算法 ... <看更多>
資料科學演算法 在 機器學習及演算法-第五課人工智慧基礎2(最大概似估計法與 ... 的推薦與評價
這是國防醫學院醫學系及公共衛生研究所在上學期開設的課程,本課程利用目前最流行的統計程式語言(R語言/Python),逐步帶領學生學習 資料 處理、數據 ... ... <看更多>
資料科學演算法 在 Re: [心得] 2021 外商資料科學求職心得- 看板Soft_Job 的推薦與評價
之前在本板分享過我在 2021 年的數據分析求職經歷
我當時也找了機器學習演算法應用相關的工作
由於準備方法與數據分析領域大不相同,所以另外寫了這篇文章與大家分享經驗
尤其有很多資源是我在 Soft_Job 板找到的,也希望給這裡一點回饋
以下文章為了 PTT 排版有稍微精簡內容
部落格完整好讀版在此:
https://haosquare.com/machine-learning-2021-job-interview/
這篇文章是寫給跟我一樣「不是」資工或統計系背景的人,我將分享我從商管學士跨領域
,應徵機器學習工作投了 10 家公司的履歷、經歷了 6 場面試、最終拿到 1 家錄取的歷
程,我也寫下我遇到的機器學習面試題、以及準備方法與學習資源,希望為同樣跨領域挑
戰的讀者增加信心:非本科系是有機會拿到機器學習工作錄取的!
本文分享的工作類型,將以機器學習演算法應用為主,不包含資料分析師(Data Analyst
)、軟體工程師(Software Engineer)、或者機器學習工程師(Machine Learning
Engineer)。
---
## 求職背景與結果
我在此用條列的方式簡介自己 2021 年求職時的背景:
- 商管學院學士學歷,在校修過一些資工相關的課但是成績不佳,有修過機器學習相關專
題課
- 在手機遊戲公司擔任資料科學家兩年半,工作中機器學習的專案不多
- 曾在中研院擔任一年的研究助理,負責金融業的深度學習與推薦系統產學合作專案,沒
發過 Paper
- 會打機器學習競賽,都是國內賽事、沒有 Kaggle 成績
機器學習領域我投了海內外共 10 間公司的履歷,其中日本的 Mercari (實習)、新加坡的
騰訊、台灣的 Garena 三間公司有進入面試,最後拿到 Garena 的 Data Scientist 錄取
,以下文章都是基於這幾間的 9 場面試經驗所撰寫。
---
## 面試經驗與建議
### 程式能力
既然是機器學習工作,寫程式的能力當然是必考的,不只考程式語言特性、也考資料結構
與演算法。但是跨領域求職者也不用太擔心,有個幾乎所有工程師都知道的練習秘訣:
LeetCode!到這個網站拼命練習題目就對了。
在我的面試經驗中,機器學習工作對演算法程式題的難度要求,比軟體工程師稍微低一點
點,以 LeetCode 的難度標準來說,我面試只有遇過 Easy 跟 Medium 難度的題目,Hard
等級的考題從沒有遇到過。
對於程式題練習,我想分享最重要的技巧是:分類。演算法跟資料結構的題型,可以有很
多種分類法,包括 Linked List、Graph、Dynamic Programming 等等,練習的時候,如果
沒有分類、只是隨機選題來練,可能會變成每個分類只練習一、兩題,結果上了戰場遇到
某分類的變化題,實力卻不足以應對,練習不就白費了嗎?
因此,我的策略是在各個分類都挑出數題重要題目、有條理地練習。具體來說,我參考了
SoftJob 板友 AH Tech 在 YouTube 影片中分享的 LeetCode 分類方法與表格,在每個分
類中,我會把 Easy 到 Medium 難度而且免費的題目全部練習過,Hard 的題目則是最多只
寫一題。並且,我會幫自己設定日曆、在隔一週後複習剛練過的那個分類,因為,只要是
不熟悉的題型,即使練習過一遍,下次看到一模一樣的題目,還是有可能寫不出來!所以
請別忘了安排複習行程,如果面試題(好運地)出現看過的題目,務必要追求 100% 拿分
!
AH Tech 的分享:
https://www.youtube.com/watch?v=ucTL2ZdcyOs
我使用這些練習方法,總共只練習了約 100 題,相對於軟體工程師、的確題目數量算是少
的,我主觀認為夠用了。我通過的四場 Python 程式面試、總共近 20 題的題目中,至少
一半題目是我在這 100 題中看過的,我可以穩妥地拿分;另外一半則是用這 100 題練習
過的技巧稍微變形就能過關。我猜想,或許大家不會拿聘用資深軟體工程師的難度標準來
刁難資料科學家應徵者吧。
除了 AH Tech 的分享,我也推薦以下兩個 YouTube 頻道:
花花醬的 LeetCode 解題:
https://www.youtube.com/channel/UC5xDNEcvb1vgw3lE21Ack2Q
安妮在本板的解題技巧分享:
https://www.youtube.com/watch?v=fyf-GRH1Ceo
---
### 機器學習技術問題
機器學習領域的專業知識問題,範圍超級廣,從 20 世紀就提出的模型、到前兩個月剛發
表的新論文,都有可能是面試會問到的。為了更有效率地準備,我蒐集了許多人的面試經
驗、也整理自己的面試經歷後,總結出最重要的準備要點是:"Why A, not B?"
資料科學家會用到機器學習模型的時機,是針對一個定義好的商業問題,選擇一個適合的
模型。因此,面試中會考驗應徵者,是否了解模型的特性、以及不同模型選擇可能造成的
差異。
舉例來說,常見的面試題像是:
- L1 與 L2 Regularization 有什麼不同?
- DenseNet 與 VGGNet 有什麼差別?
- 為何你在履歷中的專案經驗使用 Random Forest 而不用 XGBoost?
- Trasformer 在近年幾乎是顯學,它在任何場景都比 RNN 好用嗎?
- 深度學習的 Optimizer 怎麼選擇?你為什麼用 Adam?
- 遇到不平衡資料該怎麼處理,不同的處理策略之間有什麼優劣差異?
回答或介紹某個模型時,如果你把每個模型的每個元件都詳細地介紹一遍,想必要花不少
時間、面試官大概會聽到打呵欠,因此筆者認為專注回答模型的「特色」、並提出為何你
會為某場景使用 A 模型而不用 B 模型,會是其中一種有效的面試策略。
例如,當我被問到「DenseNet 與 VGGNet 的區別」,我會為每個模型只挑出幾個重要特性
來講、而不是鉅細靡遺地描述:
- VGGNet 的特色
- VGGNet 的架構與 AlexNet 相似,但是用到更少參數、且引入更多卷積層來增加非
線性關係
- 例如一層 7 乘 7 的卷積用三層 3 乘 3 卷積取代,卷積層涵蓋的圖片大小相同,
但是參數量從 49 減少到 27
- 也引入 1 乘 1 的卷積,用來增強模型對特徵非線性關係的表述
- DenseNet 的特色
- 準確度近似於 ResNet 但是參數量更少、計算效率較高
- DenseBlock 設計讓深層網路也可以看到所有淺層網路所看到的內容,在原始特徵特
別重要的場景會有更好的效果
- 在我參加過的音訊分析競賽,原始特徵對於音訊表示特別重要,所以 DenseNet 比
起其他影像辨識 CNN 模型有較好的效果
像這樣,只選幾個特色來講、每個模型都只濃縮成幾句話,兩分鐘內就可以回答完一個貌
似範圍超廣的問題。我認為,不要讓面試官聽到不耐煩、比回答的完備性重要。
---
機器學習面試問題,具體該要如何準備?任何人問我這項問題,我都會給他這個毫無創意
的回答:
> 瘋狂蒐集題目、然後背答案!
機器學習有太多重要但是容易忘記的細節,求職前沒有複習的話,上了面試戰場肯定會十
分慌張,例如:
- Vanishing gradient 是什麼意思?怎麼解決?
- 決策樹是怎麼建立的(要解釋 Information gain 與 Gini impurity)
- 隨機森林實際上是指什麼東西隨機?
- 請解釋 Precision 與 Recall 兩個 Metrics
- Batch / Layer / Group / Instance Normalization 之間的差別
- 什麼是 Bagging (Bootstrap + Aggregating)
- 請介紹深度學習會遇到的 Underflow 與 Overflow 以及建模過程怎麼看出這兩個問題
我會地毯式地到處搜索蒐集題目,記下不會的地方,整理在自己的筆記本裡,時時複習,
資源包括:
Sroy20 的 GitHub:
https://github.com/Sroy20/machine-learning-interview-questions
板上 DrTech 大大分享的 NLP 面試經驗超實用:
https://www.ptt.cc/bbs/Soft_Job/M.1565495594.A.94B.html
我得強調,上述的「背答案」策略只是為了找工作採取的不得已手段,它並不是研讀機器
學習的好方法。機器學習模型背後的數學原理毫無疑問地非常重要,資料科學家需要了解
這些數學知識才能正確使用模型,但是,面對現實吧,如果你未來兩個月內就要開始面試
,根本來不及研讀所有數學公式與細節! 那就先拼命背答案,等到找完工作,再為自己規
劃更扎實的學習方法。
---
### 專案經歷
非本科系、或者跨領域轉職找機器學習工作常有的困境,是相關作品不足,或者專案在工
作中沒有太多實際成果。而在我的面試經驗中:
> 有機器學習相關實戰成果很好,但是就算成果不多,面試官也會重視你遇到什麼困難以
及如何找出問題點並解決
我會在履歷中列出參加機器學習競賽的經驗,但是名次從沒拿過最亮眼的前三名,參加比
賽也都是國內舉辦的、不是知名的 Kaggle 國際競賽,即使如此,只要有事先梳理內容,
小型或者名次不是頂尖的比賽也非常值得在面試中分享。為了引起面試官興趣,我在整理
經歷時,會為我的比賽作品強調以下兩點:
- 比賽的困難點:資料型態哪裡複雜、遇到過的「髒資料」、過擬合問題
- 與眾不同的做法:特殊的特徵工程、或者超參數調整策略等等,就算不是第 1 名,也可
以分享自己如何從最後一名進步到前 20 名
資料科學競賽類型的作品經歷,強調的不只是建立最複雜的機器學習模型,資料觀察與清
理能力、還有為分析流程找出錯誤的 Debug 能力,也都是資料科學家所重視的,有競賽經
驗的讀者,可以透過介紹困難點、以及與眾不同做法的方式,向面試官展現出自己在不同
分析流程的實力。
---
## 非本科系到底能不能應徵機器學習工作?
在此,筆者試著回答太多人都想知道的問題:
> 不是資工系或統計系,也能做機器學習工作嗎?
我投了 10 家公司,只有 3 間履歷過關、進入面試,最後只有 1 間拿到錄取。根據這個
經驗,我會回答:可以,但是請先整理自己的心態、並且分析自己的弱點。
首先,沒有資工系學歷,找機器學習工作時就該整理好心態。就如前面分享的求職結果,
我投的台灣公司機器學習職缺,全都沒辦法進入面試關卡,我個人主觀猜想,在台灣要是
沒有資工背景、或者沒有碩士學歷,找機器學習工作時,履歷特別容易被忽略。因此我認
為,非本科系的畢業生、或者從業人員,要準備好正確心態,在台灣跨領域求職不順利的
話,不要太難過!而是該盡快練練英文能力,鼓起勇氣往新加坡、日本、澳洲、或者中國
投遞履歷,海外的職缺對碩士學歷的硬性要求相對較低,而且海外的職位總數也比台灣多
得多,履歷多一些機會被看見。
其次,雖然現在網路上開源的學習資源超多,有熱情的資料科學家們即使不是本科系也能
積極自學,但是,非本科難以自學練成的最大弱點會是:機器學習實務經驗。以筆者自己
的經驗出發,可以舉例兩個方面,第一是 MLOps,包括了後端 API 開發與串接、模型大小
與準確度之間的權衡、串流資料的 Incremental learning、還有平行化運算等等議題,在
校沒有做過大型專題、或者沒有機器學習領域的工作經驗,就很難講出 MLOps 要解決的痛
點、也不容易扎實累積 MLOps 的知識,我面試的每家公司都有問我 MLOps 相關經驗,我
也感覺得出來自己對此回答較薄弱,總會讓面試官眉頭一皺。如果你距離開始求職還有時
間,請記得為自己補充點 MLOps 知識,至少不要上了面試戰場完全講不出一個字。
第二個值得提的非本科系弱點是完整的專案開發經驗,看書與上課自學、或者透過 Kaggle
競賽練習,通常只會學到資料科學流程的建模與特徵工程,而一開始怎麼把模糊的商業問
題定義成機器學習能解決的問題、如何選擇好的訓練資料、以及模型上線後如何驗證成效
等等,都需要從頭到尾參與過一項機器學習專案開發,才能在面試中講出有見地的回答。
我有通過面試的兩間公司,都被問到「我們發現使用者有某種濫用 APP 的行為,請問你如
何用機器學習來捕捉這項行為?」或者「我們公司的主要產品是有某某特色的影像串流,
請問你會怎麼設計推薦系統來改進使用者體驗?」這類開放式系統設計問題。不害臊地說
,我運氣好在這兩間公司提問的領域有一些些相關經驗才能面試過關,因此,建議非本科
系又有志於機器學習工作的朋友,請在鑽研酷炫機器學習與深度學習模型以外,規劃時間
研究一些如上述舉例的實務議題,並且為你有興趣的公司蒐集領域知識,對此,我非常推
薦你到 PyData 的 YouTube 頻道 向全世界的高手學習他們在實戰中遇到過的問題。
## 結語
不是資工系能找到機器學習工作嗎?可以!但是,即使我自認本業外的時間花了很多力氣
鑽研機器學習與深度學習、最後也的確拿到一封機器學習工作的錄取信,我還是認為自己
還有太多資料科學知識需要加強才能跟上業界標準,拿到錄取大概是運氣與實力的成分各
佔一半,成功換了工作後也依然不敢懈怠下班後的進修。所以,對於非本科系的畢業生或
已經在工作的朋友,既然要跨領域挑戰機器學習工作,就要比一般人投入兩倍以上的努力
、好好準備!希望這篇文章分享可以給大家跨領域的準備方向與啟發。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.183.213 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1646066584.A.403.html
... <看更多>