[大數據入門書籍推薦] Big Data Glossary (O'Reilly)
http://it-ebooks.info/book/823/
咳咳...不囉唆!先點擊上面的連結,找尋一個位於「Download」字樣旁邊的超連結再來看我底下的說明...說不定你下載完也不想看我的說明就是了 (Mission Completed)... XD
這是一本很適合剛進入「大數據(Big Data)」領域的概念書。比起講解 How,更著重 What。它的書籍大綱如下:
01 Terms
名詞解釋。包含何謂「文件導向(Document-Oriented)」、「鍵-值儲存(Key-Value Stores)」...等基本名詞解釋。
02 NoSQL Database
說明用於大數據資料儲存的常見資料庫系統有哪些?優劣為何?包含 MongoDB、CouchDB、Cassandra、Redis、BigTable、HBase...等。
03 MapReduce
Google 提出的一個大數據軟體架構(Frameworks)。在已經有人做好輪子的時代,想造一部車當然是直接拿別人做好的輪子來用囉!
04 Store
如何儲存資料本體的一章。這裡介紹了 Amazon S3 與 Hadoop Distributed File System 兩個架構。
05 Servers
介紹可用於大數據管理的伺服器有哪些。包含 Amazon EC2, Google App Engine, Elastic Beanstalk, Heroku 等。
06 Processing
介紹大數據分析與處理的工具。包括 R、Yahoo! Pipes、Mechanical Turk... 等。
07 NLP (Natural Language Processing)
自然語言處理。這一章講如何教會電腦「看懂」我們人類撰寫的語言(主要是英文),然後「機器自動爬文」,篩選出隱藏在字裡行間的「數據」。這邊介紹了幾組 NLP API,包括 OpenNLP, Boilerpipe, OpenCalais...等。
08 Machine Learning
講機器學習的一章。教你如何讓你的軟體越來越「聰明」,擁有「類似」人類學習的能力(雖然還不及五歲小孩的學習能力,但現今科技水準就到這裡了,相信將來會進步的)。這篇介紹了 WEKA、Mahout、Scikits.Learn 幾套 API。
09 Visualization
介紹幾套可以把複雜數據「視覺化」成圖表的 API:Gephi、GraphVis...等。
10 Acquisition
標題雖然是「資訊取得(Acquisition)」,但這章其實在講「資料清洗」與「正規化」。如:有個表格內藏你要的資料,你如何把表格拿掉,重新排列,變成你要的資訊存入資料庫內。
11 Serialization
標題直譯的話,會翻成「序列化」。但比較偏講「如何找到一種放諸四海皆準的『中間格式』(如:XML),好讓資料從一部系統,透過這個『中間格式』,轉換到另一部系統」。這章講了 JSON、Thrift...等格式。
我覺得這是本可以帶在身上,等車無聊時隨手看兩頁的書。因為它前後章節並沒有太強烈的連貫性,內容也大多偏向名詞解釋,不需要擺台電腦在身邊實驗兩下才會懂。所以隨時中斷閱讀也沒啥關係。看完後,就應該可以參加相關的會議討論,而不會有什麼名詞聽不懂了。很適合初學大數據的工程師,或專案經理閱讀。
如果你也覺得本篇內容不錯的話,麻煩您轉分享給您的朋友,讓他們也能免費得到一本大數據的電子書喔!希望今天介紹的內容大家會喜歡!
Search