Data Science from Scratch
author: Jeol Grus
The book in 3 sentences or 3 points
統計學很重要
Impresisions
How the Book Changed Me
這本目前是大概看過去而已,畢竟對於目前的我用不太到,而且這本書提到的東西,真的也是都帶過去而已,不會特別深入,不過算是讓我對於 Data Secience 可以有個大概認識就是了。
Favorite Quotes
寫作花了我三個月,構思只花了三分鐘;至於資料蒐集,則花了我一輩子的時間。
Summary + Notes for each sections
chapter 1-2
第一章算是簡介何爲 data scientist跟一些範例應用。第二章就略過了,畢竟 Python 已經很熟悉了。
chapter 3 & 4
這章節簡單帶過一些可以資料視覺化的 library,還有基本的線性代數。
chapter 5
辛普森悖論: 忽略某些變數而造成相關係數被誤導的結果。 統計學很重要 -> 對於資料分析而言
chapter 6 & 7
這邊開始有講到一些數學相關的定律,不過都算是拋磚引玉吧,這本書看到現在的心得是比較算是,跟你講什麼東西可以應用在哪裡的這種形式,簡單說明,並不會跟你從基本開始講解爲何~ 所以這本書名講 from scratch 我是覺得可能不太適合。
chapter 8 & 9
梯度遞減! 第九章開始回到python對於資料抓取跟處理的部分~ 熟悉python的人,幾乎可以跳過。
chapter 10 & 11
回到資料分析跟篩選的部分還有初步提到機器學習,不過並沒有著墨太多。但是提了不少學習資源 ex. https://hastie.su.domains/ElemStatLearn/
chapter 12&13
書中提到如何做一個垃圾郵件篩選器,意外的算有趣~ https://paulgraham.com/spam.html 不過這邊依然有不少一些關於統計相關的知識,所以其實沒有讀得很懂!
chapter 14&15
講了不少關於回歸分析的東西,有好多術語,只能說不是一個完全沒碰過的可以看懂的。 ridge regression lasso regression
chapter 16
support vector machine - libsvm
chapter 17&18
講到決策樹跟神經網路的部分,不過已經這些需要有一些前提知識才會比較懂。 pybrain
chapter 19-25
NLP (自然語言處理)範圍很廣泛,書中是以單字雲的在某些領域出現的頻率分析爲例子。 推薦系統
最後23-24章節很粗淺的提到sql nosql,25章則是提到一些相關工具(ex. Ipython, pandas, numpy)