Data Science from Scratch

author: Jeol Grus

The book in 3 sentences or 3 points

  • 統計學很重要

Impresisions

How the Book Changed Me

這本目前是大概看過去而已,畢竟對於目前的我用不太到,而且這本書提到的東西,真的也是都帶過去而已,不會特別深入,不過算是讓我對於 Data Secience 可以有個大概認識就是了。

Favorite Quotes

  • 寫作花了我三個月,構思只花了三分鐘;至於資料蒐集,則花了我一輩子的時間。

Summary + Notes for each sections

chapter 1-2

第一章算是簡介何爲 data scientist跟一些範例應用。第二章就略過了,畢竟 Python 已經很熟悉了。

chapter 3 & 4

這章節簡單帶過一些可以資料視覺化的 library,還有基本的線性代數。

chapter 5

辛普森悖論: 忽略某些變數而造成相關係數被誤導的結果。 統計學很重要 -> 對於資料分析而言

chapter 6 & 7

這邊開始有講到一些數學相關的定律,不過都算是拋磚引玉吧,這本書看到現在的心得是比較算是,跟你講什麼東西可以應用在哪裡的這種形式,簡單說明,並不會跟你從基本開始講解爲何~ 所以這本書名講 from scratch 我是覺得可能不太適合。

chapter 8 & 9

梯度遞減! 第九章開始回到python對於資料抓取跟處理的部分~ 熟悉python的人,幾乎可以跳過。

chapter 10 & 11

回到資料分析跟篩選的部分還有初步提到機器學習,不過並沒有著墨太多。但是提了不少學習資源 ex. https://hastie.su.domains/ElemStatLearn/

chapter 12&13

書中提到如何做一個垃圾郵件篩選器,意外的算有趣~ https://paulgraham.com/spam.html 不過這邊依然有不少一些關於統計相關的知識,所以其實沒有讀得很懂!

chapter 14&15

講了不少關於回歸分析的東西,有好多術語,只能說不是一個完全沒碰過的可以看懂的。 ridge regression lasso regression

chapter 16

support vector machine - libsvm

chapter 17&18

講到決策樹跟神經網路的部分,不過已經這些需要有一些前提知識才會比較懂。 pybrain

chapter 19-25

NLP (自然語言處理)範圍很廣泛,書中是以單字雲的在某些領域出現的頻率分析爲例子。 推薦系統

最後23-24章節很粗淺的提到sql nosql,25章則是提到一些相關工具(ex. Ipython, pandas, numpy)

If you like my content,

feel free to buy me a coffee

Enjoy crafting new things

Never stop learning.

Life is the sum of your daily habits.

Find things that you enjoy and please

Doit.

Feel free to connect with me.

Created by potrace 1.16, written by Peter Selinger 2001-2019

© Jing 2024. All rights reserved.