数据科学学习资料和课程清单

2017年7月22日,小K举办了第一场讲座《来,工业界资深数据科学家教你破解各大公司面试》圆满结束。

“数据科学”是个很宽广的概念,每个行业每个公司里数据科学家的职责有可能相差很大。在讲座里,小K根据工作内容,做了以下分类 – $越多,收入越高:

$$$$ Research Scientist(DL/ML/AI)
$$$ ML Eng / DS specialist / researcher
$$ DS generalist: Stat/Modeling/Experimental Design
$ DA/BA: SQL/Visualization

关于数据科学家在工业界的职业前景:

本科生一般从底层L3级别的Data Scientist和Data Analyst做起;研究生对应着L4;工作一些年数之后,公司希望你能成为L5也就是Senior DS/DA;L6已经是专家级人才了,公司并不强求你成长为这个级别;能达到更高级别的人就更稀少了。

底层的Data Analyst收入不高,尤其是非IT行业。但是在互联网/IT行业,高层次的数据科学家收入并不比软件工程师少。比如技术岗位,做到L6级别的中国人有不少,在湾区大公司工作的话,年收入四五十万美元(基本工资+股票)算是正常收入,更牛的当然也有。

跟软件工程师相比,数据科学家这个职业有如下优势:

首先,经验丰富的Data Scientist,跳槽不用老是刷题,因为面试考察的往往就是工作用到的内容,经验和能力的积累很重要。
其次,这类职业不像软件工程师那么成熟,上升空间更大、更快。

很多人反映:数据科学求职很难。除了简历关,很多人也挂在了take-home exam、technical phone screening上面,即使拿到on site面试,通过率也很低。

小K在公司作为Hiring Manager和面试官面试过很多人。她认为:

学校课程学习和求职面试脱节,是很多同学挂掉的重要原因。

学校里教课方式是:上什么课、学什么东西(比如KNN),作业和Project就用什么东西来解决。
实际面试过程截然相反,面试官并不会问你是否会某个方法、某个技术,面试通常是这样的:

面试官: 我们产品是这样的,请问,如何改进之?
求职者: 这道题是考regression吗?是AB test吗?是metric 设计吗?是SQL吗?他到底想考我啥!?

小K打了个比喻:数据科学的面试相当于文理科史地生艺术体育,所有科目混合成一张考卷。在这次讲座里,小K也以Facebook、Uber、Houzz等几家公司的面试题目为例子,讲解了面试题目考啥什么、如何应对。

接下来,小K会开设数据科学就业培训课程。[更新:DS401、DS501和DS601三门课程视频已经上线:https://learn.1point3acres.com/ ]

针对同学们的询问,小K也推荐了一些课程和书籍帮助大家的学习,推荐名单如下。

视频/课程

Python:
Coursera《Python for everybody

Udemy《Complete Python Bootcamp: Go from zero to hero in Python

R:
Coursera《R Programming

Udemy《R Programming A-Z™: R For Data Science With Real Exercises!

SQL:
Udemy《The Complete SQL Bootcamp

Statistics & Probability Basics
Coursera《Basic Statistics

Coursera《An Intuitive Introduction to Probability

下面这些书都在小K书架上!分享给大家。

如果你想加强business/product sense来应对analytics面试,推荐《Cracking the PM Interview: How to Land a Product Manager Job in Technology》这本书 – 你没看错,是PM的书!

还有一本也不错:《Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking

R编程的书籍:《R for Data Science: Import, Tidy, Transform, Visualize, and Model Data

或者是另外一本:《R in Action: Data Analysis and Graphics with R

Python这本书很赞:《Python Crash Course: A Hands-On, Project-Based Introduction to Programming

数据可视化,如果让你的presentation更漂亮,参考神书:
Visualize This: The FlowingData Guide to Design, Visualization, and Statistics

实验设计经典书籍:《Design and Analysis of Experiments

机器学习经典书籍:《The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition

深度学习大牛作品:《Deep Learning (Adaptive Computation and Machine Learning series)

下面这本是编程面试的神书,但是做data analyst的同学不用看,考不到这种题目:
Cracking the coding Interview

最后,小K从2013年开始一直更新的《Data Scientist 炼成记录》,也有很详细的学习材料和问题分析。