加入免费会员

曾帮助上千名同学拿到数据岗位offer的精品课!

Techie数据科学集训营

 

70+课时精品内容,90多道数据科学面试真题讲解,2个工业应用级别的数据科学大项目,从编程、机器学习、统计实验设计、简历项目四个方面全方位提高求职者的综合能力。课程由录播、直播、1对1答疑三部分组成,可随时开始课程学习,时间灵活。限时优惠价 $2499

现在开始试听
 

高效备考

Techie帮你精炼总结核心知识点和面试常考范围,节省你查阅论文书籍的时间

资深面试官辅导

汪淼十余年业界积累,课程内容深度远超市面上所有复习资料,助你轻松应对面试各类题型变种

实战项目

Techie内部开发的数据科学实战项目,紧跟行业热点,帮你优化简历,脱颖而出

 

Techie数据科学集训营简介

 

课程结合Data Scientist, Data Analyst, Data Engineer, Machine Learning Engineer 各岗位的面试要求,以90多道面试真题案例和实战程序代码的形式,从编程 (SQL, Python) 、机器学习理论 (case study)、概率与统计知识 (A/B Testing实验设计)、简历项目共四个方面帮你建立完整的知识网络。课程共70+课时,包含2个工业应用级别的数据科学大项目:零售商品推荐和人工智能对话机器人,帮你丰富简历内容,强化实战应用能力。

本期Techie数据科学集训营在进行了大幅内容升级,内容包括:

  • 12个机器学习模型精讲及40道模型理论面试题总结
  • 30道FLAG公司最新SQL面试真题讲解
  • 20道A/B Testing实验设计常考题精讲
  • 6课时基础知识梳理复习 (基础概率统计,线性代数等内容)
  • 2个工业界级别数据科学大项目
  • 推荐系统设计专题模块 

欢迎扫码添加汪淼老师微信获取更多课程信息及报名流程

现在开始!

免费试听首节2小时精华内容,马上开始学习

内容包括:数据科学各岗位面试真题讲解,在线广告系统 20道follow-ups常考题,线性回归Linear Regression模型考点,...

免费获取试听课录像

课程大项目简介

 

零售商品推荐 (Grocery Product Recommendation)

商品和广告推荐是大部分互联网公司的核心业务和利润来源,推荐系统的设计开发经验也一直是各大公司对求职者最看重的指标之一。本项目以在线零售行业真实数据为背景,细致介绍搭建机器学习系统的完整流程,包括不同角度的feature engineering举例,多种training data leakage问题处理方法,经典机器学习模型与深度学习模型的综合比较等等。本项目包含细致的sklearn,Tensorflow Keras代码,是备战数据科学Online Assessment题目以及case study面试的绝佳参考。

人工智能对话机器人 (Conversational Chatbot)

自然语言处理 (Natural Language Processing) 是近些年最热门的人工智能领域。随着技术的持续进步,自然语言处理在各个行业不断融合落地:客服对话机器人等自动化文字处理功能正逐步成为企业优化成本结构、提高服务质量的核心竞争力,相关岗位的招聘需求也一直在迅猛增加。本项目实现了通用型对话机器人,在自动生成回复语句的同时,也提供问题主题归类分析。此外,本项目从易到难给出了两种不同的机器学习模型实现方法,并包含图形用户界面开发的相关内容,帮同学们加强端到端完整的产品开发经验。

 

课程大纲

第一模块:机器学习模型 & 电商推荐案例分析

概率与条件概率
习题1 - 三门问题
习题2 - 抽彩票问题
Bayes' Theorem
Definition of Random Variable
Discrete Random Variable
Continuous Random Variable
Gradient

Overview & Interview Preparation
Set up Cloud-based Coding Environment
Python Basic Data Types
Python Container Types
Python Numpy
Python Pandas
Load Data

Definition of Overfitting
Model Space
Definition of Bias and Variance
Bias and Variance Tradeoffs
面试常考题精讲
How to Resolve the Overfitting Problem

Introduction of Regularization Method
Difference Between L1 and L2 Regularization - 图形解释
Difference Between L1 and L2 Regularization - 概率分布解释
Difference Between L1 and L2 Regularization - 数学解释

Introduction to Cross Validation
Example - Cross Validation for Model Selection
Hyper-parameter Tuning
Data Leakage Problem
Confusion Matrix
Accuracy, Precision and Recall
Case Study
Receiver Operating Characteristic (ROC) Curve
Area Under the Curve (AUC)

Introduction of Decision Tree
Entropy & Gini Impurity
Decision Tree Algorithm
Pruning
面试常考点总结
Decision Tree 模型实现代码精讲 - Python Code

Ensemble Learning
Random Forest Algorithm
Feature Importance
Out-of-bag Error
Random Forest 模型实现代码精讲 - Python Code

Introduction to Boosting Method
Additive Modeling
Discrete AdaBoost
Shrinkage
Gradient Boosting Machine - Overview
Gradient Boosting Machine - Details & Example
面试常考题:Decision Tree vs. Random Forest vs. GBDT
Introduction to XGBoost
XGBoost - Loss Function Details

K-nearest Neighbors Algorithm
KNN 模型实现代码精讲 - Python Code
Approximate Nearest Neighbors Algorithm

K-means Algorithm
K-means 模型实现代码精讲 - Python Code
K-means Optimization
Find the Optimal K
K-means ++

Matrix & Linear Transformation
Eigenvector, Eigenvalue and Singular Value
Eigendecomposition
Covariance Matrix
Geometry of Linear Transformation - Basic Concepts
Geometry of Linear Transformation - Change of Basis

PCA Overview
PCA 公式讲解
PCA 算法具体步骤
PCA 模型实现代码精讲 - Python Code

第二模块:SQL语法 & 最新面试题精讲

第三模块:A/B Testing 实验设计 & 概率统计常考题精讲

随机变量期望和方差常用公式
Sample Mean
Sample Variance
Estimator
Confidence Interval

A/B Testing Overview
Hypothesis Testing Procedure Introduction
P-value vs. Type I Error Rate vs. Significance Level
Type I & II Error Rate - 定义及概念区分
Condidence Interval in Hypothesis Testing

One Sample t-Test Overview
t-Test Procedure
Assumption Violations
Paired Sample t-Test
Two Sample t-Test Equal Variance
Two Sample t-Test Unequal Variance
Binomial Test
面试常考例题解析

第四模块:Deep Learning & 自然语言处理 & 对话机器人项目实战

Deep Learning Introduction
Perception
Epoch & Iteration & Batch Size
Neural Network Concepts
Backprogation - Forward Pass
Backprogation - Backward Pass
Backprogation - Summary
Backprogation 实现代码精讲 - Python Code

Activation Function - Sigmoid
Activation Function - Tanh & ReLu
Dying ReLu and Leaky ReLu Problem
Neural Network Regularization and Dropout
Vanishing & Exploding Gradient Problem
Batch Normalization
Gradient Descent Optimizations
Keras

第五模块:总结

课程代码资源列表

 

  • Project 1 - 零售商品推荐 (Grocery Product Recommendation) 程序代码
    • Notebook 1 - Data Exploration, Visualization and qulity check.
    • Notebook 2 - Feature Engineering
    • Notebook 3 - ML models workflow (Classical models & Neural Network Model)
  • Project 2 - 人工智能对话机器人 (Conversational Chatbot) 程序代码
    • Notebook 1 - Question Topic Modeling with Neural Network Models
    • Notebook 2 - Question & Answering Neural Network Models 
    • Conversational Chatbot UI Implementation Code
  • 面试常考模型 - 代码实现总结:
代码 (常考题) 内容
Model Notebook 1 Data Manipulation in Python
Model Notebook 2 Linear Regression Model Implementation
Model Notebook 3 Logistic Regression Model Implementation
Model Notebook 4 Decision Tree Model Implementation
Model Notebook 5 Random Forest Model Implementation
Model Notebook 6 Gradient Boosting Model Implementation
Model Notebook 7 K Nearest Neighbor Model Implementation
Model Notebook 8 K Means Model Implementation
Model Notebook 9 Principal component analysis (PCA) Implementation
Model Notebook 10 Backprogagation in Neural Network

导师阵容

清华本科,北美计算机专业博士。硅谷顶尖大厂近十年工作经验机器学习工程师,Tech Lead Manager。作为面试官参与数据科学面试近百场, 作为受试者斩获Google, Facebook, Airbnb, Pinterest等公司DS/MLE offer。已辅导近千名学生拿到北美科技公司offer。

汪淼 (Jason) 老师

Techie创始人,数据科学课程主讲

硅谷一线公司资深工程师,多年数据库SQL产品开发经验。作为面试官参与Data Engineer, Software Engineer面试近百场。已辅导众多学生拿到一线科技公司offer。

章北海老师

Techie数据科学课程金牌教师

授课形式

 

  • 数据科学集训营课程共70+课时,40节课。每节课1.5 - 2小时。课程由录播视频 + 1对1答疑 + 直播课三部分构成。
  • 学生可以随时加入课程学习,自主安排学习时间。课程班主任教师1对1负责课程内容答疑。
  • 课程录播内容包括Techie在线学习平台210+多段教学视频资源,以及大量项目代码精讲资源。
  • 课程直播内容包含多节项目精讲和面试经典题总结内容,通过 Zoom 实时直播每节直播课程时长2小时。
  • 课程内容提供3个月内回看视频,1年内回看课程课件。

 

2024年Techie数据科学课程正在火热招生中!随时可以加入课程,学习时间灵活。欢迎感兴趣的同学添加汪淼老师微信,了解课程报名流程。

往期学员评价

更多往期学员评价

购买课程

 

课程限时 $2,499,两人组队报名享受团购价 $2,349。

咨询购买课程请添加汪淼微信,注明 “数据科学集训营”,24小时以内会回复。

Techie数据科学集训营

$2,499

  • 70+课时, 90+道面试真题精讲
  • 10+个常考模型实现代码总结
  • 全明星导师, 学员满分好评
  • 直播+录播混合模式, 学习时间灵活
  • 多个工业界项目, 丰富简历内容

常见问题