加入免费会员

Logistic Regression 面试常见考点解析

会员专享 数据科学面试
Logistic Regression面经总结

逻辑回归 (Logistic regression) 是最经典的分类模型,在数据分析和建模领域都有非常广泛的应用。作为一种广义线性模型,logisitic regression与很多机器学习理论知识都有紧密的关联,其中包括我在上一篇文章中讲到的linear regression,以及Generalized Linear Model (GLM) ,softmax regression,neural network 等等。因此,在绝大多数 Data Scientist 和 Data Analyst 面试中,logistic regression都是最重要的理论知识考点。在本文中,我会结合数据岗位面试要求和经典例题给大家精炼梳理logistic regression模型的重要知识点,同时结合它与数据科学领域其他知识点的联系,给大家总结常见面试考点。

如果你想跟我一起体验数据科学面试流程, 为你指导面试备考或者答题过程中的问题, 欢迎报名参加Techie备受好评的数据科学集训营以及数据科学模拟面试服务. 我会用60+课时的时间,结合90+道数据科学面试真题, 以最高效地方式帮大家梳理数据科学知识体系, 并结合工业界级别的项目训练, 全方位提高大家的综合应用能力以及面试实战技巧. 如果你在数据科学备考或学习过程中有任何问题, 也欢迎扫描下方的二维码或者搜索 TonyCoding20 添加我的微信, 期待和大家的沟通!

 

1. Logistic Regression概念介绍

我们以一个二分类问题为例,简单回顾一下 logistic regression 的应用场景。以下数据表示某流媒体服务运营商在过去一个季度内,客户月均拨打客服电话的次数 (customer service calls) 与客户在季度末取消订阅行为 (unsubscribe) 的数据关系:

在这个二分类问题中,我们的因变量 (dependent variable) y 是离散型随机变量, 它只有两个可能的取值:0 或 1。对于这个问题,如果我们使用 linear regression 作为拟合模型,那么首先需要把 dependent variable y 转换成连续型变量:取消订阅的概率 p, 然后拟合如下模型:

 

这种建模方法确实可以直接给出对用户取消订阅的概率预测,比如下图Case1所示的情况:

但是这个模型很容易受到异常数据 (outlier data) 的影响,比如下图Case2所示的情况:当训练数据中包含较多极端情况数据的时候,由 linear regression 方法得到的模型的预测效果会很差 。

出现这个问题的根本原因是:linear regression 的 loss function 均匀地考虑了所有样本距离拟合直线的距离。而要较好地解决这个分类问题,我们需要对 loss function 进行一些“改动”,减弱训练数据里的部分数据对分类决策边界的影响。很明显,这个“改动”应该是一种非线性变换。以下是一种常见的“改动”方法:

从上图可见,经过这个非线性函数的变换,outlier 数据对分类决策边界的影响作用大幅减弱,模型分类效果也变好了。其实,构造类似非线性函数是有很多种不同选择的,在 logistic regression中,研究人员选择了一种有很好的数学性质且表达式简单的函数:logistic function


Notes 1: 从上述讨论中可以看到,这个 logistic function 的数学形式并非来自于严格数学推导证明,而是出自研究人员结合具体需求的近似构造。这个 logistic function 的数学形式也是后文中我们会讲的 logistic regression assumption的一部分。

Notes 2: 这里介绍的从 linear regression 到 logistic regression 的转换思想,也是数据岗位面试的考点之一。常见的面试题目是:解释 linear regression 与 logistic regression 两者的区别和联系。要回答好这个问题,首先可以结合上面几幅图讨论两个模型对 outlier 数据处理的不同效果。此外,可以结合后文会介绍的 Generalized Linear Model (GLM) 内容做细致比较。


现在我们得到了 logistic regression 问题中自变量 x 与因变量 y 的概率 p 之间的关系。下一步,我们需要构造 logistic regression loss function,从而求解函数关系中的未知参数。

 

2. 从两种不同角度理解 Logistic Regression Loss Function

 

首先,我们沿用在上一篇Linear Regression文章中提到的最大似然估计方法 ( Maximum Likelihood Estimation) ,结合 logistic regression 的概率假设来推导它的 loss function。

...

 

本文章为Techie会员专享内容。欢迎大家加入Techie免费会员获取更多面试相关干货知识内容。如果你在数据科学面试备考过程中有任何问题,也欢迎扫描下方的二维码或者搜索 TonyCoding20 添加汪淼老师微信, 期待和大家的沟通!