逻辑斯谛回归与最⼤熵模型

逻辑斯谛回归(logistic regression)是统计学习中的经典分类⽅法。最⼤熵是概率模型学习的⼀个准
则,将其推⼴到分类问题得到最⼤熵模型(maximum entropy model)。逻辑斯谛回归模型与最⼤熵模型都
属于对数线性模型。

逻辑斯蒂分布,logit转换

⾸先介绍逻辑斯谛分布(logistic distribution)

定义6.1(逻辑斯谛分布) 设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度
函数:

逻辑斯谛分布的密度函数f(x)和分布函数F(x)的图形如图6.1所⽰。分布函数属于逻辑斯谛函数,其图
形是⼀条S形曲线(sigmoid curve)

参考

李航

数学体系架构

简介



维基百科这样分

  • 代数(初等 线性 多重线性 抽象)
  • 分析/微积分学
  • 几何 (离散 代数 解析 微分 有限)

概念 & 分支

现代数学大致分5大方向。粗糙来讲,可以分代数(数论)、几何(拓扑)、分析(微积分),三大方向

  • 代数 algebra: 代数是数学的一个分支,是研究数、数量、关系、结构与代数方程(组)的通用解法及其性质的数学分支。代数的研究对象不仅是数字,而是各种抽象化的结构。常见的代数结构类型有群、环、域、模、线性空间等。
    • 线性代数是代数学的一个分支,主要处理线性关系问题。线性关系意即数学对象之间的关系是以一次形式来表达的。例如,在解析几何里,平面上直线的方程是二元一次方程;空间平面的方程是三元一次方程,而空间直线视为两个平面相交,由两个三元一次方程所组成的方程组来表示。含有n个未知量的一次方程称为线性方程。
  • 几何:
  • 分析(mathematical analysis):数学分析区别于其他非数学类学生的高等数学内容,是分析学中最古老、最基本的分支,一般指以微积分学、无穷级数和解析函数等的一般理论为主要内容,并包括它们的理论基础(实数、函数、测度和极限的基本理论)的一个较为完整的数学学科。

集值分析集值函数的分析及应用。
凸分析是有关凸集合及凸函数的研究。

代数几何,

根基

欧几里得用公里推

几何,欧氏几何公理 等

代数,根基公理就是运算定律(交换律、结合律、分配律)

分类-分支

数学分析与高数的区别?

https://www.zhihu.com/question/19745167

  • 相同点:两门课基本都是研究微积分学
  • 区别高数重计算、应用,数分重证明

reading list

普林斯顿微积分读本

扩展阅读

概率论与数理统计

名词解释

  • 概率论部分主要是讲:大千世界中,数据的分布呈现出来的形状 (分布函数,密度函数..)。
  • 数理统计部分则是在讲:建立在各种分布的前提下,我们如何用少量的样本数据来推断总体的一些性质; 或者推断两个样本是否来自一个总体; 等等…
    -

统计学(statistics)是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。统计学主要分为描述统计学和推断统计学。

统计推断,或者叫做推断统计学(statistical inference)是指统计学中研究如何根据样本数据去推断总体数量特征的方法。统计推断主要可以分为两大类:一类是参数估计问题;另一类是假设检验问题。

统计学习(statistical learning)关注的是最小化预测的误差。是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称为统计机器学习(statistical machine learning)。统计学习是概率论,统计学,信息论,计算理论,最优化理论及计算机科学等多个领域的交叉学科。statistical learning 讲的是 在machine learning 学科下, 利用统计学知识和数值型数据 来进行机器 学习 (或叫 优化). machine learning 除了 statistical learning 以外,还有其他 learning 的方法.

样本估计

statistics 统计学是基础. statistical inference 是学统计的目的,即根据样本数据,对总体进行统计推断(假设检验 或 预测). 这两个概念都可以算属于统计学学科.

[统计学] 里,用的最多的就是回归模型,而回归模型里参数的求解,主要是通过[最小二乘(OLS)]和[最大似然估计(MLE)] 来求解。OLS 和 MLE 其实是一个 [数值优化 (Optimization)] 的问题。
而 [数值优化] 就和机器学习联系起来了。

关系 & 架构

  • [概率论] 是 [数理统计] 的理论基础;
    学[数理统计] 就等于在学习如何进行 [统计推断];
  • [概率论]+[数理统计] = [统计学];
  • 学习[统计学] 的目的 就是进行[统计推断]。

从概念和内容上,三者的关系是:
statistics < statistical inference < statistical learning

总结

统计推断

统计学习

扔硬币 1000000次的人是不是傻?

参考

https://www.zhihu.com/question/23687389

  • 概率导论 第二版 - 翻译真差劲,错别字多。
  • ss

贝叶斯学派 VS 频率学派

简介

在统计领域,有两种突出但对立的思想学派:贝叶斯学派(Bayesian)和频率学派(Frequentist,也称经典学派)。
他们之间最重要的区别就是如何看待未知模型或者变量,即对参数的理解不同

  • 频率学派: 认为未知参数$\theta$是确定的(非随机),而取值未知;是未知常数,而不是随机变量。
  • 贝叶斯学派: 将未知参数$\theta$看做已知分布的随机变量(先验分布)

频率学派从「自然」角度出发,试图直接为事件本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。
举例而言,想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。

然而,贝叶斯学派并不从试图刻画事件本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。
频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下,观察者又试图通过已经观察到的「证据」来推断这一事件的结果,因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。

总的来说,贝叶斯概率论为人的知识(knowledge)建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。

贝叶斯方法主要是想将统计领域拉回到「概率」的王国里,使得每个问题都只有唯一的答案。
特别地,当人们欲对未知模型进行推断时,贝叶斯方法将该模型看成是随机地从已知的一类模型中选出来的。
处理方法是引入一个随机变量$\Theta$来刻画该模型,然后构造一个先验概率分布$p_{\Theta}{\theta}$。
在已知数据x的情况下,人们原则上使用贝叶斯公式来推导后验概率分布$p_{\Theta | x}{\theta | x}$。
这样就抓住了x能提供关于$\theta$的所有信息。

相反,经典统计方法将未知参数$\theta$视为常数,但是未知就需要估计。
然后经典统计的目标就是提出参数$\theta$的估计方法,且保证具有一些性质。
经典方法处理的不是一个概率模型,而是有多个待选的概率模型,每个标记为$\theta$的一个可能值。
比如矩估计和MLE会得到不同的参数$\theta$,这些就是不同的模型。

例子

我们通过下面的例子,简短地回顾两个学派争论的观点。

估计电子的质量

假设我们要通过噪声实验的手段来测量一个物理常数,比如电子的质量。
经典统计学家认为电子的质量尽管未知,但也只是一个常数,所以不能把它看成随机变量。
而贝叶斯统计学家却给它一个先验分布,来反映人们对电子质量的已有知识。
比如,如果我们已经从历史实验中获知电子质量的大概范围,则可以将先验分布集中在那个范围中。

我觉得贝叶斯靠谱啊,贝叶斯考虑了历史性、全局性(历史实验中电子质量的分布,或者人的先验知识),以及参数的相关性(体现在先验分布的协方差)。
而频率学派讲究让数据说话,在数据中挖掘信息。只局限于单个样本(或所有观测样本),孤立的看问题。

投硬币

以最简单的扔硬币游戏为例,一枚硬币扔了五次,有一次是正面。用最大似然估计,就是以这五次结果为依据,判断这枚硬币每次落地时正面朝上的概率(期望值)是多少时,最有可能得到四次反面一次正面的结果。不难计算得到期望概率0.2。

如果你的先验知识告诉你,这枚硬币是均匀的,正面朝上的概率一般是0.5。这时候就需要在先验概率0.5和最大似然估计0.2之间取个折中值,这个折中值称为后验概率。

剩下的问题就是先验知识和最大似然估计结果各应起多大作用了。如果你对制币工艺非常有信心,觉得先验知识的可靠程度最起码相当于做过一千次虚拟试验,那么后验概率是(0.2 5 + 0.5 1000)/(5 + 1000) = 0.4985,如果你对制币局技术信心不足,觉得先验知识的可靠程度也就相当于做过五次试验,那么后验概率是(0.2 5 + 0.5 5)/(5 + 5) = 0.35. 这种在先验概率和最大似然结果之间做折中的方法称为后验估计方法。
这是用贝耶斯观点对最大后验方法的阐述,其实也可以用用经典统计学派的偏差方差的折中来解释。

例如:小明先验地相信一枚硬币是均匀的,可能是出于认为均匀硬币最常见这种信念。

之后观察者开始新的观测或实验(小明开始不断地抛硬币,发现抛了100次后,居然只有20次是正面朝上)。
经过中间的独立重复试验,观察者获得了一些新的观测结果,这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念(小明开始怀疑这枚硬币究竟是不是均匀的,甚至开始断定硬币并不均匀)

小明开始怀疑这枚硬币究竟是不是均匀的体现在哪?贝叶斯并涉及超参的更新吧

投篮

我定点投篮, 投5次, 次次投中, 问:我的投篮技术如何?再比如科比投篮, 投100次, 次次投中, 问:科比投篮技术如何?如果我们使用经典方法:矩法估计、极大似然估计, 得到的结果是我和科比投蓝准确率都是100%, 即我和科比技术一样, 都是百投百中。

参考: http://www.datakit.cn/blog/2014/10/30/bayes_estimation.html

MLE VS 贝叶斯估计

《统计机器学习 | 李航》4.2.3

学派大战

两个学派的争论已经持续一个世纪了,经常争论的是哲学思想。
在两派的争论过程中,每派都构造一些例子来说明对方学派的方法有时得到不合理的,或者不吸引人的结论。

经典学派统计学家经常返回这种挑选一个特定先验的随意性。
贝叶斯统计学家反驳说,任何统计推断往往隐含着一些先验。
进一步地,在某些例子中,先验分布如果是某个特殊选定的分布,经典方法实质上是与贝叶斯方法等价的。
通过将所有的假设都以先验的形式放在一起,贝叶斯统计学家主张将这些假设公开的,并认为它们是经得起推敲的。

最后,从实际的角度考虑。在许多情况下,贝叶斯方法在计算方面很棘手,比如需要计算多维的积分。
另一方面,随着快速计算逐渐为人们所用,贝叶斯统计学派的大量最新研究成果就集中在如何使贝叶斯方法具有可行性上。

争论结果

我是贝叶斯学派的支持者(an outspoken partisan on the Bayesian side) – 《概率沉思录》
大量实践证明,贝叶斯方法是优于频率方法的。当然你可以在哲学上进行争论,但我们的论点现在是通过引用事实而不是宣扬哲学或意识形态立场。 – 《概率沉思录》
probability theory as extended logic. 概率论作为逻辑的补充

summary

学界一般认为,Bayesian 视角的优势在于能解释一些传统统计不能解释的问题,而劣势在于先验这个概念太主观;而现在真正让Bayesian 起飞的,是十多二十年前它和MCMC结合以后方法。

实例

一般的统计推断,也有对应的Bayesian 推断;有一般的假设检验,也有对应的Bayesian 检验

PLSA VS LDA

  • PLSA中认为,一个文档的主题分布是常数
  • LDA认为,一个文档的主题分布是服从dirichlet分布的随机变量

高斯的参数估计

-

贝叶斯方法

先验,一般是

先验分布的选择

如果先验选择某分布的共轭,那么后验就一定会和先验的分布类型一样,而类型一样的优势在于,极大化简运算。
这就是为什么LDA中会选择 Dirichlet 和 Multinomial,因为前者是后者的共轭先验。
GMM之所以要从Bayesian 考虑,是因为将数据的来源视为未知变量,从而再从条件概率考虑并用EM算法求解。

经典方法

传统的“频率主义者”只使用抽样分布,这在许多特别简单、理想化的情况下是起作用的; 然而,这些简化是概率论中最特殊情况,因为他们基于这样的预设:一个“随机实验”具有独立重复性。这在实际问题中很少遇到的。

疑问

贝叶斯方法的先验分布形式是否太局限?

形式是比较局限,一般用常见的简单分布。但是作为参数的先验,简单的分布基本够用了。

如果觉得不够用,可以采用对简单分布的变换,构造复杂分布。

参数theta确是一个常数,而且假设经典方法能够准确学习该参数的情况下。再用贝叶斯方法是不是多此一举,徒增误差(不确定性)?

贝叶斯方法 与过拟合

通常,最参数w加高斯先验,其后验分布等价于L2正则。加拉普拉斯先验,等价于L1正则(Lasso)。
这样起到了架构风险最小的作用,有助于减小模型的过拟合。

Bayesian 和防止过拟合没有本质联系,Frequency 实用(潜台词Bayesian 没那么实用)与否也未必是两者的区别。就拿Bayesian Lasso 来说,其结果是后验分布的 mode——而 mode 并非总是0——所以确实没有 Lasso 的变量选择能力(没看懂),但如果多考虑一步,比如 估计出的Bayesian 区间是否含0等等从而进行取舍,依然可以实现将估计压缩到0的目标。
— 没看懂

这两个学派跟波粒二象性的关系?

波 - 概率
粒 - 常数

参考

参数估计

名词解释

  • 参数估计

参数估计

参数估计有点估计(point estimation)和区间估计(interval estimation)两种。

点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。
例如,设一批产品的废品率为θ。为估计θ,从这批产品中随机地抽出n个作检查,以X记其中的废品个数,用X/n估计θ,这就是一个点估计。

  • 点估计: 一般就是要找概率密度曲线上值最大的那个点
  • 区间估计: 则要寻找该曲线上满足某种条件的一个曲线段

点估计

设总体X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体X的一个样本估计总体未知参数的值的问题成为参数的点估计问题。

点估计常用的方法有:

  • 矩估计法。用样本矩估计总体矩,如用样本均值估计总体均值。
  • 最大似然估计(MLE)。于1912年由英国统计学家R.A.费希尔提出,用来求一个样本集的相关概率密度函数的参数。
  • 最大后验估计(MAP): 是点估计,是因为Max,要的是一个点而不是区间。但是又属于贝叶斯估计吧?
  • 最小二乘法。主要用于线性统计模型中的参数估计问题。
  • 贝叶斯估计法。基于贝叶斯学派(见贝叶斯统计)的观点而提出的估计法。

最小二乘法,跟其他三种什么关系?是并列关系吗?

贝叶斯估计是区间估计吧?

为什么说正态分布的矩估计跟极大似然估计相等呢?

在矩估计中,我们的一阶原点矩就是期望,二阶中心距就是方差。也就是说,样本均值(一阶样本原点矩)就可以直接作为模型的均值。方差亦然。而通过极大似然的方法,让似然函数导数为0直接求解,最终会发现模型参数的均值就是一阶样本原点矩,方差亦然。

能够出现这样的情况,只是恰好因为正态分布的一个有趣的性质:模型的参数(均值和方差)直接就是样本矩(一阶样本原点矩和二阶样本中心距)

疑问

与 EM算法,梯度下降法,关系。

区间估计

区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。

求置信区间常用的三种方法:

  • 利用已知的抽样分布。
  • 利用区间估计与假设检验的联系。(请参考几种常见的参数估计)
  • 利用大样本理论。

贝叶斯区间估计呢?

疑问:

  • 区间估计一般用不着吧?

参数估计的效果评估

可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计,其次有容许性准则,最小化最大准则,最优同变准则等。大样本优良性准则有相合性、最优渐近正态估计和渐近有效估计等。

无偏估计 VS 有偏估计