计量经济学陈强答案-高级计量经济学陈强答案

本文目录一览:

高级计量经济学 13:最大似然估计(下)

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分( 包括证明和正文 )做了修改。

目录

在计量经济学中,常常使用以下三类大样本下渐近等价的统计检验。对于 线性回归模型 ,检验原假设为 ,其中 为未知参数, 已知,共有 个约束。

通过研究 的无约束估计量 和 的距离来进行检验

他检验的东西是我所估计出来的 是否可能等于

其基本思想是,如果 正确,那么 与 的距离应该不要很大(注意,这里是 和 的距离 )。Wald Test 统计量为:

其中, 为约束条件的个数(即解释变量的个数),其证明在 高级计量 第6、7期有,大家可以回顾(也可以在我的上看), 我在这里多嘴说一下如何理解它 。

我们从标量的情形开始。显然 衡量了 和 的距离。但是,这有两个问题:

由于出现了上面的两个困境,于是我们就很容易想到标量情形下 Wald Test 的表达式:

也就是:

的形式。

很容易拓展到向量的情形。如果我们要对多个参加进行检验,那么 就变成了向量 ,此时 虽然也可以反映两个向量之间的距离,但绝对值的数学性质并不良好,我们更多的是使用欧拉距离,也就是使用

的形式( 二次型 )。同样地,这个式子还没有解决 把握 和 量纲 的问题,于是我们也需要对它除以“标准差”。我们前面已经反复强调,在向量下的除法运算就是 逆 、向量下的方差就是 协方差矩阵 、向量下的二次函数就是 二次型 ,那么于是我们就有:

这就是 Wald Test 统计量的来源。至于它如何收敛到 分布,请移步 高级计量 第6、7期。

通常来说,无约束的似然函数最大值 比有约束的似然函数最大值 更大,这是因为无约束条件下的参数空间 显然比带约束的参数空间 更大,即: 。

LR的思想是,如果 正确,那么 不应该很大。在 正确下, ,那么LR统计量就是:

证明的方法是将LLF做二阶泰勒展开(因为MLE的一阶条件表明, ,可以看前一篇文章)。 高级计量7 中的 统计的似然比表达式就是按照这个原理设计的。

下面的证明我没有参考别的资料,我尽量做到严谨,推着玩玩儿。

考虑有约束条件的对数似然函数最大化问题:

引入拉格朗日函数:

其中, 为拉格朗日乘子向量,如果 ,那么说明此约束条件 不紧 (tight)或者不是 硬约束 (binding constraint),加上这个约束条件并不会使似然函数的最大值下降很多,即原假设 很可能成立。根据上述问题的一阶条件,对 求导,有:

即最优的拉格朗日乘子 等于似然函数在 处的梯度向量,那么 统计量为:

其中, 为信息矩阵在 处的取值。由于 有被称作 得分函数 (score function),所以这个检验也被称为 得分检验 (score test);而 正正是得分函数的协方差矩阵,这我们前面已经证明过了。直观来说,就是由于在无约束估计量 处,得分函数为 向量,那么如果原假设 成立,那么在约束估计量 处,梯度向量也应该接近于 向量,即:

而 统计量反应的就是此接近程度。

总之,Wald检验仅利用无约束估计的信息;LM检验仅使用有约束估计的信息;LR检验同时利用了有约束和无约束估计的信息。在原假设为 下,我总结了下表:

在大样本下,三种检验是渐近等价的;在小样本下, 。

另外,如果不对模型的具体概率分布作假设,则无法得到似然函数,于是就一般没有办法使用 检验和 检验;不过 检验依然可以使用。所以 检验的使用范围最广。

如果随机变量不服从正态分布,却使用了以正态分布为前提的最大似然估计法,该估计量 仍有可能是一致的 !

定义 使用不正确的似然函数而得到的最大似然估计,称为 准最大似然估计 (Quasi MLE, QMLE)或 伪最大似然估计 (Pseudo MLE)。

之所以在某些情况下可以“歪打正着”地得到一致估计的准最大似然估计,是因为 MLE 也可以被视为 GMM,而后者并不需要对随机变量的具体分布作出假定(见教材第10章)。也就是说,虽然 MLE 要求随机变量服从正态分布,不过这个假定其实可以稍微放松。如果 QMLE 满足以下条件,那么它依然是一致估计量:

然而,更一般的情况下, QMLE 并非一致估计 ,比如 14 章的 Tobit 回归。就算 QMLE 恰巧为一致估计,但其渐近方差也通常不是一致估计(即参数估得准,不过参数的不确定性估不准)。

假设正确的对数似然函数为 而被误设为 ,那么我们称后者为 准对数似然函数 (pseudo log likelihood function, PLLF)。最大化 的结果也就是 QMLE 估计量:

类似于 MLE 一致性的证明步骤,我们可以证明 ,其中 称为 准真实值 (peseudo-true value),但通常 。对于 的大样本分布,可以用类似于 MLE 的推导证明:

其中, 和 的表达式类似于 和 的表达式。不过,由于 并非真实的 LLF,所以信息矩阵等式不再成立,于是通常 ,这为渐近正态的协方差矩阵 的进一步简化造成了麻烦。

在我们 很有把握 的条件下,我们可以用基于 的标准误差来做假设检验,这被称为 胡贝尔-怀特稳健标准误 (Huber-White robust standard errors)。这个标准误也被称为 稳健标准误 ,因为它与第 5 章介绍的 异方差稳健标准误 是一致的。需要注意的是,如果 ,就算使用稳健的标准误也 无济于事 ,你首先要考虑的是估计的一致性问题。

对线性回归模型,如果扰动项不服从正态分布,则虽然OLS 估计量是一致的且服从正态分布,但是无法使用小样本 OLS 进行假设检验。在这种情形下,就需要对扰动项是否服从正态分布进行检验。当然,如果是大样本,那就可以用渐近正态的理论处理,我们也不关心扰动项是否服从正态分布了。

不过,对非线性模型使用 MLE 时,由于正态分布假定时推导 MLE 的前提,故而检验扰动项是否服从正态分布可能就显得比较重要。

为了考察扰动是否正态,最直观的方法是画图。可以把残差画成直方图,然后用 核密度估计 方法得到光滑的曲线,然后与正态分布的曲线进行对比。一个核密度估计的例子如下图所示:

高级计量经济学 15:多值选择模型(基础)

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分( 包括证明和正文 )做了修改。

目录

为了将二值模型拓展到多值的情况,我们首先要理解二值选择模型的经济意义。

在上一篇文章的 Probit 和 Logit 模型中似乎看不到扰动项的存在。为此,我们先考察二值选择模型的微观基础。对于二值选择模型,通常可以用一个 潜变量 (latent varibale)来概括该行为的净收益。如果净收益大于 0 则选择做;否则选择不做。假设净收益为:

其中,净收益 为潜变量,不可观测。上面的式子也称为 指数函数 ( index function ),个体的选择规则为:

于是:

假设 或服从逻辑分布,那么:

其中, 为 的累积分布函数,上面的第二个等号用到了密度函数关于原点对称的性质。这个形式与 高级计量14 中的二值选择模型的形式相同,均为:

所以看似不存在的扰动项其实是被包含在分布函数里头了。

另外一种 关键的 微观基础为 随机效用最大化 模型( Random utility Maximization, RUM)。假设选择 则可以带来效用 ;选择 则可以带来效用 。如果满足 ,那么就选 ,记 ;如果 那么就选择 记为 。由于存在很多决定效用的未知因素以及未来的不确定性,效用方程中包含一个扰动项,故名 随机效用 。假设 , 那么:

定义 以及 ,于是又会得到我们前面的表达式: ,说明 潜变量 和 随机效应最大化模型 虽然尝试从不同的经济意义理解二值选择模型,但最终其表达式是一样的。

在随机效用最大化模型中:

随机效用最大化模型的优点是比较容易推广到多值选择模型,我们下面马上讲解它的应用。

个体面临的选择有时候是多值的,而不仅仅是二值的。比如,交通工具的选择、职业的选择,等等。假设个体的候选方案为 ,其中 。如果 ,那么多值选择模型退化为二值选择。

使用随机效用法,假设个体 选择方案 所带来的效用为:

其中,解释变量 只随个体 而变,不随方案 而变。比如,个体的性别、年龄、收入等特征。这种解释变量被称为 只随个体而变 ( case-specific )或 不随方案而变 ( alternative-invariant )。系数 带下标,表明 对随机效用 的作用取决于方案 ,在概率表达式中,表现为对 的 条件概率 。

显然,当且仅当方案 带来的效用高于所有的其他方案,个体 才会选择方案 。所以个体 选择 的概率可以写为:

假设 为 且服从 型极值分布,则可证明:

显然,各方案的概率之和为1。上面的方程是对二值选择 Logit 模型的自然推广。需要注意的是,我们无法同时识别所有的系数 , 这是因为如果将系数 变为 ,完全不会影响模型的拟合。 为此,通常让某个方案(比如方案1)的系数为 ,即让它成为 参照方案 ( base category ),于是,个体 选择方案 的概率为:

其中, 所对应的方案为参照方案。此模型称为 多项 Logit ( Multinomial Logit ),可以用 MLE 进行估计,个体 的似然函数为:

其中, 为示性函数( indicator function ),即如果括号中的表达式成立,则取值为1;反之取值为0。将所有个体的对数似然函数加总,即得到整个样本的对数似然函数,将其最大化就可以得到参数估计值 。

另外,如果在 中假设 服从 维正态分布,则可以得到 多项 Probit ( Multinomial Probit )模型,但该模型的选择概率设计高维积分,不好计算。

其实我们看看教材给的例子就看得懂了:

多项 Logit 模型仅考虑不随方案而变的解释变量(比如,肤色),但有些解释变量可能既随个体而变,也随方案而变,比如,考虑以下的一个情景:

我们把这种解释变量称为 随方案而变 ( alternative-specific ),既包括随方案与个体而变的变量(选择加入不同俱乐部交的会费不同),也包括随方案而变但不随个体而变的变量(选择加入某个俱乐部后在这个俱乐部里每个人的会费相同)。于是,个体选择方案 所带来的效用是:

其中,解释变量 的下标为 表明,解释变量随个体 而变,也随方案 而变。系数 不带下标表明 对随机效用 的作用不依赖于方案 ,比如乘车时间依个体与方案的改变而改变,但乘车时间太长所带来的负效用是一致的。

根据多项 Logit 类似的推导可以计算,个体 选择方案 个概率为:

此模型称为 条件 Logit ( Conditional Logit, CL ),也称为 McFadden 选择模型 ( McFadden's Choice Model),来自于 McFaden 在 1974 年的文章。

条件 Logit 模型的估计方法与多项 Logiot 类似,都通过 MLE 估计以得到系数的估计值 ,不过在 CL 中,参数 不依赖于参照方案,所以也不需要把 的某个部分标准化为 0。

字面上理解,混合 Logit 模型就是糅合了 12.2 和 12.3 两种模型的特点而发展来的。很自然地,可以写出个体 选择方案 所能带来的随机效用:

其中,解释变量 既随个体 而变,也随方案 而变;而解释变量 仅随个体 而变。经过类似的推导,可以计算出个体 选择方案 的概率为:

此模型在文献中称为 混合 Logit 模型( Mixed Logit ),但 Stata 仍称之为条件 Logit。为了识别模型,方程 中也需要选择一个参照方案,并令 。

对于以上三种模型,当方案本身的特质并不重要,或缺乏相关特征的数据时,常常使用多项 Logit 模型。如果需要考虑不同方案的特征,则应使用 条件 Logit 模型 或 混合 Logit 模型 。另外,在这些多值选择模型中,由于被解释变量的分布必然为 多项分布 ( multinomial distribution ),故一般不必考虑稳健标准误,使用普通标准误即可:这一点类似于二值选择模型。然而,如果数据时 聚类样本 ,则仍需要使用稳健标准误。

需要注意的是,在 多项 Logit 模型 和 混合 Logit 模型 中,对参数估计值 的解释是以参照方案( base category )为转移的(可以根据理论或方便来选择参照方案)。以 多项 Logit 模型 为例,假设“方案1”或“方案 “其中一个必然发生,那么在此条件下,“方案 ”发生的概率为:

上式与二值选择的 Logit 模型具有完全相同的形式。而 几率比 或 相对风险 为:

从条件概率 可以看出,该条件概率并不依赖于其他任何方案——换言之, 如果将多值选择模型的任何两个方案单独挑出来,都是二值 Logit 模型 。此假定称为 无关方案的独立性 ( Idependence of Irrelevant Alternatives, IIA)。根据类似的推导,条件 Logit 模型也服从 IIA 假定。然而,在实践中,如果两个不同的方案之间十分接近,那么 IIA 假设不一定成立, 这是多项 Logit、条件 Logit 与混合 Logit 模型存在的通病 。

如果还是不理解,那么我们可以尝试去理解检验 IIA 的方法:豪斯曼检验,的基本想法:

也就是说,如果 IIA 成立,那么去掉某个方案以后的系数估计 与全样本估计值 没有系统性差别,为此 Hausman McFadden (1984) 提出了以下统计量:

其中, 等于 的维度。另外还有 Small Hsiao (1985) 也提出了检验 IIA 的方法,不过这两个方法的小样本性质都不好,故结论只具有参考价值。

高级计量经济学 14:二值选择模型(基础)

为了个人课题的进展,我会按照进度选择自己需要优先学习的内容😂不按照正常顺序的话不好意思啦!

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分( 包括证明和正文 )做了修改。

目录

如果解释变量是离散的(比如,虚拟变量),这并不影响回归。但有时候被解释变量是离散的,而非连续的,这就让人很头疼了。

这类模型被称为 离散选择模型 (discrete choice model)或 定性反应模型 (qualitative response model)。另外,有时被解释变量只能取非负整数,比如企业在某个时间内所获得的专利数,这类数据被称为 计数数据 (count data),其被解释变量也是离散的。

考虑到离散被解释变量的特点, 通常不宜使用OLS进行回归

假设个体只有两种选择,比如 和 。是否考研,取决于毕业生毕业后的预期收入、个人兴趣等等,假设这些解释变量都被集成在向量 中。于是,最简单的模型为 线性概率模型 (Linear Probability Model,LPM):

对 的一致估计要求 (没有内生性)。然而,这里有几个问题:

尽管 LPM 有上面所提到的各种缺点,但它的优点是计算方便,而且容易分析经济意义。于是,为了使 的预测值总是介于 之间,我们对 LPM 进行拓展:在给定 的情况下,考虑 的两点分布概率为:

于是,函数 就被称为 连接函数 (link function),因为它将解释变量 与被解释变量 链接起来。由于 的取值要么为 0 ,要么为 1 ,于是 一定服从 两点分布 。

连接函数的选择有一定的灵活性,通过选择合适的连接函数 可以保证 ,并将 理解为 “ 发生的概率”,因为:

特别地,如果 是标准的正态分布累计函数(cdf),则:

那么这个模型就被称为 Probit模型 。如果 是 逻辑分布 (logistic distribution)的 cdf ,即:

那么这个模型就被称为 Logit模型 。

由于逻辑分布函数有解析表达式,而正态分布则没有,所以计算 Logit 模型通常比计算 Probit 模型更为方便。显然,这是一个 非线性模型 ,可以用最大似然法估计(MLE)。以 Logit 模型为例,第 个观测数据的概率密度为:

可以不分段地写成:

去对数,有:

假设样本中的个体相互独立,那么整个样本的 LLF (对数似然函数)为:

可以用 数值方法 求解这个非线性最大化问题。

需要注意的是,在这个非线性模型中,估计量 并非边际效应(marginal effects)。以 Probit 为例,可以计算:

在这里使用了微分的链式法则(chain rule),并假设了 为连续变量。由于 Probit 和 Logit 所使用的分布函数不同,所以其参数并不可以直接比较,而是需要 分别计算二者的边际效应,然后进行比较 。然而,对于非线性模型而言, 边际效应本身就不是常数 ,它随解释变量的变化而变化。常用的边际效应的概念有:

以上三种边际效应的计算结果可能会有差异。传统上,计算样本均值处的边际效应比较简单;然而,在非线性模型中,样本均值处的个体行为通常不能代表个体的平均行为(average behavior of individuals differes from behavior of the average individual)。 对于政策分析而言,平均边际效应比较有意义,也是 Stata 的默认方法 。

既然 并非边际效应,那他有什么经济意义呢?对于 Logit 模型,令 ,那么 ,由于 ,于是:

其中, 被称为 几率比 (odds ratio)或 相对风险 (relative risk)。如果几率比为2,意味着 的概率是 两倍。对第二个等式的右边求导,我们可以发现 的意义是:若 增加一个微小的量,那么 几率比的百分比 则会增加 。所以,可以把 视为 半弹性 ,即 增加一个单位引起 几率比的百分比 的变化。

还有另外一个生物统计领域特别喜欢使用的意义,考虑 从而 变成了 ,于是新几率比与原先几率比的比率可以写成:

所以, 表示 引起的 几率比的变化倍数 。

事实上,如果 比较小,两者方法是等价的( Taylor 展开)。然而,如果 必须变化一个单位(如性别、婚否),则应使用 。另外,Probit 模型无法对系数 进行类似的解释,这是 Probit 模型的劣势。

如何衡量一个非线性的模型的拟合优度呢?在不存在平方和分解公式的情况下, 是无法计算的,然而 Stata 依然汇报一个 准R2 (Pseudo ),由 McFadden (1974) 提出,其定义为:

其中, 为原模型的 LLF 最大值,而 为 以常数项为唯一解释变量 的 LLF 的最大值。由于 是离散的两点分布,似然函数 LF 的最大可能值为 1,于是 LLF 的最大可能值为 0,记为 。于是,必然有 ,于是 。

另外一类判断拟合优度的方法是计算 正确预测的百分比 ,实际上我认为目前机器学习领域的一系列常用的拟合优度如 MSE、MAPE 等都可以使用。

本节主要是复习 高级计量12 和 高级计量13 的内容 。

总的来说,要对 Probit 和 Logit 模型进行统计推断,需要作如下假设:

下面我们对两种检验:对 所有系数的联合检验 和 单个系数的独立检验 进行说明

(1) 所有系数的联合显著性

在使用 Stata 时,会汇报一个 LR 检验统计量,检验常数以外的所有其他系数的显著性(即所有系数的联合显著性)。在 高级计量13 ,我们已经推导出对 MLE 的系数的 LR 统计推断表达式:

上面的统计推断表达式仅依赖于 样本 i.i.d. 和 似然函数正确 这两个条件,前者是为了应用 大数定律 和 中心极限定理 ,后者是为了使用 信息矩阵等式 。

对于 Probit 和 Logit 模型,如果分布函数设定不正确,则为 准最大似然估计 (QMLE),那么我们要注意:

(2) 单个系数的显著性

在使用 Stata 时,也会汇报每个系数的 Std. err. 。如果要对单个系数的显著性进行推断,则需要使用 高级计量12 的 6.5.2 节中的推导:

a. 在抽取的样本为 i.i.d. 的假设下,我们用 大数定律 和 中心极限定理 可以推导出:

b. 在分布函数设定正确的假设下(于是可是使用 高级计量11 的 证明3 ),可以进一步推导出:

前面已经提到, 就算分布函数设定不正确 ,如果 成立,那么在 i.i.d. 的情况下,稳健标准误就等于 MLE 的普通标准误。所以上面的等式只要 成立就可以用了。

c. 如果 ,则 Probit 与 Logit 模型并不能得到对系数 的一致估计。此时统计推断并无意义。

欲从上面的式子单个系数进行检验,显然需要 未知的 真实参数 。于是我们可以根据 高级计量12 的 6.6 的方法去处理,这里就不再赘述了。


原文链接:https://527256.com/37871.html

相关文章

访客
访客
发布于 2022-09-28 15:45:00  回复
于 MLE 一致性的证明步骤,我们可以证明 ,其中 称为 准真实值 (peseudo-true value),但通常 。对于 的大样本分布,可以用类似于 MLE 的推导证明: 其中, 和 的表达式类
访客
访客
发布于 2022-09-28 06:02:32  回复
离散选择模型 (discrete choice model)或 定性反应模型 (qualitative response model)。另外,有时被解释变量只能取非负整数,比如企业在某个时间内所获得的专利数,这类数据被称为 计数数据 (count data),其被解释变量也是离散的。 考虑到离散被
访客
访客
发布于 2022-09-28 10:27:42  回复
,则虽然OLS 估计量是一致的且服从正态分布,但是无法使用小样本 OLS 进行假设检验。在这种情形下,就需要对扰动项是否服从正态分布进行检验。当然,如果是大样本,那就可以用渐近正态的理论处理,我们也不关心扰动项是否
访客
访客
发布于 2022-09-28 08:30:53  回复
n rule),并假设了 为连续变量。由于 Probit 和 Logit 所使用的分布函数不同,所以其参数并不可以直接比较,而是需要 分别计算二者的边际效应,然后进行比较 。然而,对于非线性模型而言, 边际效应本身就不是常数 ,它随解释变量的变化而变化。常
访客
访客
发布于 2022-09-28 04:53:02  回复
统计量为: 其中, 为约束条件的个数(即解释变量的个数),其证明在 高级计量 第6、7期有,大家可以回顾(也可以在我的上看), 我在这里多嘴说一下如何理解它 。 我们从标量的情形开始。显然 衡量了

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

返回顶部