计量经济学陈强答案-高级计量经济学陈强答案_加工_黑客高手有哪些渠道可以找到怎么联系黑客高手

本文目录一览：

1、高级计量经济学 13：最大似然估计(下)
2、高级计量经济学 15：多值选择模型(基础)
3、高级计量经济学 14：二值选择模型(基础)

高级计量经济学 13：最大似然估计(下)

此文内容为《高级计量经济学及STATA应用》的笔记，陈强老师著，高等教育出版社出版。

我只将个人会用到的知识作了笔记，并对教材较难理解的部分做了进一步阐述。为了更易于理解，我还对教材上的一些部分（包括证明和正文）做了修改。

在计量经济学中，常常使用以下三类大样本下渐近等价的统计检验。对于线性回归模型，检验原假设为，其中为未知参数，已知，共有个约束。

通过研究的无约束估计量和的距离来进行检验

他检验的东西是我所估计出来的是否可能等于

其基本思想是，如果正确，那么与的距离应该不要很大（注意，这里是和的距离）。Wald Test 统计量为：

其中，为约束条件的个数（即解释变量的个数），其证明在高级计量第6、7期有，大家可以回顾（也可以在我的上看），我在这里多嘴说一下如何理解它。

我们从标量的情形开始。显然衡量了和的距离。但是，这有两个问题：

由于出现了上面的两个困境，于是我们就很容易想到标量情形下 Wald Test 的表达式：

也就是：

的形式。

很容易拓展到向量的情形。如果我们要对多个参加进行检验，那么就变成了向量，此时虽然也可以反映两个向量之间的距离，但绝对值的数学性质并不良好，我们更多的是使用欧拉距离，也就是使用

的形式（二次型）。同样地，这个式子还没有解决把握和量纲的问题，于是我们也需要对它除以“标准差”。我们前面已经反复强调，在向量下的除法运算就是逆、向量下的方差就是协方差矩阵、向量下的二次函数就是二次型，那么于是我们就有：

这就是 Wald Test 统计量的来源。至于它如何收敛到分布，请移步高级计量第6、7期。

通常来说，无约束的似然函数最大值比有约束的似然函数最大值更大，这是因为无约束条件下的参数空间显然比带约束的参数空间更大，即：。

LR的思想是，如果正确，那么不应该很大。在正确下，，那么LR统计量就是：

证明的方法是将LLF做二阶泰勒展开（因为MLE的一阶条件表明，，可以看前一篇文章）。高级计量7 中的统计的似然比表达式就是按照这个原理设计的。

下面的证明我没有参考别的资料，我尽量做到严谨，推着玩玩儿。

考虑有约束条件的对数似然函数最大化问题：

引入拉格朗日函数：

其中，为拉格朗日乘子向量，如果，那么说明此约束条件不紧（tight）或者不是硬约束（binding constraint），加上这个约束条件并不会使似然函数的最大值下降很多，即原假设很可能成立。根据上述问题的一阶条件，对求导，有：

即最优的拉格朗日乘子等于似然函数在处的梯度向量，那么统计量为：

其中，为信息矩阵在处的取值。由于有被称作得分函数（score function），所以这个检验也被称为得分检验（score test）；而正正是得分函数的协方差矩阵，这我们前面已经证明过了。直观来说，就是由于在无约束估计量处，得分函数为向量，那么如果原假设成立，那么在约束估计量处，梯度向量也应该接近于向量，即：

而统计量反应的就是此接近程度。

总之，Wald检验仅利用无约束估计的信息；LM检验仅使用有约束估计的信息；LR检验同时利用了有约束和无约束估计的信息。在原假设为下，我总结了下表：

在大样本下，三种检验是渐近等价的；在小样本下，。

另外，如果不对模型的具体概率分布作假设，则无法得到似然函数，于是就一般没有办法使用检验和检验；不过检验依然可以使用。所以检验的使用范围最广。

如果随机变量不服从正态分布，却使用了以正态分布为前提的最大似然估计法，该估计量仍有可能是一致的！

定义使用不正确的似然函数而得到的最大似然估计，称为准最大似然估计（Quasi MLE, QMLE）或伪最大似然估计（Pseudo MLE）。

之所以在某些情况下可以“歪打正着”地得到一致估计的准最大似然估计，是因为 MLE 也可以被视为 GMM，而后者并不需要对随机变量的具体分布作出假定（见教材第10章）。也就是说，虽然 MLE 要求随机变量服从正态分布，不过这个假定其实可以稍微放松。如果 QMLE 满足以下条件，那么它依然是一致估计量：

然而，更一般的情况下， QMLE 并非一致估计，比如 14 章的 Tobit 回归。就算 QMLE 恰巧为一致估计，但其渐近方差也通常不是一致估计（即参数估得准，不过参数的不确定性估不准）。

假设正确的对数似然函数为而被误设为，那么我们称后者为准对数似然函数（pseudo log likelihood function, PLLF）。最大化的结果也就是 QMLE 估计量：

类似于 MLE 一致性的证明步骤，我们可以证明，其中称为准真实值（peseudo-true value），但通常。对于的大样本分布，可以用类似于 MLE 的推导证明：

其中，和的表达式类似于和的表达式。不过，由于并非真实的 LLF，所以信息矩阵等式不再成立，于是通常，这为渐近正态的协方差矩阵的进一步简化造成了麻烦。

在我们很有把握的条件下，我们可以用基于的标准误差来做假设检验，这被称为胡贝尔-怀特稳健标准误（Huber-White robust standard errors）。这个标准误也被称为稳健标准误，因为它与第 5 章介绍的异方差稳健标准误是一致的。需要注意的是，如果，就算使用稳健的标准误也无济于事，你首先要考虑的是估计的一致性问题。

对线性回归模型，如果扰动项不服从正态分布，则虽然OLS 估计量是一致的且服从正态分布，但是无法使用小样本 OLS 进行假设检验。在这种情形下，就需要对扰动项是否服从正态分布进行检验。当然，如果是大样本，那就可以用渐近正态的理论处理，我们也不关心扰动项是否服从正态分布了。

不过，对非线性模型使用 MLE 时，由于正态分布假定时推导 MLE 的前提，故而检验扰动项是否服从正态分布可能就显得比较重要。

为了考察扰动是否正态，最直观的方法是画图。可以把残差画成直方图，然后用核密度估计方法得到光滑的曲线，然后与正态分布的曲线进行对比。一个核密度估计的例子如下图所示：

高级计量经济学 15：多值选择模型(基础)

此文内容为《高级计量经济学及STATA应用》的笔记，陈强老师著，高等教育出版社出版。

为了将二值模型拓展到多值的情况，我们首先要理解二值选择模型的经济意义。

在上一篇文章的 Probit 和 Logit 模型中似乎看不到扰动项的存在。为此，我们先考察二值选择模型的微观基础。对于二值选择模型，通常可以用一个潜变量（latent varibale）来概括该行为的净收益。如果净收益大于 0 则选择做；否则选择不做。假设净收益为：

其中，净收益为潜变量，不可观测。上面的式子也称为指数函数（ index function ），个体的选择规则为：

于是：

假设或服从逻辑分布，那么：

其中，为的累积分布函数，上面的第二个等号用到了密度函数关于原点对称的性质。这个形式与高级计量14 中的二值选择模型的形式相同，均为：

所以看似不存在的扰动项其实是被包含在分布函数里头了。

另外一种关键的微观基础为随机效用最大化模型（ Random utility Maximization, RUM）。假设选择则可以带来效用；选择则可以带来效用。如果满足，那么就选，记；如果那么就选择记为。由于存在很多决定效用的未知因素以及未来的不确定性，效用方程中包含一个扰动项，故名随机效用。假设，那么：

定义以及，于是又会得到我们前面的表达式：，说明潜变量和随机效应最大化模型虽然尝试从不同的经济意义理解二值选择模型，但最终其表达式是一样的。

在随机效用最大化模型中：

随机效用最大化模型的优点是比较容易推广到多值选择模型，我们下面马上讲解它的应用。

个体面临的选择有时候是多值的，而不仅仅是二值的。比如，交通工具的选择、职业的选择，等等。假设个体的候选方案为，其中。如果，那么多值选择模型退化为二值选择。

使用随机效用法，假设个体选择方案所带来的效用为：

其中，解释变量只随个体而变，不随方案而变。比如，个体的性别、年龄、收入等特征。这种解释变量被称为只随个体而变（ case-specific ）或不随方案而变（ alternative-invariant ）。系数带下标，表明对随机效用的作用取决于方案，在概率表达式中，表现为对的条件概率。

显然，当且仅当方案带来的效用高于所有的其他方案，个体才会选择方案。所以个体选择的概率可以写为：

假设为且服从型极值分布，则可证明：

显然，各方案的概率之和为1。上面的方程是对二值选择 Logit 模型的自然推广。需要注意的是，我们无法同时识别所有的系数，这是因为如果将系数变为，完全不会影响模型的拟合。为此，通常让某个方案（比如方案1）的系数为，即让它成为参照方案（ base category ），于是，个体选择方案的概率为：

其中，所对应的方案为参照方案。此模型称为多项 Logit （ Multinomial Logit ），可以用 MLE 进行估计，个体的似然函数为：

其中，为示性函数（ indicator function ），即如果括号中的表达式成立，则取值为1；反之取值为0。将所有个体的对数似然函数加总，即得到整个样本的对数似然函数，将其最大化就可以得到参数估计值。

另外，如果在中假设服从维正态分布，则可以得到多项 Probit （ Multinomial Probit ）模型，但该模型的选择概率设计高维积分，不好计算。

其实我们看看教材给的例子就看得懂了：

多项 Logit 模型仅考虑不随方案而变的解释变量（比如，肤色），但有些解释变量可能既随个体而变，也随方案而变，比如，考虑以下的一个情景：

我们把这种解释变量称为随方案而变（ alternative-specific ），既包括随方案与个体而变的变量（选择加入不同俱乐部交的会费不同），也包括随方案而变但不随个体而变的变量（选择加入某个俱乐部后在这个俱乐部里每个人的会费相同）。于是，个体选择方案所带来的效用是：

其中，解释变量的下标为表明，解释变量随个体而变，也随方案而变。系数不带下标表明对随机效用的作用不依赖于方案，比如乘车时间依个体与方案的改变而改变，但乘车时间太长所带来的负效用是一致的。

根据多项 Logit 类似的推导可以计算，个体选择方案个概率为：

此模型称为条件 Logit （ Conditional Logit, CL ），也称为 McFadden 选择模型（ McFadden's Choice Model），来自于 McFaden 在 1974 年的文章。

条件 Logit 模型的估计方法与多项 Logiot 类似，都通过 MLE 估计以得到系数的估计值，不过在 CL 中，参数不依赖于参照方案，所以也不需要把的某个部分标准化为 0。

字面上理解，混合 Logit 模型就是糅合了 12.2 和 12.3 两种模型的特点而发展来的。很自然地，可以写出个体选择方案所能带来的随机效用：

其中，解释变量既随个体而变，也随方案而变；而解释变量仅随个体而变。经过类似的推导，可以计算出个体选择方案的概率为：

此模型在文献中称为混合 Logit 模型（ Mixed Logit ），但 Stata 仍称之为条件 Logit。为了识别模型，方程中也需要选择一个参照方案，并令。

对于以上三种模型，当方案本身的特质并不重要，或缺乏相关特征的数据时，常常使用多项 Logit 模型。如果需要考虑不同方案的特征，则应使用条件 Logit 模型或混合 Logit 模型。另外，在这些多值选择模型中，由于被解释变量的分布必然为多项分布（ multinomial distribution ），故一般不必考虑稳健标准误，使用普通标准误即可：这一点类似于二值选择模型。然而，如果数据时聚类样本，则仍需要使用稳健标准误。

需要注意的是，在多项 Logit 模型和混合 Logit 模型中，对参数估计值的解释是以参照方案（ base category ）为转移的（可以根据理论或方便来选择参照方案）。以多项 Logit 模型为例，假设“方案1”或“方案 “其中一个必然发生，那么在此条件下，“方案 ”发生的概率为：

上式与二值选择的 Logit 模型具有完全相同的形式。而几率比或相对风险为：

从条件概率可以看出，该条件概率并不依赖于其他任何方案——换言之，如果将多值选择模型的任何两个方案单独挑出来，都是二值 Logit 模型。此假定称为无关方案的独立性（ Idependence of Irrelevant Alternatives, IIA）。根据类似的推导，条件 Logit 模型也服从 IIA 假定。然而，在实践中，如果两个不同的方案之间十分接近，那么 IIA 假设不一定成立，这是多项 Logit、条件 Logit 与混合 Logit 模型存在的通病。

如果还是不理解，那么我们可以尝试去理解检验 IIA 的方法：豪斯曼检验，的基本想法：

也就是说，如果 IIA 成立，那么去掉某个方案以后的系数估计与全样本估计值没有系统性差别，为此 Hausman McFadden (1984) 提出了以下统计量：

其中，等于的维度。另外还有 Small Hsiao (1985) 也提出了检验 IIA 的方法，不过这两个方法的小样本性质都不好，故结论只具有参考价值。

计量经济学陈强答案-高级计量经济学陈强答案

高级计量经济学 14：二值选择模型(基础)

为了个人课题的进展，我会按照进度选择自己需要优先学习的内容😂不按照正常顺序的话不好意思啦！

此文内容为《高级计量经济学及STATA应用》的笔记，陈强老师著，高等教育出版社出版。

如果解释变量是离散的（比如，虚拟变量），这并不影响回归。但有时候被解释变量是离散的，而非连续的，这就让人很头疼了。

这类模型被称为离散选择模型（discrete choice model）或定性反应模型（qualitative response model）。另外，有时被解释变量只能取非负整数，比如企业在某个时间内所获得的专利数，这类数据被称为计数数据（count data），其被解释变量也是离散的。

考虑到离散被解释变量的特点，通常不宜使用OLS进行回归

假设个体只有两种选择，比如和。是否考研，取决于毕业生毕业后的预期收入、个人兴趣等等，假设这些解释变量都被集成在向量中。于是，最简单的模型为线性概率模型（Linear Probability Model，LPM）：

对的一致估计要求（没有内生性）。然而，这里有几个问题：

尽管 LPM 有上面所提到的各种缺点，但它的优点是计算方便，而且容易分析经济意义。于是，为了使的预测值总是介于之间，我们对 LPM 进行拓展：在给定的情况下，考虑的两点分布概率为：

于是，函数就被称为连接函数（link function），因为它将解释变量与被解释变量链接起来。由于的取值要么为 0 ，要么为 1 ，于是一定服从两点分布。

连接函数的选择有一定的灵活性，通过选择合适的连接函数可以保证，并将理解为 “ 发生的概率”，因为：

特别地，如果是标准的正态分布累计函数（cdf），则：

那么这个模型就被称为 Probit模型。如果是逻辑分布（logistic distribution）的 cdf ，即：

那么这个模型就被称为 Logit模型。

由于逻辑分布函数有解析表达式，而正态分布则没有，所以计算 Logit 模型通常比计算 Probit 模型更为方便。显然，这是一个非线性模型，可以用最大似然法估计（MLE）。以 Logit 模型为例，第个观测数据的概率密度为：

可以不分段地写成：

去对数，有：

假设样本中的个体相互独立，那么整个样本的 LLF （对数似然函数）为：

可以用数值方法求解这个非线性最大化问题。

需要注意的是，在这个非线性模型中，估计量并非边际效应（marginal effects）。以 Probit 为例，可以计算：

在这里使用了微分的链式法则（chain rule），并假设了为连续变量。由于 Probit 和 Logit 所使用的分布函数不同，所以其参数并不可以直接比较，而是需要分别计算二者的边际效应，然后进行比较。然而，对于非线性模型而言，边际效应本身就不是常数，它随解释变量的变化而变化。常用的边际效应的概念有：

以上三种边际效应的计算结果可能会有差异。传统上，计算样本均值处的边际效应比较简单；然而，在非线性模型中，样本均值处的个体行为通常不能代表个体的平均行为（average behavior of individuals differes from behavior of the average individual）。对于政策分析而言，平均边际效应比较有意义，也是 Stata 的默认方法。

既然并非边际效应，那他有什么经济意义呢？对于 Logit 模型，令，那么，由于，于是：

其中，被称为几率比（odds ratio）或相对风险（relative risk）。如果几率比为2，意味着的概率是两倍。对第二个等式的右边求导，我们可以发现的意义是：若增加一个微小的量，那么几率比的百分比则会增加。所以，可以把视为半弹性，即增加一个单位引起几率比的百分比的变化。

还有另外一个生物统计领域特别喜欢使用的意义，考虑从而变成了，于是新几率比与原先几率比的比率可以写成：

所以，表示引起的几率比的变化倍数。

事实上，如果比较小，两者方法是等价的（ Taylor 展开）。然而，如果必须变化一个单位（如性别、婚否），则应使用。另外，Probit 模型无法对系数进行类似的解释，这是 Probit 模型的劣势。

如何衡量一个非线性的模型的拟合优度呢？在不存在平方和分解公式的情况下，是无法计算的，然而 Stata 依然汇报一个准R2 （Pseudo ），由 McFadden (1974) 提出，其定义为：

其中，为原模型的 LLF 最大值，而为以常数项为唯一解释变量的 LLF 的最大值。由于是离散的两点分布，似然函数 LF 的最大可能值为 1，于是 LLF 的最大可能值为 0，记为。于是，必然有，于是。

另外一类判断拟合优度的方法是计算正确预测的百分比，实际上我认为目前机器学习领域的一系列常用的拟合优度如 MSE、MAPE 等都可以使用。

本节主要是复习高级计量12 和高级计量13 的内容。

总的来说，要对 Probit 和 Logit 模型进行统计推断，需要作如下假设：

下面我们对两种检验：对所有系数的联合检验和单个系数的独立检验进行说明

(1) 所有系数的联合显著性

在使用 Stata 时，会汇报一个 LR 检验统计量，检验常数以外的所有其他系数的显著性（即所有系数的联合显著性）。在高级计量13 ，我们已经推导出对 MLE 的系数的 LR 统计推断表达式：

上面的统计推断表达式仅依赖于样本 i.i.d. 和似然函数正确这两个条件，前者是为了应用大数定律和中心极限定理，后者是为了使用信息矩阵等式。

对于 Probit 和 Logit 模型，如果分布函数设定不正确，则为准最大似然估计（QMLE），那么我们要注意：

(2) 单个系数的显著性

在使用 Stata 时，也会汇报每个系数的 Std. err. 。如果要对单个系数的显著性进行推断，则需要使用高级计量12 的 6.5.2 节中的推导：

a. 在抽取的样本为 i.i.d. 的假设下，我们用大数定律和中心极限定理可以推导出：

b. 在分布函数设定正确的假设下（于是可是使用高级计量11 的证明3 ），可以进一步推导出：

前面已经提到，就算分布函数设定不正确，如果成立，那么在 i.i.d. 的情况下，稳健标准误就等于 MLE 的普通标准误。所以上面的等式只要成立就可以用了。

c. 如果，则 Probit 与 Logit 模型并不能得到对系数的一致估计。此时统计推断并无意义。

欲从上面的式子单个系数进行检验，显然需要未知的真实参数。于是我们可以根据高级计量12 的 6.6 的方法去处理，这里就不再赘述了。

访客
发布于 2022-09-28 15:45:00 回复

于 MLE 一致性的证明步骤，我们可以证明，其中称为准真实值（peseudo-true value），但通常。对于的大样本分布，可以用类似于 MLE 的推导证明：其中，和的表达式类

访客
发布于 2022-09-28 06:02:32 回复

离散选择模型（discrete choice model）或定性反应模型（qualitative response model）。另外，有时被解释变量只能取非负整数，比如企业在某个时间内所获得的专利数，这类数据被称为计数数据（count data），其被解释变量也是离散的。考虑到离散被

访客
发布于 2022-09-28 10:27:42 回复

，则虽然OLS 估计量是一致的且服从正态分布，但是无法使用小样本 OLS 进行假设检验。在这种情形下，就需要对扰动项是否服从正态分布进行检验。当然，如果是大样本，那就可以用渐近正态的理论处理，我们也不关心扰动项是否

访客
发布于 2022-09-28 08:30:53 回复

n rule），并假设了为连续变量。由于 Probit 和 Logit 所使用的分布函数不同，所以其参数并不可以直接比较，而是需要分别计算二者的边际效应，然后进行比较。然而，对于非线性模型而言，边际效应本身就不是常数，它随解释变量的变化而变化。常

访客
发布于 2022-09-28 04:53:02 回复

统计量为：其中，为约束条件的个数（即解释变量的个数），其证明在高级计量第6、7期有，大家可以回顾（也可以在我的上看），我在这里多嘴说一下如何理解它。我们从标量的情形开始。显然衡量了

黑客高手有哪些渠道可以找到怎么联系黑客高手

网络黑客