【原】如何在实证研究中操纵结果而不被发现?
问灵
阅读:26
2024-12-23 04:17:32
评论:61
如何在实证研究中操纵结果而不被发现?
作为科学研究过程,当然都不要操纵实证结果,尽管人人都有操纵的冲动
正文
关于下方文字内容,作者:廖小萱,广东外语外贸大学金融学院/中国人民大学应用经济学院,通信邮箱:xiaoxuan1223@outlook.com
1.因子模型及其在计量经济学学习中应用的最新研究进展, 2万字顶刊综述,2.实证横截面资产定价最新进展, 2.5万字顶刊最全综述,3.TOP5刊, 我国政府为什么对金融市场进行定期和密集的干预?
Todd Mitton, Methodological Variation in Empirical Corporate Finance, The Review of Financial Studies, Volume 35, Issue 2, February 2022, Pages 527–575.I document large variation in empirical methodology in corporate finance regressions in top finance journals. Although methodological variation allows for customization of empirical tests to fit specific theories, it can also enable excessive reporting of statistically significant results. For example, given discretion over 10 routine methodological decisions, a researcher could report that over 70% of randomly generated variables are statistically significant determinants of leverage at the 5% level. The methodological decisions that affect statistical significance the most are dependent variable selection, variable transformation, and outlier treatment. I discuss remedies that can mitigate the negative effects of methodological variation.
还记得这个么?常用的12种调变量显著性或调星星的方法
。
实证公司金融中的方法差异,文章来自于金融学Review of Financial Studies期刊上。
摘要
我记录了顶级金融期刊中公司金融回归的实证方法的巨大差异。尽管方法差异(methodological variation)允许定制实证检验以适应特定的理论,但它也可能使统计意义上的结果被过度报告。例如,考虑到对10项常规方法决策的自由裁量权,研究人员可以报告,在5%的水平上,超过70%的随机生成变量是杠杆率的统计显著决定因素。对统计显著性影响最大的方法决策是因变量选择、变量转换和异常值处理。我讨论了可以减轻方法差异负面影响的补救措施。
目录
本文着眼于由于研究者的选择方法(p-hacking)和发表偏见(publication bias)导致的方法差异对公司金融研究的影响。
首先,本文研究了文献中使用和接受不同方法的程度。发现实证公司金融方法有很大差异:因变量的选择缺乏标准化、控制变量的使用几乎没有一致性、其他方法决策,如是否将所有行业纳入回归和是否保留异常值也缺乏一致性。方法的差异一方面可以更精确地定制实证检验,另一方面如果选择方法没有理论指导,而是随机或策略性的,则会导致发表偏见。
其次,本文研究了方法差异如何影响因素系数的显著性。具体方法是先进行常规回归,再在其他方法不变下,改变一个方法进行回归。报告了每项方法决策下变量(随机/准随机/文献)的t统计量的平均变化。讨论了统计显著性对方法论的敏感性。
最后,本文讨论了因方法差异而导致的统计显著性过度报告的补救措施,如稳健性检验、规范检查、更多关注经济意义。
在实证公司金融领域,研究人员会做出许多常规的方法决策,这些决策会影响他们研究结果的重要性和统计显著性。理想情况下,研究人员在制定方法论决策时,会受到理论的指导,但当理论没有规定使用某一特定方法时,研究人员往往必须从文献中广泛使用和接受的多种方法中进行选择。当研究人员对方法决策有自由裁量权时,发表的论文可能代表了从许多可能的方法中选择所用方法的结果,以便报告具有统计显著性的结果。在研究过程中,有统计显著性的结果可以在两个层面上选出现发表偏见:研究人员之间和出版商之间。
在第一个层面上,研究人员可以通过选择方法来选择具有统计显著性的结果,这些方法允许他们报告所需的重要发现——这种做法有时被称为“p-hacking”。最近的许多论文都提醒人们注意资产定价文献中p-hacking的可能性,重点关注横截面回报异常,以及它们如何经得起复制、样本外检验或多假设检验。本文的重点是公司金融文献,这些问题仍然相对未被探索。
在第二个层面上,出版商可以通过对发表报告重要发现的论文保持偏见来选择具有统计显著性的结果。Kim和Ji(2015)、Harvey、Liu和Zhu(2016)、Harvey(2017)以及Morey和Yadav(2018)记录并讨论了金融期刊如何倾向于发布具有统计显著性的结果。当出版商有偏见时,即使没有研究人员参与p-hacking,方法上的差异可能会导致误导的显著性结果的研究的发表。换句话说,即使所有研究人员都是道德的、勤奋的、透明的,方法上的差异也是有问题的。如果多个研究人员独立研究同一个假设,每个研究人员使用不同的方法,那么基于产生显著结果的方法的研究结果可能会被公布,而其他同样有效的但不显著的研究结果仍然未知(Denton, 1985;Gelman and Loken, 2014)。事实上,研究人员甚至可能不会提交结果在统计学上不显著的论文,因为它们不太可能发表或引用,这被称为“文件抽屉(file drawer)问题”的效应(Rosenthal, 1979)。当文章的读者不知道在研究过程中由于p-hacking或发表偏见而被丢弃的其他发现时,他们对发现的重要性和稳健性的推断可能会被高度扭曲。
在本文中,我评估了方法差异对公司金融研究的影响。首先,我研究文献中使用和接受不同方法的程度。在2000年至2018年间排名前三的金融期刊中,我在604篇文章中发现了954个回归,其中因变量是研究的最常见的公司金融结果之一:盈利能力、公司价值、杠杆、投资、支出或现金持有。(给定文章中同一类别的所有回归都算作一个回归。)在样本期内,TOP3期刊中这类回归的发生率大大增加,从2000年的8个回归到2018年89个回归。我研究回归样本并记录与样本选择(sample selection)、变量转换(variable transformation)和模型规范(model specification)相关的常见决策中使用的方法。
我的研究结果表明,实证公司金融在方法上存在很大差异。变异性的一个关键来源是因变量选择缺乏标准化。例如,研究人员使用了61个独特(unique)的盈利能力指标作为因变量,包括26个独特的资产回报率(ROA)定义。我发现其他类型的回归也有类似的可变性,杠杆回归的独特因变量最多(96),现金回归的独特因变量最少(9)。我还发现,替代因变量之间的相关性通常不是很高。每个类别中最常见的10个因变量之间的中位数相关性为0.33,这表明因变量选择通常会对回归结果产生很大影响。
方法差异的另一个来源是控制变量包含(control variable inclusion)。例如,在价值回归中(例如,以托宾q为因变量),公司规模是一个单独的控制变量,通常用于样本中84%的价值回归。即便如此,在衡量企业规模时,资产、销售额或其他方面也存在很大差异。一些控制变量如投资、杠杆率和盈利能力大约有一半的时间包含在内,其他控制变量偶尔也包含在内。总的来说,我发现,在任何回归的类别中,控制变量的使用都没有什么一致性。
我还记录了其他方法决策缺乏一致性。例如,研究人员在大约一半的时间里将所有行业纳入回归,在大约一半的时间里将某些行业(如金融公司)排除在外。在整个样本期内,研究人员保留异常值的频率与他们缩尾处理(winsorize)异常值的频率大致相同,在处理异常值时,他们使用了各种截止值(cutoffs)。我还报告了滞后变量(lagging variables)、将连续变量转换为虚拟变量、变量取对数(logging variables)和定义行业方面的方法差异。对于一些决策,例如异常值处理,随着时间的推移,对方法论的共识似乎正在建立,但对于大多数决策,我发现文献中没有达成共识的趋势。
综上所述,我的研究结果表明,研究人员在进行实证检验时有多种方法可供选择。一方面,这种方法上的差异可能对研究人员有所帮助,使他们能够更精确地根据正在检验的理论定制实证检验。例如,数据库技术可以帮助计算机研究人员探索公司金融和经营业绩的复杂细节。在某种程度上,研究人员基于理论的决策,观察到的方法差异可能是完全合适的。另一方面,如果研究人员在选择方法时没有理论指导,如果方法是随机选择的(甚至是策略性选择的),那么方法上的变异会导致选择性报告,这是由于p-hacking和发表偏见造成的。为了理解方法论在多大程度上受到理论考虑的指导,我搜索了604篇文章的样本,以解释为什么要做出方法论决策。我发现,作者通常会对关键决策不予解释。例如,作者们在22%的时间里解释了他们选择因变量的原因,在6%的时间里解释了他们处理异常值的方法,在19%的时间里解释了为什么他们将连续变量转换为虚拟变量。尽管研究人员在做出某些决策时可能没有明确的理论动机,但现有证据表明,大多数方法论决策都是在没有理论指导的情况下做出的。
接下来,研究方法变量如何影响盈利能力、公司价值、杠杆、投资、支出或现金持有的假设决定因素系数的统计显著性。我的程序是首先使用最常用的方法,将一个结果变量回归到一个假设的决定因素上。然后,我改变一个二元方法论决策,同时将所有其他决策保持在最常用的方法论,并重复回归。我对14个不同的决定做了这项研究,我记录了假设的决定因素的t统计量随着方法的每次变化而变化的程度。通过对大量假设的决定因素重复这个过程,我可以估计决策对解释变量统计显著性的平均影响。
在我的第一组检验中,“假设”的决定因素是纯粹的随机正态分布变量。对于每一类回归,我随机生成1000个解释变量,并检验每个变量对统计的影响。我报告了每项方法决策的1000个变量的t统计量的平均变化。请注意,t统计量的平均变化取决于每个方法差异对回归基础数据的破坏程度。我表明,在理论上,对于随机生成的解释变量,t统计量的预期变化可能高达1.13(对于破坏性变化)或低至0.00(对于无害变化)。例如,如果(而不是方法上的典型变化)原始解释变量被一个全新的随机生成变量替换,则t统计量的平均变化预计约为1.13。相比之下,对于一个非常微小的变化,例如将解释变量四舍五入到小数点后第二位,t统计量的平均变化预计约为0.00。在我的检验中,实际的方法决定在这个范围内有不同的影响。例如,异常值处理是一个非常具有破坏性的决定。在盈利能力回归(profitability regressions)中,缩尾处理(winsorize)或保留异常值的决定平均将t统计量改变1.11,这意味着异常值处理对回归的破坏性几乎与非解释性变量产生的破坏性一样。因变量选择也非常具有破坏性;在盈利能力回归中,将因变量从最常用的ROA指标改为最常用的股本回报率(ROE)指标会使t统计量平均改变0.93。在规模的另一端,决定使用两位数的SIC行业虚拟变量(industry dummies)或Fama-French行业虚拟变量对t统计数据的影响很小,盈利能力回归平均为0.10。我使用其他类型的随机生成变量——对数正态分布变量、虚拟变量和DID变量——重复这些检验,并发现类似的结果。
我还使用准随机的“假设”决定因素重复这些检验;我使用实际的Compustat数据创建解释变量,但通过从随机选择的Compustat数据项创建比率变量(ratio variable),如Yan和Zheng(2017)以及Chordia、Goyal和Saretto(2020)中所述。在这些检验中,由于Compustat数据项之间的潜在相关性,t统计量的预期变化上限不再是1.13,我的检验表明,t统计量的变化远大于纯随机解释变量的变化。例如,在盈利能力回归中,将异常值缩尾处理平均改变t统计量12.86,将因变量从ROA改变为ROE平均改变t统计量12.31。
我还使用文献中的实际假设决定因素重复这些检验,重点是杠杆作为因变量。我从以前的研究中收集了65个杠杆率的决定因素,并观察了方法的改变如何影响这些发现的统计显著性。对t统计量的影响程度介于纯随机解释变量和准随机统计变量之间。例如,对异常值进行缩尾处理平均会使t统计量改变3.74,将因变量从账面杠杆改变为市场杠杆平均会使t统计量改变3.91。
接下来,我将记录方法上的差异能在多大程度上促成具有统计学意义的发现。我考虑的是,如果研究人员对一组方法决策具有决定权,那么他(或一组独立研究同一问题的研究人员)是否能够证明,给定的解释变量在统计上是一个重要的决定因素,例如,盈利能力。我首先表明,仅使用最常用的方法,纯随机解释变量是随机概率预测的重要变量:约10%的时间在10%显著性水平上,5%的时间在5%水平上,1%的时间在1%水平上。然后我逐渐地允许方法上的自由裁量权。允许研究者使用最常见的因变量或第二常见的因变量的一个二元方法决定,给了研究者两种方法组合的选择,有了这种自由,研究人员可以报告随机生成变量的统计显著性,在10%的水平上有15%的时间,在5%的水平上有7%的时间,在1%的水平上有2%的时间(在所有类型的回归中)。随着更多方法上的自由裁量权被允许,这些百分比逐渐增加。当研究人员对10个二元方法决策拥有自由裁量权时,94%的随机生成变量在10%水平上具有显著性,至少有一个方法组合,73%在5%水平上具有显著性,23%在1%水平上具有显著性。
显著性假设的高百分比说明了统计显著性对方法论的敏感性;然而,它们不应被解释为某一假设得到可信支持的可能性。防止报告虚假结果的保障措施包括稳健性检验(robustness checks)、编辑审查过程(editorial review process),以及可能会有脆弱的结果受到后续论文的挑战。此外,研究人员可以通过使用多种方法来检验一个假设来增加对他们发现的信心。尽管如此,考虑到10个二元决策只是研究人员可用方法的一小部分,这些结果表明,在判断任何单一发现的统计显著性时,需要非常谨慎。
最后,我讨论了因方法差异而导致的统计显著性过度报告的补救措施。稳健性检验是针对脆弱结果最常用的防御手段,我将说明它们在多大程度上限制了虚假显著结果的报告。我关于哪些方法决策最具影响力的发现,为研究人员和审稿人员在评估稳健性时应该将注意力集中在哪里提供了指导。我还讨论了稳健性检验可能存在的缺点。如果不加区别地使用,可能会导致假阴性结果。此外,稳健性检验的实践往往没有认识到稳健性通常是一个程度的问题。为了说明这一点,我使用512种最常见的方法组合检验了65个提议的杠杆决定因素。我发现在所有512个规范中,65个建议的决定因素中只有一个具有统计显著性(在10%或更高水平)。平均而言,每个决定因素在43%的规范中都是显著的。这些发现表明,研究人员不应该把重点放在捍卫结果的稳健性上,而应该更多地理解为什么结果在某些规范中是稳健性的,而在其他规范中不是。
标准稳健性检验的替代方法是同时报告各种方法可能性的结果,这种方法有时被称为“规范检查”(specification checks)。与稳健性检验相比,规范检查有一定的优势:它们更系统化,它们可以同时展示沿多个维度改变方法的效果,并且可以简洁地传递大量信息,通常是以图形形式。为了证明这些优势,我给出了资本结构(capital structure)文献中的一些例子,这些例子以图形方式说明了不同提议的决定因素的不同稳健性模式。
另一项建议是,研究人员应减少对统计显著性的关注,而更多地关注结果的经济意义。除了能更好地表明实证结果的重要性外,经济意义不太容易受到规范搜索(specification searching)的影响。我还讨论了其他几种补救措施。总之,这些建议有助于减轻方法差异的负面影响。
为了更好地理解公司金融文献中当前的方法实践,我调查了顶级金融期刊上的文章。公司金融中的回归研究了各种各样的因变量,我重点讨论了文献中报道的六种最常见的回归类型:因变量为盈利能力、公司价值、杠杆、投资、支出或现金持有量的回归。
我检查了Journal of Finance, Journal of Financial Economics和Review of Financial Studies 2000年至2018年报道的六个常见类别的所有回归。图1显示了六个类别中每年报告的回归数。在这些统计数据中,特定类别的回归(例如盈利能力回归)在任何给定的文章中只计算一次,而不管文章中报告了多少不同的规范或稳健性检验。所有类别样本中的回归总数为954。图1显示,在这一时期,这些类型的回归成为文献中更重要的组成部分。2000年,所有六个类别加起来只报告了八次回归。在随后的几年中,这些回归的数量急剧增加,2017年和2018年每年都超过80次。
在此期间,这些期刊每年发表的论文总数从2000年的181篇增加到2018年的299篇。然而,即使用文章总数来衡量回归数,所有类别的回归发生率也增加了七倍多,从2000年的每篇文章0.04增加到2018年的每篇文章0.30。
图表 1 顶级期刊中的公司金融回归
Journal of Finance, Journal of Financial Economics和Review of Financial Studies上发表的文章中报告的公司金融回归(所示类别)的数量,按年份分列。一篇文章中同一类别的多元回归被视为一次回归。
虽然样本中的每一个回归都可以被划分为一个特定的回归类别,但每个类别中使用的因变量差异很大。不同测量方法的可用性有利于研究,因为因变量的选择可以与被检验的理论紧密一致。例如,研究人员进行杠杆回归的共同目标是了解哪些因素会影响公司的债务使用,但根据具体情况,因变量可以从总债务比率、短期债务比率、长期债务比率等中选择。然而,为因变量选择分子和分母的灵活性也可能导致测量值的激增,超出了匹配每一个检验理论背景所需的范围。在本节中,我记录了样本中不同因变量的出现情况,并报告了替代因变量之间的相关性。
表1报告了样本中回归中因变量使用的统计数据。对于每一类回归,列出了10个最常见的因变量,以及每个因变量的出现次数和占总出现次数的相应百分比。在这10种措施的下面,我报告了文献中也使用的其他独特措施的数量。因变量之间的一些差异没有反映在表1中,包括因变量是否经过行业调整或一阶差分。
表格 1 实证公司金融的当前实践:因变量
表1展示了所使用的各种因变量,但如果备选方案高度相关,则因变量的选择可能不会显著改变回归结果。表2中报告了最常用的独立变量之间的相关性。表格显示,尽管某些因变量高度相关,但总体而言,替代因变量之间的相关性并不特别高,表2中所有相关性的中位数(平均值)为0.33(0.38)。在每个类别中最常用的三个因变量中,盈利能力的平均相关性为0.95,公司价值的平均相关性为0.39,杠杆率的平均相关性为0.55,投资的平均相关性为0.18,支出的平均相关性为0.63,现金持有的平均相关性为0.73。测量子类别之间的相关性往往高于某一类别中的总体相关性,但不会高得多。例如,D组所有投资指标之间的平均相关性为0.17,而实物投资指标之间的平均相关性为0.21,研发指标之间的平均相关性为0.26。E组中所有支付指标之间的平均相关性为0.26,股息指标之间的平均相关性为0.46,回购指标之间的平均相关性为0.15。
即使两个替代因变量之间的相关性为1.00,用一个替代另一个可能并不总能给出相同的回归结果,因为数据库中可能缺少一个测量值的观测值,而不是另一个。例如,息税前利润/总资产和营业收入/总资产的相关性为1.00,在Compustat数据中,它们几乎总是相同的(四舍五入误差内)。尽管如此,在1963年至2018年期间,Compustat的11000多个公司年度观察数据缺少息税前利润,但没有缺少营业收入。
表格 2 常用因变量的相关性
样本中的回归也显示出控制变量包含的大量差异。表3的A组报告了样本中954个回归中最常用的10个控制变量的使用率。A组显示,企业规模是迄今为止最常用的控制变量,正如它出现在79%的回归中,并且是所有六类回归中最常见的控制变量。除了公司规模,控制变量的使用几乎没有一致性。下面四个最常见的控制变量反映了实证公司财务的循环性质:盈利能力(使用率53%)、公司价值(45%)、杠杆率(38%)和投资(27%)。每种类型的控制变量都使用了许多不同的代理,这一事实加剧了控制变量使用的不一致性,这是A组中未报告的一个变量来源。
由于公司规模是迄今为止使用最多的控制变量,表3的B组进一步描述了使用的规模度量。B组显示了规模度量使用方面缺乏标准化。最广泛使用的规模度量是log(total assets),它在44%的回归中使用,并且在六个类别中使用最频繁。接下来两个最普遍的规模度量是log(sales)和log(market value),分别为13%和9%。
表格 3 实证公司金融的当前实践:控制变量
在检验假设时,研究人员通常会面临许多其他方法上的决定。理想情况下,每个决策的适当方法取决于检验所依据的理论或数据的性质,但有时理论可能对一个决策保持沉默,或者可能存在多个理论上可接受的替代方案。在表4中,我报告了在我的文章样本中为许多常见决策选择的备选方案的统计数据。
表格 4 实证公司金融的当前实践:其他方法决策
我对文献的调查并没有涵盖所有可能的方法决定。其他重要问题包括工具变量选择(Harvey, 2017)、交互项的使用(Christensen和Miguel, 2018)或子样本(Gelman和Loken, 2014)、样本中包含的时间段,以及估算方法的选择(Harvey, 2017)。
表1、3和4中记录的各种方法提出了一个问题,即研究人员选择一种方法替代方案的动机。方法上的差异有助于研究人员使用不同的方法来适应特定的理论。不同的情况可能意味着异常值处理、变量转换和其他决策的不同优化程序。然而,如果研究人员不以理论为指导,那么方法上的变化可能只会给研究过程增添噪音。为了了解研究人员是如何做出这些决定的,我研究了文章样本,以确定作者是否为他们的方法论决定提供了解释。我报告作者是否对该决定提供了具体解释,是否说他们的决定遵循了之前的文献,或是否没有对他们的决定提供解释。我不试图评估所述理由的有效性。
表5显示,对于许多方法决策,绝大多数文章都没有给出做出决策的理由。例如,第1行显示,当为因变量选择代理时,作者在10%的时间里陈述了他们选择的原因,说他们在13%的时间里遵循了之前的文献,在78%的时间里没有提供任何原因。第2行显示,在将公司规模作为控制变量的63%案例中,没有给出这样做的解释,第3行显示,在92%的案例中,没有给出所选特定规模代理的解释。值得注意的是,第7行显示,研究人员在131个案例中将连续的关键解释变量转换为虚拟变量,但81%的情况下,他们没有说明这样做的原因,尽管事实上这样做会丢弃有价值的信息。第10行和第11行显示,研究人员在不到10%的时间里解释了他们对异常值处理和异常值截止值的决定。
因此,现有信息表明,缺乏理论指导为公司金融的方法选择留下了很大的余地。当然,作者省略解释可能不是因为缺乏理论依据,而是为了避免解释他们认为例行或不重要的内容,或者缩短论文长度。另一方面,即使作者提供了理论解释,也不一定意味着理论仅限于一种可能的方法。无论如何,应该强调的是,缺乏理论解释并不意味着不道德的研究实践。这确实意味着,对公司金融的研究需要进行大量的可接受和可辩护的方法选择。这种方法上的灵活性给推断带来了挑战,即使是在原则性很强的研究人员中也是如此。
表格 5 实证公司金融的当前实践:方法决策的解释
图2显示了一段时间内方法决策的趋势。我不报告表1、3和4中所涵盖的所有决策的趋势,因为许多模式并不特别显著。
图表 2 公司金融实证方法的发展趋势
根据表1、3和4中报告的数据,我指定“最常用的方法”由以下几点组成:使用最常用的因变量。包括大多数回归中使用的所有控制变量。使用log(total assets)作为规模控制。包括样本中的所有行业。不要log解释变量。使用同期解释变量。断尾处理(Winsorize)非指标变量在第1/99百分位。不要log因变量。对流量/存量因变量使用年末分母。最后,当控制行业时,使用两位数的SIC行业虚拟变量。这些决定将作为下一节检验的基准方法。
在本节中,我评估了方法差异对公司金融回归系数统计显著性的影响。
在分析中,我使用Compustat数据库中的数据作为因变量和控制变量。我的样本中77%的文章使用了Compustat数据。为了避免回补偏差,我排除了1963年之前的观察结果,并且我要求一家公司在将其纳入样本之前在数据集中出现两年。由此产生的数据集包括1963年至2018年间超过40万个公司年度的观察结果,尽管可用观察结果的数量因不同变量而异。Compustat变量的定义和汇总统计数据见附录表。
为了评估使用替代方法对统计显著性的影响,我进行了以下形式的面板回归:
表6报告了改变方法时t统计数据的平均变化。
表格 6 改变方法时t统计量的变化:随机生成的解释变量
作为纯随机解释变量的替代方案,我通过随机组合来自Compustat的数据项来创建解释变量。创建这些解释变量的程序来自Yan和Zheng(2017)以及Chordia、Goyal和Saretto(2020),他们使用随机的Compustat项目来检验假设的交易策略。我通过从Chordia、Goyal和Saretto(2020)的173个数据项中随机选择一个分子来创建比率解释变量,然后从Yan和Zheng(2017)的15个标度变量中随机选择一个分母,来创建比率解释变量。对于每一类回归,我不允许使用与因变量有明显相关性的分子。例如,我不允许在支出回归中使用股息度量(Compustat代码dv、dvc、dvp、dvpa、dvt),也不允许在现金回归中使用现金度量(ch、che、chech)。我为每一类回归创建了1000个这样的解释变量,我重复了检验每一种替代方法对t统计量的影响的程序。
与纯随机解释变量相比,准随机变量是从实际企业层面的数据中创建的,因此我们预计解释变量和因变量之间会出现频繁的相关性,即使Compustat数据项是随机选择的。由于这些潜在的相关性,t统计量的分布不再是标准正态分布,t统计量的预期变化不再以1.13为界。附录表报告了在这些检验中进行的所有回归的t统计量汇总统计数据。统计学证实,平均t统计量从零开始变化,t统计量的标准差远高于1。此外,在所有进行的回归中,超过70%的准随机变量系数在10%的水平上具有统计显著性。
这些检验的结果见表7。为了简洁起见,我只报告公司固定效应的结果,因为表6显示的结果与公司或行业固定效应相似。这些决定再次从影响最大到影响最小列出。表7显示,使用Compustat解释变量时,各种方法差异的统计数据的平均变化要高得多。表7表明,当解释变量和因变量具有潜在相关性时,方法差异对t统计量的影响可能要大得多,而不是将其构建为独立变量时,如表6所示。
表格 7 改变方法时t统计量的变化:Compustat项的随机组合
我还检验了现有文献中实际变量系数的t统计量方法差异的影响。在本节中,我们将编译一组65个变量,这些变量在其他文章中被提议作为杠杆的决定因素。这些决定因素来自大量研究,为了简洁起见,我并没有讨论每一个决定因素。在65个变量中,49个是连续变量,16个是虚拟变量。我检验变量的方式与表6和表7中的检验相同,具有固定的效果。
这些检验的结果见表8。一般来说,这些检验中方法决定的影响大于纯随机解释变量的影响(表6),但小于从Compustat项目创建的准随机变量的影响(表7)。
表格 8 改变方法时t统计量的变化:杠杆率的拟议决定因素
我现在评估了多个方法决定对随机假设被发现具有统计显著性的概率的累积影响。由于没有方法上的灵活性,在10%的显著性水平上,随机假设应该在10%的时间内显著。但是,如果一个随机假设用多种方法进行多次检验,那么其中至少一种方法产生显著系数的概率将上升到10%以上,当方法差异对原始回归更具破坏性时,概率增加得更多。
图3显示,在没有方法决策的情况下,大约10%的随机假设在10%水平上是显著的,在5%水平上约为5%,在1%水平上约为1%。随着更大的方法论自由裁量权被允许,这些百分比从左到右增加,与更具影响力的决策被允许的点相对应,增加幅度更大。
图表 3 对至少一种方法显著的随机假设
稳健性检验通常用于确保报告的结果不依赖于特定的方法。当一个给定的假设需要在多个规范中具有统计显著性时,它会降低假设作为统计显著性结果出现的概率。图4显示了稳健性检验在多大程度上降低了发现统计上显著假设的概率。图4左边的第一组点显示了当研究人员对所有10种方法的决定都有自由裁量权时,至少一种方法组合可以显示出统计显著性的随机假设的百分比。随着分数从左向右移动,研究人员仍然对这10项决定有自由裁量权,但他们也需要证明,随着这10项决定数量的增加,结果会发生变化。
图4显示了三个关键点。首先,当需要适度数量的稳健性检验时,仍然相对容易找到允许报告显著结果的方法组合(图中的假设是研究人员选择报告哪些稳健性检验)。第二,随着所需的稳健性检验数量的增加,发现显著结果的概率也随之降低。第三,随着稳健性检验数量的增加,可以显示出显著性的假设数量最终趋向于零(低于10%/5%/1%的基线)。该图在10次稳健性检验时停止,此时,随机假设在10%水平上的显著性时间为3%,在5%水平上的显著性时间为1%,在1%水平上的显著性时间为0%,但增加稳健性检验次数将进一步降低发现显著假设的概率。
图4说明了稳健性检验的一个缺点:虽然它们明显降低了假阳性结果的概率,但如果过度和不加区别地要求,它们也可能导致假阴性结果。一个假设很少能经受住每一次合理的稳健性检验。事实上,Harvey(2019)警告称,如果人们足够努力,可能会出现“反向p-hacking”,或者发现与任何假设相矛盾的规范。
稳健性检验的第二个缺点是,尽管几十年来它们一直被定期使用,但它们并没有解决选择性报告具有统计显著性结果的问题。Christensen和Miguel(2018)注释:在应用经济学中更多地使用额外的稳健性检查是为了限制规范搜索的范围……但目前尚不清楚这些变化在减少实践中的偏差方面有多有效…Brodeur等人(2016)发表的对近年来三大顶级经济学期刊上641篇文章的分析仍然显示出令人不安的双峰分布p值,相对较少的p值在0.10和0.25之间,远远低于0.05。
稳健性检验的第三个问题是它们不是很系统。研究人员无法检验所有可能的方法组合,因此研究人员报告的稳健性检验集可能会有意或无意地呈现变量稳健性的扭曲画面。审查过程有助于确保研究人员不会错过重要的稳健性检验。然而,文章往往只讨论确认报告结果的稳健性检验。
图表 4 通过稳健性检验的随机假设
另一种解决方法差异的方法是报告不同方法组合可能产生的全部结果。Brodeur, Cook和Heyes(2020b)将此类分析称为“规范检查”,他们的程序包括使用所有可能的方法组合进行回归,以图形形式报告获得的结果分布。
规范检查的一个优点是,在图形上显示同时改变许多不同方法对统计显著性的影响,而稳健性检验通常报告一次改变一种方法的结果。规范检查可根据需要扩展到不同的方法组合。规范检查的一个缺点是,要检验的一组决定仍然由研究人员自行决定,研究人员可以有意或无意地仅包括支持假设的方法。然而,与稳健性检验相比,规范检查是评估结果有效性的更系统、更全面的方法。
研究人员应对方法差异负面影响的一个重要方法是减少对统计显著性的强调,而更多地强调经济意义。虽然众所周知,统计显著性并不衡量实际重要性,但经济意义的讨论往往比统计显著性的讨论逊色,这可能是因为统计显著性更容易衡量,或者是因为统计重要性的标准化三个阈值使其能够显示显著的结果。然而,经济意义最终是更相关的衡量标准;我们不仅想知道一种效应在统计学上是否可检测,而且想知道它对现实世界的影响有多大。此外,Mitton(2021)表明,具有经济意义的指标比具有统计显著性的指标更不受方法差异的影响。因此,关注经济意义不仅会强调更相关的措施,还会削弱发表偏见和p-hacking的动机。
文献中还提出了其他一些减轻方法差异负面影响的建议。首先,研究人员应该透明地报告研究过程中进行的所有检验,而不仅仅是那些支持被检验假设的检验。其次,研究人员应该在查看数据之前概述研究框架(包括关于方法的决定)。第三,研究人员应公开用于生成结果的数据(如果可能)和代码(见Harvey(2019))。
最后一个建议是,研究人员应努力适应多种检验。理想情况下,采用多种可接受方法的检验应被视为多重检验,并进行统计校正,如处理多重假设或多重比较时所需的校正(Gelman和Loken,2014)。Harvey, Liu和Saretto(2020)讨论了金融研究中调整多重检验的替代方法。不幸的是,尽管重要性的阈值需要更严格,但由于如何解释几乎无穷无尽的方法排列的模糊性,知道如何调整多种方法的阈值尤其困难。事实上,部分出于这个原因,Simmons, Nelson和Simonsohn(2011)认为这种调整是不切实际的。
随着公司金融实证研究的大量涌现,确定哪些研究结果真正重要至关重要。本文的结果表明,统计显著性不足以证明实证结果是重要的。除了统计显著性不能衡量实际重要性这一事实之外,我的检验表明,统计显著性系数通常可以通过在不同维度上改变经验方法来产生。因此,尽管各种各样的方法使研究人员能够灵活地定制实证检验,以与正在检验的理论紧密匹配,但它也可能导致p-hacking和发表偏见。目前尚不确定p-hacking在该行业中的发生程度,但发表偏见有充分的记录,仅此一点就足以让方法的灵活性给统计推断带来问题。
我的分析指出了几种缓解方法差异负面影响的方法。研究人员应该采用稳健性检查,同时在全面而不过度地应用它们之间取得平衡。研究人员应该认识到,很少有研究结果在所有维度上都是可靠的,并且花更多的时间理解为什么结果在某些维度上是脆弱的,而不是简单地捍卫结果的可靠性。研究人员应该使用规范检查作为一种更全面、更系统的方法来评估结果的稳定性。此外,研究人员应该更多地关注结果的经济意义,而不是统计显著性。通过遵循这些建议,以及其他讨论的建议,研究人员可以帮助避免因方法差异而产生的扭曲推论。