国际政治科学,2017, 2(3): 1-32
定量预测的风险来源与处理方法*——以“高烈度政治动荡”预测研究项目的再分析为例
庞珣
 
【摘要】  近年来我国国际关系学界对预测研究的兴趣迅速增长。国际关系预测有其较高的学术创新潜力和政策应用价值,应成为我国国际关系学科的一个重要的研究方向。科学预测基于对现有信息的分析,对未来尚未发生的事件进行判断,是风险较大的研究工作,对于包括国际关系在内的社会科学来说更是如此。本文在社会科学的普遍框架下,探讨了国际关系定量预测的风险来源及其处理方法,并对“高烈度政治动荡”预测研究项目(Political Instability Task Force)进行评述和再分析,修正原研究在风险控制和预测评估方面的缺陷和不足,运用新方法进行多模型平均预测来降低预测中最为棘手的模型风险。通过理论探讨和实例分析,本文旨在强调国际关系定量预测研究对预测风险进行过程控制和结果评估的重要性,并以此管窥现有大量用于处理和评估预测不确定性的定量工具,包括进行变量选择、模型比较、模型平均的多种方法。
【关键词】  预测 ; 定量方法 ; 风险 ; 贝叶斯模型 ; 政治动荡

【Abstract】 
 

近年来我国国际关系学界对预测的研究兴趣迅速增长,尤其是随着“一带一路”倡议的提出,对中国投资潜在东道国的政治环境进行预测性评估和预警,是中国对外政策的迫切需求,也成为我国国际关系学界的热点研究领域。然而,预测研究长期以来并非社会科学研究的主流,对于中国国际关系传统而言更是陌生。随着大数据社会分析的兴起,预测研究在社会科学中将占据越来越重要的地位,各国政府的外交决策也越来越重视预测研究的辅助作用。1国际关系预测研究有较广阔的学术创新前景和较大的政策应用价值,应成为我国国际关系学科的一个重要研究领域。提升预测研究的规范性和严谨性,对学科的未来发展具有重要影响。

定量预测是社会科学预测研究的主要方法之一,运用统计方法对已知信息(数据)进行分析,从而对未来的事件进行概率判断。统计方法建立在概率论基础上,对随机变量的变化及多个变量的相互关系进行刻画,本质上是对趋势进行研究和对不确定性进行表达的方法。因此,定量方法适用于具有高度不确定性的社会现象的预测。然而在国际关系研究的实践中,研究者却通常忽略对定量预测的不确定性——即预测的风险——进行分析和报告,往往集中关注点预测(单一预测数值),并将其解读为似乎具有高度确定性的预测结果。缺乏对预测不确定性的正确认识和足够重视,忽视对预测风险进行控制与处理,不仅会阻碍研究者对定量预测方法优势的挖掘和应用,还有损于研究的科学性和应用价值。

本文探讨了国际关系定量预测的风险来源及其处理方法,并对“高烈度政治动荡”预测研究项目(Political Instability Task Force,简称PITF)进行评述和再分析,修正原研究在预测风险控制和评估方面的缺陷和不足,运用新方法进行多模型平均预测来降低预测中最为棘手的模型风险。通过理论探讨和实例分析,本文旨在强调使用国际关系定量预测对预测风险进行控制和报告的必要性和重要性,并以此管窥现有的多种可用于处理和评估预测不确定性的统计工具,如变量选择、模型比较、模型平均等方法,以便预测研究者们掌握和运用。

一、国际关系预测:风险过高的事业?

长期以来,社会科学的主流研究是解释性研究,将理解事件发生的过程和解释其原因作为核心研究任务,要求只对已发生的事件进行科学描述和解释,具有“向后看”的研究传统,避免将研究精力放在尚未发生的未来。2国际关系学者也是如此,尽管他们经常对政治事件进行预判,但大多数人则着意回避进行以预测为主要任务的研究工作。而当他们进行预测时,其犯错率之高,似乎更佐证了社会科学不应进行预测的训诫。菲利普·特忒洛克(Philip E. Tetlock)在2005年出版的Expert Political Judgment: How Good Is It? How Can We Know?一书,在政治学界引起强烈反响。该书追踪和评估了284位政治学专家在过去20年内作出的超过8万次的预测,发现专家预测的正确率与随机抛硬币不相上下,尤其那些公众可见度高的专家所作的博眼球的预测,“比猩猩掷飞镖的命中率还要低”。3但是,特忒洛克著作中的预测并不是严格意义上的预测研究,而是专家预判(expert's judgment),因此他研究分析得出的结论并非对社会科学预测进行否定,而是由此主张以系统的科学预测来代替专家判断式的预测。对预测的态度需要区分科学预测和非科学预测。正如路易斯-贝克(Michael S.Lewis-Beck)所言:“预测分为科学预测和非科学预测。后者包括基于预感、直觉、幻想、随意交谈、非系统性访谈、内部消息和巧合等对未来的猜测,而前者是基于科学程序对未来的估计,包括计算模拟、市场分析、取样民调和统计模型等方法。”4但即使运用系统的科学方法,预测仍是社会科学的软肋。罗伯特·瑙(Robert Nau)曾说:“如果靠水晶球谋生,最终得吞下碎玻璃。”5

国际关系研究是应该回避还是克服预测的困难?对这个问题的不同回答反映了对预测研究的可能性、可行性和学术价值的不同理解。反对国际关系预测研究的主要理由可以大致概括如下:预测是应用性研究而非理论研究,缺乏学术性;科学研究本质上是向后看而非向前看;与物理世界具有相对稳定而简洁的规律不同,国际关系现象过于复杂多变,超过了科学能够预测的范围6;国际关系现象或可预测,但预测研究的任务过于艰巨,失败的风险太大7;等等。国际关系预测研究的支持者则认为,如果国际关系是“科学”的话,预测不但是研究者理应承担的研究工作,而且是无法回避的研究任务。如波普尔(Karl R.Popper)所言,预测能力是判断理论优劣的指标之一,科学研究需要进行具有失败风险的预测,预测不仅是科学的任务,也是科学的试金石。要乐于和勇于作出具有失败风险的预测,让真科学区别于伪科学。而伪科学的一个特点就是,在面对任何实际发生的结果时,它们都能够用自己的那一套来解释得圆满。8虽然社会现象的复杂多变胜于自然现象,但这只是预测风险高低的问题,而不能将社会现象视为预测范畴之外的存在。此外,真正有价值的研究是从已知探索未知,正如解释性研究也是用已知的样本探知未知的总体,“成功的预测深具价值,因为它超越我们直接的已知,但正因为如此,预测是具有风险的”。9未能够“成功”预测重大社会事件的发生——如对最近美国大选的预测——并不能否定预测的价值和科学性。失败的预测不过是凸显了社会科学研究的复杂性和艰难程度。

二、定量预测的不确定性和风险来源

预测研究的科学方法大致分为三种。第一种是物理方法(physical method),即运用物理性或类似的简洁确定的定律来进行预测。第二种方法是统计方法(statistical method),是基于数据和统计方法对未来的事件和情形进行预测的方法和程序;第三种是算法学习方法(learning method),通过设计算法在数据中寻找规律(pattern)来进行预测,包括机器学习(machine learning)、复杂社会体系分析(complex social analysis)、基于行动者的建模(agent-based modeling),等等。10在社会科学中,由于定律性理论极其稀少,预测研究更多采用后两种方法,而统计方法和算法学习方法在一定程度上具有交叉,因此本文将两者合称为定量预测。11

(一)定量预测与不确定性

我们可以通过与定律性预测进行比较来考察定量预测的风险来源。定律可以表达为yf(xα)。例如著名的定律EMC2,前式中yEx={x1Mx2C},α=1,f(x;α)=αx1x22。可见,定律性预测对y的预测建立在其与x之间确定、简洁、稳定的关系基础上,系数α亦是公理中所确知的常量。这样,给定x的取值就可精确计算出y的取值(给予任何MC的取值都能够精确地预测E的取值)。定律性预测的特点是程序简单(数学计算)、预测结果精确、具有高度确定性。定律性预测的失败风险主要来自理论错误的风险,即定律自身的谬误或局限。

基于模型的定量预测与定律性预测在数学表达形式上,唯一不同之处就是多了一个误差项ε

yf(x;α)ε

然而,多了ε这个看似简单的差别却反映了两种预测截然不同的预测原理、方法、难度和风险。误差项ε表明,我们对关于y的知识是局部的、不完整的,未知的部分可能远远大于已知,因而对y的预测也必然具有不确定性,无法也不应该预测y的某一特定取值。相反,由于ε代表我们现有知识无法确知的关于y的世界,我们所要预测的对象y被看作一个随机变量,从本质上无法确知,因而预测的任务只可能是关于随机事件y的发生概率,如p(yI)(y在某一特定区间I取值的概率)。此外,由于误差项ε的存在,在可知部分f(x;α)中,参数α是一个未知量,需使用数据和统计方法获得其估计值。

国际关系现象相对于物理世界的现象更为复杂,国际关系学中也缺乏具有像物理定律那样的公理性理论,通常难以用简洁确定的公式来表达。国际关系学者在预测时必须承认,我们对国际现象的认识是局部的、不完全的、具有不确定性的,在任何一个时空点上均有广大的未知部分等待研究者去探索。承认认识的局限性和有限性,并试图明确我们在任一阶段认知的界限——我们知道什么,不知道什么,什么是f(x;α)部分,什么是ε——是更好地运用已知探寻未知、运用现在探寻未来的前提。其实,定量预测也是自然科学预测的重要手段,自然科学也只有很少的部分能够追求和拥有可用简单完美的数学公式表达出来的理论,大部分的自然科学预测也是在不完全知识下的预测,如基因选择研究中的预测。12

(二)定量预测的风险来源

定量预测是基于对事件不完全的信息和知识来预测事件发生的概率,预测方法和过程是统计推论而不是数学计算,具有不可避免的不确定性。预测的风险有多种来源,概括起来主要有内在风险、参数风险和模型风险三类。13

第一类风险是内在风险,即前文所提到的对现象不完全认识所带来的预测风险,体现为预测模型本身是或然性模型(probabilistic model)而非确定性模型(deterministic model),因此称为内在风险。从研究者方面看,我们的现有知识、信息和分析手段,只能提供对社会现象的局部理解,而大量的未知就意味着预测的偏差风险。从客观世界方面看,客观事件的发生与否,本身取决于系统性的机制和随机因素的共同作用。科学研究只对系统性机制部分——事件演化的稳定机制以及与其他事件的稳定关系——进行理解和掌握,而随机因素的冲击和影响本质上是不可预测的部分。由此可见,研究者的主观认知和待预测事件的客观规律两方面都带来了预测的内在风险,体现为上文中数学表达式中的随机项ε,不确定性程度可由ε的估计值大小来测量。

第二类风险是参数风险,即随机事件y与其预测量x之间客观上存在的由αf(.)共同定义的关系,其中参数α是一个常量,但却是在实际上永远无法确知的常量,这带来了参数风险。为了用x来预测y,要求对参数α进行估计,得到估计值α^。虽然α是一个确定的常量,但估计量α^则是一个随机变量,因此我们选取任何一个取值均存在风险。在实践中点预测往往取估计量的期望值,仅仅因为期望值代表长期的趋势水平。参数风险由估计量的标准差测量σα^表达,标准差越大,参数估计量α^的不确定程度越大,预测的参数风险越大。14

预测值的置信区间可以同时体现参数风险和内在风险所带来的预测的不确定性。在预测研究中,报告点预测值并非预测的全部结果,甚至不是最重要的结果,而置信区间则是预测最重要的结果,它不但包含了预测的期望值,还包含了预测的不确定性程度。

第三类风险是模型风险,即选择特定的统计模型带来的预测风险。15预测模型和解释模型同样是建立在一系列假定基础上的,这些假定有可能是错误的,如选定什么样的预测量x,事件y与预测量的关系f(.)是什么,误差项ε遵循什么随机分布,对这些建模中极为重要的问题的回答却往往是依赖假定。研究者通常根据理论、经验、数据形态等作出一系列假定,并论证假定的合理性。我们可以判断假定是否合理,但却无法确知其真伪,也不能确定某一假定是唯一合理的假定。这就意味着,即使这些假定合理,它们也有可能是错的;即使没有错,它们也可能并非唯一合理的一组假定,还存在其他的合理假定选择。选择任何一个模型进行预测都有风险,即使通过模型比较而选择所谓“最优”的模型进行预测,也无法消除模型风险。由于选择出来的“最优”模型是在对已知样本的拟合比较和对已发生事件的预测比较中胜出的模型,因此很难确定在真正预测未来时“最优”模型能否给出最佳预测。模型选择的风险比内在风险和参数风险都要严重,且更难处理。多模型平均是将这种模型的不确定性考虑在预测的过程中,对多个合理模型的预测结果进行加权平均,优质的模型结果获得更大的权重。这种多模型平均预测方法在天气预报的模型预测计算中广泛应用。16本文将在再分析中使用多模型平均的方法来降低模型选择风险。

三、定量预测的风险处理:控制与评估

在预测研究中应该如何对风险进行处理?答案是控制风险和评估风险。研究者在预测工作过程中,可以通过提高用于预测的样本数据的质量和信息量以及改善数据分析的方法,来降低预测结果的不确定性和犯错的风险,但却无法完全消除不确定性。除了控制风险外,研究者需要详细报告预测的不确定性,并通过样本内预测、样本外预测以及不同预测方法之间的比较等多种方法,尽可能详细地评估预测结果的风险程度。这不但出于学术研究的严谨性和透明性要求,还因为预测结果的风险程度具有比预测值本身更高的应用价值,是决策中最重要的参考信息。

(一)预测风险的程序控制

研究者在执行预测研究程序的每一个步骤中都要在不确定性中进行选择和判断,而每一个选择都会对预测结果的风险程度产生影响。因此,对风险控制的意识和方法运用须贯穿于预测程序的每一个步骤。

1.确定预测任务

定量预测的第一步是确定预测任务。与对预测的通常理解不同,定量预测并非通过统计方法来判断事件是否将“发生”,而是预测其发生与否的“概率”。这是由于在定量预测中,“事件”是指随机事件,即将具有一定分布的随机变量落在某一特定的区间里定义为一个事件。例如,当随机变量是一个两分变量,如预测政治动荡事件的发生,预测的事件为“y取值为1”(动荡)或“y取值为0”(稳定)的概率,预测的任务是得到概率p(y=1)或p(y=0);当随机变量是连续变量,如动荡的经济损失为y,则预测的事件可以为y∈ (ab),即经济损失在某一区间,预测其概率p[y∈(ab)]。

从定量预测是对事件概率进行估计这一研究任务可以看出,定量预测的本质就是对发生不同情况的可能性进行估计,而建立在有限样本基础上的预测无法进行概率为0或1的判断(即言之凿凿的预测)。定量预测的价值正是能够在无法消除不确定性的情况下,用概率来尽可能精确地测量和表达不确定性的程度,从而为在不确定性中进行的现实决策提供辅助与指导。

2.选取预测窗口

统计预测的第二步是要确定预测窗口。一般情况下,预测窗口越小预测的准确性越高,预测窗口越大预测的风险越大。社会现象内在关系的稳定性相对自然现象更低,过去和现在所呈现出的趋势和关联,很少能适用于遥远的未来。窗口越大,发生在窗口内的“结构断裂”(structural breaks)的可能性越大,一旦出现结构转化,过去和现在的关系和趋势不再适用于预测未来,预测错误的可能性就越大。用低频数据(在国际关系中最常见的年度数据)进行定量预测,一般采取向前1年或2年的窗口,超过5年的预测往往因不确定性过大而对决策的辅助功能下降,而超过10年的所谓“社会预测”则基本只能称为“展望”。严谨的国际关系预测不能采用过大的预测窗口。17但是,虽然预测的窗口越小则预测风险越小,但选择预测窗口过小则会损害或失去预测的价值。如果预测能够“向前看”的时间长度小于能够作出必要干预和预警反应所必需的时间,这样的预测除了作为科学研究的初步尝试之外,并无意义和价值。因此,在保证预测研究满足一定可靠性和可行性的标准下,研究者应该同时考虑预警和干预反应的合理时间来确定预测窗口。预测可以选择不同长度的预测窗口,以适用于不同的预警目的和不同的干预方案。

3.数据搜集

在第三步搜集数据中,预测的不确定性可以通过扩大样本的维度(长度和宽度)来得到降低和控制。众所周知,参数估计量的不确定性可以通过增加样本量来降低,因此研究者应该尽可能地增加样本的长度,即样本观察量的数量。而增加样本的宽度则是指尽可能地搜集潜在的预测量x。预测研究所依赖的不仅是因果关系,稳定的相关关系对于预测来说也具有重要价值。社会现象错综复杂,涉及的相关因素往往极多,什么变量对于事件具有更强的预测能力,研究者往往无法事先确知。挑选哪些x来预测y,无法根据理论、经验和常识来事先确定。面对预测量选择的不确定性,处理方法是在搜集样本时,将与事件发生具有直接和间接相关性的变量、同一个变量的不同测量方法都考虑在内,最后得到的数据很可能包含成百上千的x,形成高维数据。但是,搜集尽可能多的预测量x,并不等于统计预测模型将运用所有这些预测量,在下一步建模时将对变量的预测能力进行测试,选择那些最具预测能力的变量。尽管如此,在数据搜集阶段,研究者须考虑尽可能多的预测量,避免把具有较强预测力的变量事先排除在考虑范畴之外,这将有助于控制预测的内在风险。

4.变量选择和建立模型

预测的统计建模需要在精确性与简洁性之间进行平衡与取舍。对于以预测为目的的模型,变量数量的增加会降低(至少不会增加)预测的内在风险,因为增加变量就是缩小模型误差项ε所涵盖的范围。但一个包含过多变量的预测模型解读困难,不具有应用价值,且外部有效性(样本外预测精度)会更差,因此需要在满足一定简洁性要求的前提下,尽量选取预测能力高的变量来追求精确性,而不能为了追求降低预测的内在风险而建立超高维度的预测模型。研究者在建模过程中不但应考虑降低预测的内在风险,还要控制预测的模型风险,即选择任何一个模型所面对的不确定性。预测可以选择在单一最佳模型基础上进行,或是同时使用数个合理的模型进行预测并对其结果进行加权平均。无论是选择单一模型或是进行多模型平均预测,建模过程中的模型比较任务都必不可少。没有模型比较就无法选择出最佳单一模型,也就无法得到多模型平均预测中所需的各模型权重。模型风险是比其他风险更难处理的风险,而模型平均的预测优于单一模型预测也基本是统计学界的共识。18在应用研究中,模型平均预测方法由于计算量大和程序复杂而让人望而却步,社会科学应用研究目前仍然以单一模型预测为主,这种情况亟须得到改变。

(二)评估和报告预测结果的风险

预测程序的第五步是预测结果报告和预测质量评估,即运用预测模型对数据进行处理和分析,并报告预测结果。预测包括样本内预测(within-sample prediction)和样本外预测(out-of-sample prediction)两种不同类型的预测,两种预测的目的和功能不同,但都是研究中必须进行的预测。样本内预测是建立模型后运用样本得到参数估计值及其标准差,再运用于同一样本来预测出样本中因变量的值。用数学表达即是:用一个特定样本S0={y0x0}来估计出预测模型yf(x; a)+ε中的参数值α^,然后运用算式f(x0; α^)来计算(预测)出y^0。样本内预测可以通过y0y^0的比较来判断预测模型的拟合优度和内在风险,评估预测的内部有效性。从预测的研究目的来看,更为重要的是进行样本外预测,即从样本S0={y0,x0}推论出α^,然后用另一个不同的样本S1={y1,x1}来评估预测表现——用算式y^1=f(x1;a^)预测y1,并将预测值和实际值进行比较。而样本外预测用来检验预测模型的外部效度(external validity),由于预测的最终目的是要对未知进行判断,因而缺乏外部效度的预测模型没有实际意义。样本内预测和样本外预测的表现——也就是预测模型内部效度和外部效度——之间的关系并非总是正相关关系。样本内预测表现好的模型进行样本外预测却可能很糟糕。比如,“厨房水槽”模型(Kitchen-Sink Model)就是把有关无关的变量统统放入模型的方法,它的样本内预测表现通常非常优异,但样本外预测却非常糟糕。样本内预测只要模型的样本内拟合优度高就能够精确预测,而样本外预测却要求模型建立的yx之间的关系具有样本间的稳定性。

我们可以运用统计技术来降低不确定性,但无论研究者如何努力使用各种技巧与方法来控制风险,都无法消除风险,研究者应在尽量降低风险之外,严格地评估和报告风险。报告预测不确定性不仅是科学研究的标准和要求,而且只有报告了不确定性的预测研究才能更好地发挥对决策的辅助功能。在对第五步的预测结果进行分析和报告时,研究者不但要报告样本内和样本外预测的点预测结果,即y^0y^1,还要报告预测结果的风险,可以用它们的标准差来表达,也可以用更为直观的置信区间来报告。置信区间对于运用预测结果进行决策具有非常直观地传达预测信息的优势,因为它给决策者以“最好情景”(上限值)、“最坏情景”(下限值)、“最可能情景”(中位值或期望值)、各种分位值等重要信息。

仅仅报告参数风险带来的预测风险还不够,在第五步中需要对预测结果的质量进行评估,即样本内预测和样本外预测与真实值相对比究竟表现如何。样本内预测从本质上是对拟合优度进行评估,可以用R2等在统计上常用的指标来进行评估。样本外预测可以通过对预测值和真实值之间差距评判的方法,如均方根误差(RMSE)和分类比较(classification)等方法进行评估。此外,由于还存在模型风险,预测研究应该对不同的预测模型或方法进行对比评估,检验预测所使用的模型是否比其他模型或方法表现更好,除了对R2、方根误差、分类比较等项目进行比较外,常用的方法还有受试者工作特征曲线(Receiver-Operating Characteristic,ROC)等。

四、预测实例:PITF预测研究项目

冷战结束后,内战及其他形式的国家内部政治动荡带来了全球发展、国际恐怖主义、国际干涉等富有争议而棘手的国际关系问题,受到世界各国和国际组织的高度关注。对于承担全球责任和国家利益遍布全球的大国来说,研究和预测全球各国的政治稳定情况成为辅助国家外交决策的亟需,有助于大国及时保护其海外利益和人员安全,对人道主义灾难进行及时防范和应对,防止国际恐怖主义的滋生和蔓延,等等。此类具有代表性的预测尝试包括由美国国防部高级研究计划局(Defense Advanced Research Project Agency)主持的“整合性冲突早期预警系统”(the Integrated Conflict Early Warning System)19、基地设在堪萨斯大学后移至宾夕法尼亚州立大学的“计算事件数据系统”项目(the Computational Event Data System)20以及一系列由高水平大学学者承担的反对国际恐怖主义的预测项目,等等。21在现有研究中,得到学界较大关注的是多方协作的大型预测研究项目“高烈度政治动荡”工作组,其英文名称最初为“State Failure Task Force”,后更名为“Political Instability Task Force”,简称PITF。22

PITF项目于1994年由美国政府资助成立,研究团队由一众美国高校的学者组成,来自政治学、国际关系学以及其他多个学科领域。PITF是一个旨在理解和预测国家政治动荡的重大预测项目,目的在于建立关于全球各国各地区的政治稳定性评估和预警系统,为美国的国家安全和外交政策决策提供智力支撑。PITF定期公开发布研究报告,引起了美国国际关系学界的强烈兴趣。学者们对PITF进行再分析,改进其预测研究方法,产生了一些优秀的独立学术性成果,发表在政治学顶级期刊上。23PITF项目结束后,项目网站撤销,项目信息存档后不再公开24,但学界仍保留了研究报告以及原始数据和数据手册,为进一步从事相关研究提供了便利条件。25PITF在数据和方法上公开透明,严格地遵循定量预测的程序,是较为严谨的预测研究。但即使在这样高水平和严肃的预测研究中,我们仍不难发现PITF对预测的风险评估没有足够的重视,尤其没有严格评估和详细报告预测的不确定性,而且在对预测结果和预测质量的解读方面存在严重的问题,损害了研究的科学和应用价值。以下本文按照定量预测研究程序对PITF的预测风险控制和评估报告进行简要评述。

PITF的预测任务是预测高烈度政治动荡事件(早期称为“国家失败”,即state failure)的发生概率。PITF对事件的定义包含了导致和体现严重政治不稳定情况的四类事件,即革命战争、族群战争、政体逆向变革以及种族和政治屠杀,任何一类事件的发生即计为高烈度政治动荡事件的发生。对于任一国家i在任一年份t上,可以观察到政治动荡事件是否发生(yit=0,为不发生;yit=1,为发生)。假设当前为年份T,PITF要预测事件在未来时间窗口tw年发生的概率是:p(yi,T+tw=1)

PITF选用两年的预测窗口,即用预测变量xt来预测两年后的p(yt21)。PITF并没有对预测窗口的选取进行风险论证,没有详细解释两年的窗口是如何同时满足相关关系的相对稳定性和对高烈度政治动荡事件进行干预的可行性。本文推测工作组预测窗口的选取是根据他们的资助方美国政府的要求来确定的。

按照事件的定义,PITF样本的组建包括对从1955年至1998年世界上所有50万以上人口的国家和地区进行测量,共计包含8580个以“国家—年份”为观察单元的观察量,其中共计有114次高烈度政治动荡事件发生(yit=1),而其余8466个观察量均为yit=0。高烈度政治动荡事件发生的频率非常低,在统计上称为“稀少事件”(rare events)。样本反映了政治动荡事件的高度稀少性,发生政治动荡事件的观察量占总观察量的1.329%。在处理这种稀少事件的分析时,一般采取“案例控制”(case control)的再取样办法,以获得事件发生与不发生的信息在样本中的合理平衡,避免关于“未发生”事件的信息相对于“发生”事件的信息过多从而主导分析结果。26PITF运用了这一再取样方法,针对样本中每一个政治动荡事件,在同一年份和地区内为其随机匹配两个未发生政治动荡事件的观察量作为控制对照。在搜集潜在预测量x的工作中,PITF根据现有对国家失败、内战、国内暴力冲突、社会运动的大量研究并结合专家意见,搜集、整理和创建了庞大的数据库,共计有超过1200个候选解释变量。PITF的数据库虽然在观察量的数量上并不大,只有不到1万个,但在维度上却高于1200,是高维数据,在科学研究意义上属于大数据。27

PITF的目标是要建立一个将预测变量数量控制在10个以下的简洁预测模型。研究者们在变量选择过程中采取了理论和数据建模相结合的方法,采用单一变量检测和一元回归等简单方法并综合专家的理论建议,将候选变量分作三组:第一组是有关政治和领导层情况的变量,共17个;第二组是有关人口与社会情况的变量,共13个;第三组是关于经济与环境方面的变量,共13个。PITF继而对这43个变量进行前向逐步选择和后向逐步选择。前向逐步选择是从单一变量Logistic回归开始,逐一加入新的变量,观察模型精度的提高程度。当变量的加入无法显著提高模型精度时,这个变量就被剔除。后向逐步选择是从43个变量的回归开始,逐一取出变量,观察变量减少带来模型精度的损失。如果变量减少没有显著降低模型精度,则剔除这一变量。通过这种逐一测试,并辅以机器学习的神经网络分析进行双重检验,PITF得到最终预测模型。这一变量选择方法听上去简单易行,但实际运算量巨大,43个候选变量意味着天文数字级别的模型数量。对PITF来说,检查完所有的变量组合是不可能的。报告称,研究者们在变量和模型选择方面花费了两年时间。

在最终的预测模型选择上,PITF的决定是使用单一模型,通过变量选择阶段确定一个在简洁性和精确性之间取得最佳平衡的单一模型,所有的预测基于这一个模型的预测结果。PITF的单一模型十分简洁,其全球预测模型只包含了6个变量(婴儿死亡率、政体、贸易开放、人口、人口密度和邻国处于内战或族群战争中的国家),规模最大的撒哈拉地区预测模型也只有8个变量,伊斯兰国家预测模型仅包含5个变量。

运用上一步建模所得到的简洁模型,PITF在第三期报告中宣称预测的准确率达到70%~80%。但PITF没有报告判断“预测准确性”的判断标准,加利·金(Gary King)和曾朗澈(Langche Zeng)也曾对PITF的预测工作进行批评,指出定量预测的结果是估算的概率,如需从两分的标准(预测的“对”与“错”)来判断预测表现,必须在进行预测前根据决策考虑而设定“门槛值”来进行预测分类。预测概率低于门槛值,决策者视预测结果为不发生,否则为预测发生。根据这一事先确定的门槛值,把观察量根据预测的概率分成发生(阳性)与不发生(阴性)两组,并与事实相对照,看各组的误分类(misclassification)的百分比,报告“假阳性”(false positive,即预测发生而没发生)和“假阴性”(false negative,即预测不发生而发生)的错误率。28同样的预测概率结果,根据决策者选择的不同的门槛值,会有不同的“阴性组”和“阳性组”分类,也就会有不同的分类错误率。这样就要求门槛值必须是事先设定而不能根据预测的结果来选择门槛值。如果根据结果来选择门槛值,那么研究者总可以找出一个门槛值让他们的预测具有很高的“正确率”,也就失去了评判预测质量的意义。因此,在缺乏对门槛值进行报告以及说明它是否是事先选取的、是基于何种考虑而选取的情况下,PITF报告的70%~80%的准确率是模糊而难以评判的。

PITF的预测工作的另外一个严重缺陷是没有报告预测的不确定性。PITF仅注意到了预测模型回归参数的标准差,但却没有报告由参数不确定性带来的预测结果的不确定性,也未见对预测结果置信区间或拟合优度的分析。PITF所言的预测“正确率”基于样本内预测结果,在整个报告中并没有报告任何样本外的预测工作和结果。此外,PITF的预测结果建立在单一预测模型基础上,未将其模型的预测表现与其他模型相比较。由于缺乏对预测不确定性的评估和分析,PITF的预测工作在关于预测结果的报告和分析部分严重缺乏科学性,降低了其研究工作的价值。29

五、PITF再分析:多模型平均预测

基于对PITF预测工作的批评,本文对其撒哈拉以南地区国家政治动荡的预测进行再分析,采取更为严格和规范的预测程序,运用贝叶斯方法提高工作组预测变量选择和模型建立的效率,并运用模型平均预测方法来处理和降低模型风险,对预测结果的不确定性和质量评估进行更详细的分析和报告。本文发展和运用的贝叶斯方法可以同时完成变量选择、模型比较和模型平均的多重任务,对三大预测风险来源进行同步处理。

为了便于对比,本文在再分析中沿袭了PITF的“案例控制”方法,采用PITF再取样后的样本,保留了撒哈拉以南地区国家样本中所有44个政治动荡事件发生的案例,并选取了118个对照控制案例,共计162个观察量。预测的时间窗口依然采用PITF的两年窗口。撒哈拉以南地区国家样本中的缺失数据数量较多,PITF用逐条删除(pairwise deletion)的办法来处理缺失数据,即只要变量中有缺失数据,该观察量就整条删除,这是极为简单粗暴的处理缺失数据的方法,不但会造成信息的巨大浪费,还有可能在删除过程中制造和加大样本的选择偏差。为了更好地处理缺失数据,本文运用多重替代法(multiple imputation)来填补缺失数据。30继而本文运用新方法进行预测量测试与选择、建立预测模型、模型比较、模型平均和预测结果评估等工作。

(一)变量选择方法:贝叶斯针板模型

变量选择是建立预测模型的重要环节,但当候选变量数量较多时,变量选择工作极富挑战性且计算成本高昂。本文的变量选择建立在PITF通过初选得到的43个变量的基础上,但根据PITF报告,一些变量在数据库中对应多个变量,我们无法完全复原这43个变量,而是得到48个候选变量。这48个变量可以组合成数量巨大的不同模型,因此在模型比较基础上选择变量是一件工程浩大的工作。变量选择的难度还由于变量之间的共线性增大而增加。图1报告了这48个变量的相关矩阵,图中的圆圈越大表明相关性越高。对角线的相关系数为1,因为对角线算变量与自身的相关性。从图1可见,变量之间具有较强相关性的不在少数,有一些相关系数非常接近1。在多重共线性高的情况下,某些变量是否出现在模型中,会较大地影响到与它们高度相关的变量对结果产生的影响。PITF运用的逐一递增或逐一递减的测试方法,在变量间存在较强的多重共线性的情况下,会产生较大偏差。

图1
变量之间的相关性注:纵轴和横轴为48个带选变量,图中的每个格子是对应的行与列所代表的一对变量之间的相关系数。图中的圆圈越大表明相关系数的绝对值越大。

本文采用贝叶斯针板模型(Bayesian Spike & SlabPrior Model)来进行变量选择。贝叶斯线性针板模型最早于1988年由米歇尔(T.J.Mitchell)和布恰普(J.J.Beauchamp)提出31,运用一种特殊的混合分布作为模型参数的先验分布以达到变量选择的目的。如图2所示,针板混合先验分布在0这一点上设置一个高密度分布(即名称中的“Spike”,本文翻译为“针”),对应图中处于0点的竖线;而在实数集的其他部分为较为平坦(flat)的分布(即名称中的“Slab”,本文翻译为“板”),对应图中的曲面。这一混合分布的目的是让那些没有影响或影响甚微的预测量xk的系数βk,被分布中具有高密度的“针”部分吸入到0这个质点,通过xkβk=0将变量xk实际剔除出模型;而那些有较强影响的变量的系数,则可以逃脱“针”的吸力而进入“板”的部分,从而这些变量的系数的后验分布则可以显著区别于0,因而得以保留在预测模型中。基于这个原理,针板模型在进行海量基因筛选的生物统计学中得到广泛运用。32

图2
二元分布下的针板先验分布与后验分布示意图

本文使用的广义线性针板模型是杰夫·吉尔(Jeff Gill)和庞珣在乔治(Edward I.George)和麦克库罗其(Robert E.McCulloch)33以及艾希瓦仑(Ishwaran)和饶(J.Sunil Rao)34对针板模型最新发展基础上的改进和扩展。这种变量选择的方式利用了“贝叶斯学习机制”。35贝叶斯针板模型设定用观察到的数据来对模型中所有参数的先验分布进行“更新”(updating),得到参数的后验分布,即根据数据的情况判断参数的可能取值及其分布。这一更新机制被称为“贝叶斯学习”,建立在贝叶斯定理的基础上:

π(θ|D)=f(D|θ)π(θ)f(D)

其中θ代指模型中所有参数,等式的左边是参数的后验分布,而右边包含了参数的先验分布和更新机制。贝叶斯方法是具有高度普遍适用性的方法,且在模型设定方面具有相当的灵活性,能够根据数据的情况、研究目的和复杂理论进行模型设定调整。而贝叶斯针板模型所依赖的马可夫链—蒙特卡洛(简称MCMC)的模拟方法,突破了传统模型估计的种种限制,能够处理复杂模型和高维参数空间,只要算法能够收敛,就能够得到参数的整个后验分布的经验取值。MCMC的唯一局限在于,当后验分布极为复杂而数据信息不足时,MCMC有可能收敛困难或在空间中行进缓慢而需要较长时间才能得到参数的代表性取样。36

(二)变量选择结果

本文运用针板Logit模型并进行MCMC重复迭代模拟计算,对48个候选变量应被剔除出预测模型的概率进行估计。在模拟中根据回归系数被吸入“针”部分的频率来估算该变量被剔除出模型的概率。表1报告了经过了“贝叶斯学习”后得到的各变量被排除在预测模型之外的概率,即概率p(βk=0|D) (D代指观察到的数据)。从表1中可看出,有一些变量在模拟中从来没有出现在模型中,即它们的回归系数在整个模拟过程中从未逃脱过质点0的吸入,表明它们入选模型的概率极低[p(βk=0|D)=1.000]。这些变量包括总人口、前宗主国是否是英国、领导人的执政时间、经济歧视程度、议会负责程度、统治精英的意识形态、青年人口比例、劳动力相对规模、婴儿死亡率、预期寿命、城市人口、贸易伙伴的单一性、外汇储备波动,等等。这些变量之所以总被排除在外,并非一定是由于它们对政治动荡没有影响,而是由于这48个变量在理论和实证信息上都有不少重合,这些变量所包含的信息有可能在其他变量中已经得到体现。针板模型选择发现一些变量总是出现在模拟过程的模型中[即p(βk=0|D)=0.000],这些变量有贸易开放、政体(两种测度方法)、民主程度的变化、执政党合法性、政体持续时间、人均卡路里摄入量、人均国民生产值及其变化、与经济合作与发展组织(OECD)的贸易量等10个。本文的变量选择与PITF的撒哈拉以南国家预测模型最终的变量选择差异相当大。其中只有贸易开放和政体两个变量同时进入了PITF的最终预测模型且得到针板模型概率为1的支持。PITF模型中还包括了政治歧视程度,但针板模型中其入选概率只有44%;前宗主国为法国的入选概率也不足15%,领导人的执政时间更是入选概率为0。

表1
针板模型的变量选择(后验概率)

虽然变量选择中出现了10个入选概率为1的变量,但并不说明建立在这10个变量基础上的预测模型就一定合理,因为这10个变量在测试中的表现与在模拟过程中其他变量是否同时出现在模型中有关,尽管其他变量的入选概率较低,但它们的出现与否会影响到这10个变量的入选概率以及效应规模。因此,仅仅根据入选概率来选定变量并构成最终模型仍然具有选择次优模型的风险,即由这10个拥有入选概率为1的变量组成的模型未必具有最佳的样本内和样本外预测表现。

(三)针板模型和贝叶斯模型平均(BMA)预测

针板模型的“选择性收缩效应”(selective shrinkage effect)在完成变量测试任务的同时还可实现模型平均。模型平均预测是基于多个预测模型预测结果进行加权平均,而权重是各预测模型的相对质量。37

贝叶斯模型平均(Bayesian Model Averaging,简称BMA)是一种用来解决由模型不确定性造成推论和预测难题的方法。38BMA的原理非常直观:对于待预测的量yt+1,定量预测是建立在观察数据y和x的基础上,用N个不同且合理的模型进行预测,最后的预测结果建立在所有N个预测的加权平均的基础上,如下式所示:

p(yt+1|y,x)=n1Np(yt+1|y,x,Mn)p(Mn|y,x)

上式是运用观察到的数据yx来预测yt+1,预测是基于N个合理模型Mn(n=1,2,…,N)作出的预测的加权平均,其中权重为p(Mn|yx),即基于样本得到的模型相对“可能性”(模型的后验概率)。如何计算模型的“可能性”是一项非常艰巨的统计任务,需要全面探索模型的分布空间,而模型的可能形态通常数不胜数,是一个超高维空间。本文运用的针板模型的MCMC迭代模型随机抽样,可以非常简单地得到模型的经验概率。由于在MCMC算法每一次迭代模拟中,由针板先验分布选择预测量的去留而形成一个模型,因此相当于模拟算法根据不同模型的概率随机“取样”出一个模型。当算法收敛后,完成G39次MCMC迭代模拟后,我们就可以根据每一个模型在模拟过程中随机出现的频率算出其经验概率p^Mn=Hn/G,其中Hn是模型Mn在G次迭代中出现的次数。这样我们得到数个预测模型Mn及它们在预测中的权重p^Mn来作为以上等式中p(Mn|yx)的估计量。

(四)模型平均预测结果报告

在对撒哈拉以南地区国家政治动荡数据的分析中,针板Logit模型在模拟中抽样出了由不同预测量组合而形成的25个不同的模型。图3报告了这25个模型出现的经验概率以及所包含的变量(变量编号同表1的编号)。在模拟中,上文所提及的14个入选概率为0的变量没有出现在任何一个模型中。最简洁的模型包含了13个变量,比变量选择测试中的10个入选概率为1的变量多出3个。尽管变量选择测试中有10个变量入选概率为1,但仅以这10个变量组成的模型却没有在模拟过程中出现过。从模型的概率分布情况来看,其中22个模型的后验概率非常小,而概率最高的3个子模型的权重分别为0.1699、0.1212和0.1208,远高于其他模型,但没有一个模型有超过0.2的概率,说明在这一预测任务中,使用单一模型预测的模型风险较高。最优模型M1包括13个协变量,次优模型包括19个协变量,第三名包括11个协变量,而PITF所用的最终模型只有7个变量。

图3
针板模型多模型选择中的变量构成和模型经验概率注:图中第一列为模型编号,第二列为各模型的后验概率(权重),其他各列为候选变量在各模型中的入选情况。标记有黑色方块的为入选,空白为未入选。为节省空间,变量以编号代替,同表1的变量编号,与表1对照可得到各变量的具体指代。

根据这25个模型预测结果的加权平均(权重为图3的第二列),我们对样本中162个时空点上高烈度政治动荡事件发生的概率进行样本内预测。图4报告了对爆发政治动荡的概率的点预测值和95%置信区间。图4中的虚线将观察量按政治动荡事件实际情况分为“发生”与“不发生”两组,虚线左边的时空点是样本中观察到的动荡事件发生的案例,而右边是控制案例,没有发生政治动荡事件。图4中的点预测和区间预测在概率分布上将事件发生与不发生的情况清晰地区分开来。从总体上看,对那些动荡事件(yit=1),模型预测它们发生的期望概率均高于对动荡未发生事件(yit=0)的预测期望概率,而且两类事件预测概率的置信区间没有相交。

图4
预测概率期望值和95%置信区间注:图中横轴为观察单元(国家—年份),纵轴为预测爆发政治动荡的概率。图中空心圆点为预测概率的期望值,竖线段为95%置信区间。图中虚线的左侧为实际发生政治动荡事件的观察单元,而右边是未发生政治动荡事件的观察单元。

如果将门槛值设在概率为0.5,将那些预测概率高于0.5的单元定为预测“发生”,而低于0.5的单元定为预测“不发生”,本预测将可以宣称拥有100%的正确率。然而在实际预测中,门槛值应该在预测进行之前根据实现决策需要而设定,而不应当在事后根据预测结果来选择最大化“正确率”的门槛值。例如,如果我们认为“假阴性”错误带来的政策损失比“假阳性”错误大,那么这个门槛值在预测进行前就应设为低于0.5,低多少根据错误的相对代价进行设置,反之亦然。如果事先的门槛值设在0.7,则本预测即使将两类事件的预测区间完全区分开,仍然会根据门槛值在11个事件的预测上犯“假阴性”的错误,错误率为7.84%。PITF声称他们的正确率为80%且不报告置信区间、不报告门槛值、不报告门槛值的设置理由的做法是错误的。

(五)预测质量评估与比较

本文进而通过对BMA预测和单一最佳模型预测的比较来进行模型预测质量及风险评估。在对预测的风险进行分析时,本文首先比较BMA和单一模型样本内预测的精度,然后采用预测对数得分40和风险分类方法来评价和比较两种预测的样本外预测风险。

1.样本内预测比较

为了评价BMA和三个有最高后验概率的单一模型的预测表现,本文使用ROC曲线。加利·金(Gary King)和曾朗澈(Langche Zeng)在对PITF的预测结果评估方法进行批判时也主张并使用ROC曲线来进行预测质量评估。41ROC曲线克服了预测的正确率取决于任何预先设定的临界值的问题,在给定任何临界值的情况下,比较不同预测的表现优劣。在ROC曲线比较中,如果一种预测结果曲线在所有区间上高于其他种类的预测曲线,则无论临界值如何确定,这一预测将比其他预测具有更高的正确率。给定任何临界值作为分类标准,在全区间内最高的曲线对应的模型在预测正确分类率上比其他预测都要高。此外还存在着大量关于如何进行预测结果比较的方法,研究者并非必须在一个研究中穷尽所有的评估方法,而且也不必如此,因为不少看似不同的方法在本质上是相同的。但是,研究者应该在预测结果评估中使用多种评估方法,以更全面和更谨慎地评估预测结果的风险程度。如图5的ROC曲线所示,BMA的ROC曲线在绝大部分区间内高于3个最佳单一模型的曲线,除了在0.50~0.65这一小段区间中,正确分类上BMA的ROC曲线比单一模型Ⅰ略差。

图5
多模型平均预测和单一最佳模型预测的ROC曲线

2.样本外预测比较

关于样本外预测的表现和风险的评估比样本内预测更具有价值。为了进行样本外预测评估,本文先将样本分为训练组和检测组两个部分。在保证政治动荡事件发生的案例随机且平均地进入两组的情况下,本文将162个观察量随机分为两组。然后,我们用训练组数据进行模型训练,通过针板贝叶斯方法进行模型比较和选择,共选出27个模型并计算出它们的经验概率。其中两个模型的出现频率远高于其他模型(这两个子模型的后验概率分别是0.2134和0.1983)。

接着,我们用基于训练组数据而得到的模型和参数,对检测组数据进行预测,预测的时候分别使用BMA预测和单一最佳模型预测。这一预测过程比较简单,就是将检测组的x带入模型,计算出对检测组事件y发生概率p^(y=1)的预测。关于如何检验BMA预测在样本外预测上是否优于单一模型预测,我们将采取两种不同的方法,即预测对数指数法和风险分类法。

(1)预测对数指数法

霍汀(J.A.Hoeting)等提出的预测对数指数(predictive log score)来计算决策风险,计算方法如下42

Scoresingle=dDTlogp(d|M,DB), ScoreBMA=dDTlog[ mmp(d|M,DB)p(M|DB) ].

指数得分越高,预测偏差越大。其中DBDT分别代表训练数据和检测数据。霍汀等通过蒙特卡洛实验发现,ScoreBMAScoresingle要小,即模型平均预测方法得到的结果在风险决策中的风险在绝大多数情况下比单一模型更小。

本文运用这一标准来比较针板模型的BMA预测与单一最佳模型在政治动荡预测中的表现。运用上面两个公式计算BMA和单一模型的预测对数指数,报告在表2中的最下一行。BMA的预测对数指数小于单一模型8分左右,样本外预测表现最优。

表2
多模型平均预测和单一模型预测的样本外预测表现比较

(2)风险分类法

另一种常见的用于比较预测风险的方法是分类法,即根据预测结果和门槛值将观察量划分风险等级,然后与实际观察到的事件类型进行对比,计算和对比不同预测在分类上的正确率。这种方法在预测研究中较为常用,因为风险等级类型比连续性的数值预测值更为直观,对政策制订者尤其具有吸引力,具体程序如下:

第一步,基于训练组数据得到预测模型,即得到模型Mn及其中的参数估计值β^

第二步,运用检测数据来计算每一“国家—年份”的风险倾向(risk propensity),即xitβ^

第三步,运用计算所得的风险倾向的分位数来确定模型的低、中、高风险组;

第四步,对照检查被分到不同组别的国家政治动荡事件发生的实际情况,算出正确归类的百分比;

第五步,对比不同预测模型(方法)在各风险组的正确分类百分比。

给定临界值(分位数),如果一个模型把更多的政治动荡案例分配到较低风险组或者把更多的政治稳定案例分配到高风险组,则表明预测的表现更差。本文用3组不同的临界值选择来进行分类。第一组临界值运用分位值1/3和2/3,这个均分的选择可能是最常见的、最方便的选择,但却缺乏风险决策考量;第二组临界风险值是百分位数值40%和60%,其考量是基于政策制定者对位于中间的风险组兴趣不如两个极端组别大;第三组临界值是百分位数值20%和40%,基于假定错误预测将动荡国家错误划分到低风险组(“假阴性”)的代价较大,而通过将高风险组别的临界值降低来制定政策以帮助更多国家。我们将BMA模型与最佳的两个单一模型相比较,结果报告在表2中。尽管风险分类有不同临界值,但BMA比其他单一模型的效果要好:在绝大部分情况下,BMA分配到高风险组的观察单元比其他两个单一模型分配的高风险观察单元有更高的政治动荡比例,而被BMA分类为低风险的观察单元比其他两个单一模型分配的低风险观察单元政治动荡率更低。所有模型都将一些事实上经历了政治动荡的观察单元分到中等风险组,且有时其发生动荡的实际比率比高风险组还要高。这可以归因于训练组样本容量比较小,因而推断和预测的精确度整体较低。但数据的信息不足不妨碍我们对预测方法的相对表现进行比较。

在政治动荡预测分析中,BMA的样本外预测显然比单一最佳模型效果要好,但在样本内预测上只比单一最佳模型效果略胜一筹。在样本内预测中,由48个协变量的针板模型确定了25个子模型,其中3个的概率远高于其余22个。前3个最佳模型在预测方面效果相似。由于BMA主要基于这3个模型,所以它得出的样本内预测概率是相似的。但在样本外预测方面,检测组的内在机制只是基于训练组推断出的,但训练组数据中反映出的变量之间的关系很有可能与检测组有较大差异,即使两个组别是随机选择的。对于样本规模不到100的训练组来说,对变量间关系的推断具有较大的不确定性。BMA考虑到了模型不确定性并将训练组的信息用于所有可能的机制上,而其他模型只是将训练组得到的某一模型视作唯一“真实”的、适用于检测组的机制。正因为如此,BMA的预测因考虑和处理了模型不确定性而表现得更好。单一模型由于忽视了模型的不确定性,预测风险更高。模型风险越高,BMA相对于单一模型的优势就越明显。

五、结 论

本文探讨了国际关系定量预测的风险来源和处理方法,并对PITF预测项目进行评述和再分析,旨在强调使用定量方法进行国际关系预测时对预测风险进行控制和报告的重要性,并以此管窥处理和评估预测不确定性的方法和工具。国际关系现象相对于物理世界的现象更为复杂,也缺乏像自然科学领域内所具有的定律、公理和定理,难以用简洁确定的数学公式来表达,而只能用或然性统计模型来拟合。对于国际关系预测,我们须承认对现象认识的局部性、不完全性和不确定性,直面预测的风险程度。建立在概率论基础上和以随机变量为分析基础的统计学方法广泛运用于具有高度不确定性的社会科学预测,其最大的优势就在于能够系统评估和表达不确定性,以及能够根据预测风险的不同来源设计定量工具来对风险加以控制。

在再分析实例中,本文运用较为前沿的贝叶斯针板模型进行模型平均预测,将变量选择、模型比较和模型平均等具有挑战性的任务在同一过程中完成,相比传统的统计模型和机器学习方法具有更高的效率。尤其是BMA预测,尽管其对模型风险控制的优势得到学界公认,但由于应用时面临着较大的技术困难,在国际关系预测中仍不常见。本文所用的贝叶斯针板模型和MCMC模拟方法能够在迭代抽样中自然获得模型权重,使得模型平均预测简单易行,具有广阔的应用前景。除了本文应用的方法外,实现变量选择和模型比较的定量工具其实还有很多,常用的如神经网络分析法(neural network analysis)、LASSO、岭回归技术(ridge regression)、弹性网络(elastic net)等发展成熟的方法,可供研究者选择。随着大数据分析的兴起和算法科学的发展,此类的工具正在迅速地创新和更新,本文应用的贝叶斯针板模型也是这个趋势的体现。

国际关系预测研究富有前景,定量预测方法也已经发展得非常成熟,我国的国际关系研究者应该大胆尝试预测领域的研究。创新和开拓不能回避有风险的研究领域,虽然预测研究相较传统的研究任务显得风险更高、不确定性更大,但其应用价值和创新潜力值得我国的国际关系学者关注。其实,任何科学研究均具有风险,没有风险的研究往往等同于没有价值的研究。对研究风险的处理和评估,不但是科学研究的必须,而且其本身就是科学研究的组成部分。国际关系学者在不畏惧、不回避预测研究风险的同时,也需要对预测风险具有足够的重视和充分的认识,严格遵循预测研究程序,掌握和运用多种方法,在执行预测程序的每一个步骤中对风险进行管控,并详细评估和报告预测的风险程度,保障国际关系定量预测的科学价值和应用价值。

本研究是教育部国别与区域研究指向性课题“国际安全的大数据研究”的阶段性成果。

Kalev H. Leetaru, “A Big Data Approach to the Humanities, Arts, and Social Sciences: Wikipedia's View of the World Through Supercomputing, ”Research Trends, Issue 30, 2012, pp.17-30; David et al., “Life In the Network: The Coming Age of Computational Social Science, ” Science, 323 Feberuary 6, 2009, pp.721-733.

相关讨论可参见D.Sarewitz, R. A.Pielke, & R. Byerly, Prediction: Science, Decision Making, and the Future of Nature(Washington, DC: Island Press. 2000); William N. Dunn, Public Policy Analysis: An Introduction(Upper Saddle River: Pearson Prentice Hall, 2004); Henrik Selin and Stacy D. VanDeveer, “Political Science and Prediction: What's Next for U. S.Climate Change Policy, ” Review of Policy Research, Vol.24, No.1, 2004, pp.1-27; Gregory A. Caldeira, “Expert Judgment Versus Statistical Models: Explanation Versus Prediction, ”Perspectives on Politics, Vol.2, No.4, 2004, pp.777-780.

Philip E. Tetlock, Expert Political Judgment: How Good Is It? How Can We Know?(New Jersey: Princeton University Press, 2005), p. 135.

Michael S. Lewis-Beck, “Election Forecasting: Principles and Practice, ” working paper, 2006, p. 145.

Robert Nau, “Principles and Risks of Forecasting, ” Working Paper, 2014, p. 7.

参见Tamas Kristof, “Is It Possible to Make Scientific Forecasts in Social Sciences”, Future, Vol.38, Issue 5, 2006, pp.561-574; Randall H. Jones Jr., “The Theoretical Value of Forecasting in Political Science, ” Working Paper, 2011, p. 1.

Schrodt Phillip A. , “Forecasts and Contingencies: From Methodology to Policy.” Working Paper, 2002, p. 2.

Karl R. Popper, Conjecture and Refutations(New York: Harper, 1963).

Jeff Barrett and P. Kyle Stanford, “Prediction, ” in The Philosophy of Science: An Encyclopedia(New York: Routledge, Inc., 2006), p. 1.

Xiaomin Xu et al, “A Multi Time Scale Wind Power Forecasting Model of a Chaotic Echo State Network Based on a Hybrid Algorithm of Particle Swarm Optimization and Tabu Search,”Energies, Vol.8, No.11, 2015, pp.12388-12408,http://www.mdpi.com/1996-1073/8/11/12317/htm.

本文所讨论的定量预测包括统计预测、数据挖掘和机器学习等进行的以算法为主的预测,在一些文献中后者被称为learning approach,以区别于传统统计方法。本文在对定量预测的理论探讨中,侧重于基于统计模型的预测,主要是为了讨论的清晰和容易理解。数据挖掘和机器学习的方法可以运用于非模型预测,也可以运用于基于模型的预测,它们是预测模型统计建模的常用方法。本文在对政治动荡项目进行再分析时运用的建模方法就是机器学习的一种。

例如Hemant Ishwaranand J. Sunil Rao, “Detecting Differentially Expressed Genes in Microarrays Using Bayesian Model Selection, ” Journal of the American Statistical Association, Vol.98, 2003, pp.438-455; Hemant Ishwaran and J. SunilRao, “Spike and Slab Gene Selection for MultigroupMicroarry Data, ” Journal of the American Statistical Association, Vol.100, 2005, pp.764-780; Hemant Ishwaran and J. Sunil Rao, “Clustering Gene Expression Profile Data by Selective Shrinkage, ”Statistical and Probability Letter, Vol.78, Issue 12, 2008, pp.1490-1497.

关于预测风险的讨论还可参见“Robert Nau, Principles and Risks of Forecasting”, Working Paper, 2014, pp.7-8.

参数风险仅适用于参数预测模型,非参数预测模型不具有参数风险,但并不等同于非参数模型预测的总体风险一定低于参数模型预测。

这一项风险也适用于非模型预测,模型风险实际为不同算法选择的风险。鉴于一般对“模型”这一概念的熟悉程度高于算法,本文使用“模型风险”一词。

Jacob M. Montgomery, Florian M. Hollenbach, and Michael D. Ward, “Improving Predictions Using Ensemble Bayesian Model Averaging, ” Political Analysis, Vol.20, Issue 3, 2012, URL: http://pan.oxfordjournals.org/content/early/2012/03/22/pan.mps002.abstract.

J.S.Armstrong ed., Principles of Forecasting(Boston: Kluwer Acad, 2001).

Jacob M. Montgomery and Brendan Nyhan, “Bayesian Model Averaging: Theoretical Developments and Practical Applications, ”Political Analysis, Vol.18, No.2, 2010, pp.245-270.

Michael D. Ward et al., “Stepping into the Future: The Next Generation of Crisis Forecasting Models, ” Technical Report, April 26, 2012, http://www.guillaumenicaise.com/wp-countent/uploads/2013/10/Crisis-Forecasting-Models.pdf.

项目网站参见http://eventdata.parusanalytics.com/index.html。项目介绍参见Philip A. Schrodt, Conict and Mediation Event Observations(CAMEO) Codebook, 2012, http://eventdata.psu.edu/data.dir/cameo.html; Philip A. Schrodt and David Van Brackle, “Automated Coding of Political Event Data, ” In V. S.Subrahmanian ed., Handbook of Computational Approaches to Counterterrorism(Berlin: Springer, 2013), pp.23-50; Philip A. Schrodt, Deborah J. Gerner and Omur Yilmaz, “Conflict and Mediation Event Observations (CAMEO): An Event Data Framework for a Post Cold War World, ”in Jacob Bercovitch and Scott Gartner, eds., International Conflict Mediation: New Approaches and Findings(New York: Routledge, 2009).

《经济学人》2012年4月刊对一系列项目进行了报道。参见“The Science of Civil War,” Economist, April 2012.

Daniel C. Esty et al., “Failed States and International Security: Causes, Prospects, and Consequences, ” Working Paper, 1998, http://www.comm.ucsb.edu/faculty/mstohl/failed_states/1998/papers/gurr.html.

Jack A. Goldstone et al., “A Global Model for Forecasting Political Instability, ” American Journal of Political Science, Vol.54, No.1, 2010, pp.190-208; Gary King and Langche Zeng, “Improving Forecasts of State Failure, ” World Politics, Vol.53, No.4, 2001, pp.623-658.

参见http://globalpolicy.gmu.edu/political-instability-task-force/political-instability-task-force-home/.

参见哈佛数据空间,https://dataverse.harvard.edu/dataset.xhtml?persistentId=hdl:1902.1/RPQIODIANR;宾夕法尼亚州立大学事件数据项目网页http://eventdata.parusanalytics.com/data.dir/atrocities.html;INSCR Database,全称“The Integrated Network for Societal Conflict Research”, http://www.systemicpeace.org/inscrdata.html.

Gary King and Langche Zeng, “Logistic Regression in Rare Events Data, ” Political Analysis, Vol.9, No.2, 2001, pp.137-163; Michael G. Lacy, “Efficiently Studying Rare Events: Case-Control Methods for Sociologists, ” Sociological Perspectives, Vol.40, No.1, 1997, pp.129-154.

Burt L. Monroe, “The Five Vs of Big Data Political Science, ” Introduction to the Virtual Issue on Big Data in Political Science Political Analysis, ” Political Analysis, Vol.21, Issue V5, 2013, pp.1-9.

Gary King and Langche Zeng, “Improving Forecasts of State Failure,” World Politics, Vol.53, July, 2001, pp.623-658.

加利·金和曾朗澈全面批判了“工作组”缺失数据的处理、统计预测的策略及预测成功的评估,并提出了替代方法。该团队修正了他们所运用的一部分方法,并将修正后的版本发布在2011年的《美国政治学评论》上。

D.B.Rubin, Multiple Imputation for Nonresponse in Survey(New York, NY: John Wley & Sons, Inc., 1987).

T.J.Mitchell and J. J.Beauchamp, “Bayesian Variable Selection in Linear Regression, ” Journal of the American Statistical Association, Vol.83, No.404, 1988, pp.1023-1032.

Hemant Ishwaran and J. Sunil Rao, “Spike and Slab Gene Selection for Multigroup Microarray Data, ” Journal of American Statistical Association, Vol.100, 2005, pp.764-780.

Edward I. George and Robert E. McCulloch, “Variable Selection Via Gibbs Sampling, ” Journal of the American Statistical Association, Vol.88, No.423, 1993, pp.881-889.

Hemant Ishwaran and J. Sunil Rao, “Spike and Slab Variable Selection: Frequentist and Bayesian Strategies, ” The Annuals of Statistics, Vol.33, No.2, 2005, pp.730-773.

Xun Pang and Jeff Gill, “Spike and Slab Prior Distributions for Simultaneous Bayesian Hypothesis Testing, Model Selection, and Prediction, of Nonlinear Outcomes,” Technical Report, 2010.

Jeff Gill, Bayesian Methods: A Social and Behavioral Sciences Approach(Boca Raton, Fla: Chapman & HallCRC, 2007), the 2nd edition; Edward Greenberg, Introduction to Bayesian Econometrics(New York: Cambridge University Press, 2008).

Hemant Ishwaran and J. Sunil Rao, “Clustering Gene Expression Profile Data by Selective Shrinkage,” Statistical and Probability Letter, Vol.78, Issue 12, 2008, pp.1490-1497.

Robert E. Kass and Adrian E. Raftery, “Bayes Factors, ” Journal of the American Statistical Association, Vol.90, 1995, pp.773-795; Edward I. George and Robert E. McCulloch, “Approaches for Bayesian Variable Selection, ” StatisticaSinica, Vol.7, 1997, pp.339-373; Edward I. George and Robert E. McCulloch, “Variable Selection Via Gibbs Sampling, ” Journal of the American Statistical Association, Vol.88, No.423, 1993, pp.881-889.

G为一个足够大的数,一般高于1000万。

J.A.Hoeting et al., “Bayesian Model Averaging: A Tutorial (with discussion),” Statistical Science, Vol.14, 1999, pp.382-401.

Gary King and Langche Zeng, “Improving Forecasts of State Failure,” World Politics, Vol.53, 2001, pp.623-658.

J.A.Hoeting et al., “Bayesian Model Averaging: A Tutorial (with discussion),” Statistical Science, Vol.14, 1999, pp.382-401.

参考文献

资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
预测
定量方法
风险
贝叶斯模型
政治动荡


作者
庞珣