近年来我国国际关系学界对预测的研究兴趣迅速增长,尤其是随着“一带一路”倡议的提出,对中国投资潜在东道国的政治环境进行预测性评估和预警,是中国对外政策的迫切需求,也成为我国国际关系学界的热点研究领域。然而,预测研究长期以来并非社会科学研究的主流,对于中国国际关系传统而言更是陌生。随着大数据社会分析的兴起,预测研究在社会科学中将占据越来越重要的地位,各国政府的外交决策也越来越重视预测研究的辅助作用。
定量预测是社会科学预测研究的主要方法之一,运用统计方法对已知信息(数据)进行分析,从而对未来的事件进行概率判断。统计方法建立在概率论基础上,对随机变量的变化及多个变量的相互关系进行刻画,本质上是对趋势进行研究和对不确定性进行表达的方法。因此,定量方法适用于具有高度不确定性的社会现象的预测。然而在国际关系研究的实践中,研究者却通常忽略对定量预测的不确定性——即预测的风险——进行分析和报告,往往集中关注点预测(单一预测数值),并将其解读为似乎具有高度确定性的预测结果。缺乏对预测不确定性的正确认识和足够重视,忽视对预测风险进行控制与处理,不仅会阻碍研究者对定量预测方法优势的挖掘和应用,还有损于研究的科学性和应用价值。
本文探讨了国际关系定量预测的风险来源及其处理方法,并对“高烈度政治动荡”预测研究项目(Political Instability Task Force,简称PITF)进行评述和再分析,修正原研究在预测风险控制和评估方面的缺陷和不足,运用新方法进行多模型平均预测来降低预测中最为棘手的模型风险。通过理论探讨和实例分析,本文旨在强调使用国际关系定量预测对预测风险进行控制和报告的必要性和重要性,并以此管窥现有的多种可用于处理和评估预测不确定性的统计工具,如变量选择、模型比较、模型平均等方法,以便预测研究者们掌握和运用。
长期以来,社会科学的主流研究是解释性研究,将理解事件发生的过程和解释其原因作为核心研究任务,要求只对已发生的事件进行科学描述和解释,具有“向后看”的研究传统,避免将研究精力放在尚未发生的未来。
国际关系研究是应该回避还是克服预测的困难?对这个问题的不同回答反映了对预测研究的可能性、可行性和学术价值的不同理解。反对国际关系预测研究的主要理由可以大致概括如下:预测是应用性研究而非理论研究,缺乏学术性;科学研究本质上是向后看而非向前看;与物理世界具有相对稳定而简洁的规律不同,国际关系现象过于复杂多变,超过了科学能够预测的范围
预测研究的科学方法大致分为三种。第一种是物理方法(physical method),即运用物理性或类似的简洁确定的定律来进行预测。第二种方法是统计方法(statistical method),是基于数据和统计方法对未来的事件和情形进行预测的方法和程序;第三种是算法学习方法(learning method),通过设计算法在数据中寻找规律(pattern)来进行预测,包括机器学习(machine learning)、复杂社会体系分析(complex social analysis)、基于行动者的建模(agent-based modeling),等等。
我们可以通过与定律性预测进行比较来考察定量预测的风险来源。定律可以表达为
基于模型的定量预测与定律性预测在数学表达形式上,唯一不同之处就是多了一个误差项
然而,多了
国际关系现象相对于物理世界的现象更为复杂,国际关系学中也缺乏具有像物理定律那样的公理性理论,通常难以用简洁确定的公式来表达。国际关系学者在预测时必须承认,我们对国际现象的认识是局部的、不完全的、具有不确定性的,在任何一个时空点上均有广大的未知部分等待研究者去探索。承认认识的局限性和有限性,并试图明确我们在任一阶段认知的界限——我们知道什么,不知道什么,什么是
定量预测是基于对事件不完全的信息和知识来预测事件发生的概率,预测方法和过程是统计推论而不是数学计算,具有不可避免的不确定性。预测的风险有多种来源,概括起来主要有内在风险、参数风险和模型风险三类。
第一类风险是内在风险,即前文所提到的对现象不完全认识所带来的预测风险,体现为预测模型本身是或然性模型(probabilistic model)而非确定性模型(deterministic model),因此称为内在风险。从研究者方面看,我们的现有知识、信息和分析手段,只能提供对社会现象的局部理解,而大量的未知就意味着预测的偏差风险。从客观世界方面看,客观事件的发生与否,本身取决于系统性的机制和随机因素的共同作用。科学研究只对系统性机制部分——事件演化的稳定机制以及与其他事件的稳定关系——进行理解和掌握,而随机因素的冲击和影响本质上是不可预测的部分。由此可见,研究者的主观认知和待预测事件的客观规律两方面都带来了预测的内在风险,体现为上文中数学表达式中的随机项
第二类风险是参数风险,即随机事件
预测值的置信区间可以同时体现参数风险和内在风险所带来的预测的不确定性。在预测研究中,报告点预测值并非预测的全部结果,甚至不是最重要的结果,而置信区间则是预测最重要的结果,它不但包含了预测的期望值,还包含了预测的不确定性程度。
第三类风险是模型风险,即选择特定的统计模型带来的预测风险。
在预测研究中应该如何对风险进行处理?答案是控制风险和评估风险。研究者在预测工作过程中,可以通过提高用于预测的样本数据的质量和信息量以及改善数据分析的方法,来降低预测结果的不确定性和犯错的风险,但却无法完全消除不确定性。除了控制风险外,研究者需要详细报告预测的不确定性,并通过样本内预测、样本外预测以及不同预测方法之间的比较等多种方法,尽可能详细地评估预测结果的风险程度。这不但出于学术研究的严谨性和透明性要求,还因为预测结果的风险程度具有比预测值本身更高的应用价值,是决策中最重要的参考信息。
研究者在执行预测研究程序的每一个步骤中都要在不确定性中进行选择和判断,而每一个选择都会对预测结果的风险程度产生影响。因此,对风险控制的意识和方法运用须贯穿于预测程序的每一个步骤。
定量预测的第一步是确定预测任务。与对预测的通常理解不同,定量预测并非通过统计方法来判断事件是否将“发生”,而是预测其发生与否的“概率”。这是由于在定量预测中,“事件”是指随机事件,即将具有一定分布的随机变量落在某一特定的区间里定义为一个事件。例如,当随机变量是一个两分变量,如预测政治动荡事件的发生,预测的事件为“
从定量预测是对事件概率进行估计这一研究任务可以看出,定量预测的本质就是对发生不同情况的可能性进行估计,而建立在有限样本基础上的预测无法进行概率为0或1的判断(即言之凿凿的预测)。定量预测的价值正是能够在无法消除不确定性的情况下,用概率来尽可能精确地测量和表达不确定性的程度,从而为在不确定性中进行的现实决策提供辅助与指导。
统计预测的第二步是要确定预测窗口。一般情况下,预测窗口越小预测的准确性越高,预测窗口越大预测的风险越大。社会现象内在关系的稳定性相对自然现象更低,过去和现在所呈现出的趋势和关联,很少能适用于遥远的未来。窗口越大,发生在窗口内的“结构断裂”(structural breaks)的可能性越大,一旦出现结构转化,过去和现在的关系和趋势不再适用于预测未来,预测错误的可能性就越大。用低频数据(在国际关系中最常见的年度数据)进行定量预测,一般采取向前1年或2年的窗口,超过5年的预测往往因不确定性过大而对决策的辅助功能下降,而超过10年的所谓“社会预测”则基本只能称为“展望”。严谨的国际关系预测不能采用过大的预测窗口。
在第三步搜集数据中,预测的不确定性可以通过扩大样本的维度(长度和宽度)来得到降低和控制。众所周知,参数估计量的不确定性可以通过增加样本量来降低,因此研究者应该尽可能地增加样本的长度,即样本观察量的数量。而增加样本的宽度则是指尽可能地搜集潜在的预测量
预测的统计建模需要在精确性与简洁性之间进行平衡与取舍。对于以预测为目的的模型,变量数量的增加会降低(至少不会增加)预测的内在风险,因为增加变量就是缩小模型误差项
预测程序的第五步是预测结果报告和预测质量评估,即运用预测模型对数据进行处理和分析,并报告预测结果。预测包括样本内预测(within-sample prediction)和样本外预测(out-of-sample prediction)两种不同类型的预测,两种预测的目的和功能不同,但都是研究中必须进行的预测。样本内预测是建立模型后运用样本得到参数估计值及其标准差,再运用于同一样本来预测出样本中因变量的值。用数学表达即是:用一个特定样本
我们可以运用统计技术来降低不确定性,但无论研究者如何努力使用各种技巧与方法来控制风险,都无法消除风险,研究者应在尽量降低风险之外,严格地评估和报告风险。报告预测不确定性不仅是科学研究的标准和要求,而且只有报告了不确定性的预测研究才能更好地发挥对决策的辅助功能。在对第五步的预测结果进行分析和报告时,研究者不但要报告样本内和样本外预测的点预测结果,即
仅仅报告参数风险带来的预测风险还不够,在第五步中需要对预测结果的质量进行评估,即样本内预测和样本外预测与真实值相对比究竟表现如何。样本内预测从本质上是对拟合优度进行评估,可以用
冷战结束后,内战及其他形式的国家内部政治动荡带来了全球发展、国际恐怖主义、国际干涉等富有争议而棘手的国际关系问题,受到世界各国和国际组织的高度关注。对于承担全球责任和国家利益遍布全球的大国来说,研究和预测全球各国的政治稳定情况成为辅助国家外交决策的亟需,有助于大国及时保护其海外利益和人员安全,对人道主义灾难进行及时防范和应对,防止国际恐怖主义的滋生和蔓延,等等。此类具有代表性的预测尝试包括由美国国防部高级研究计划局(Defense Advanced Research Project Agency)主持的“整合性冲突早期预警系统”(the Integrated Conflict Early Warning System)
PITF项目于1994年由美国政府资助成立,研究团队由一众美国高校的学者组成,来自政治学、国际关系学以及其他多个学科领域。PITF是一个旨在理解和预测国家政治动荡的重大预测项目,目的在于建立关于全球各国各地区的政治稳定性评估和预警系统,为美国的国家安全和外交政策决策提供智力支撑。PITF定期公开发布研究报告,引起了美国国际关系学界的强烈兴趣。学者们对PITF进行再分析,改进其预测研究方法,产生了一些优秀的独立学术性成果,发表在政治学顶级期刊上。
PITF的预测任务是预测高烈度政治动荡事件(早期称为“国家失败”,即state failure)的发生概率。PITF对事件的定义包含了导致和体现严重政治不稳定情况的四类事件,即革命战争、族群战争、政体逆向变革以及种族和政治屠杀,任何一类事件的发生即计为高烈度政治动荡事件的发生。对于任一国家
PITF选用两年的预测窗口,即用预测变量
按照事件的定义,PITF样本的组建包括对从1955年至1998年世界上所有50万以上人口的国家和地区进行测量,共计包含8580个以“国家—年份”为观察单元的观察量,其中共计有114次高烈度政治动荡事件发生(
PITF的目标是要建立一个将预测变量数量控制在10个以下的简洁预测模型。研究者们在变量选择过程中采取了理论和数据建模相结合的方法,采用单一变量检测和一元回归等简单方法并综合专家的理论建议,将候选变量分作三组:第一组是有关政治和领导层情况的变量,共17个;第二组是有关人口与社会情况的变量,共13个;第三组是关于经济与环境方面的变量,共13个。PITF继而对这43个变量进行前向逐步选择和后向逐步选择。前向逐步选择是从单一变量Logistic回归开始,逐一加入新的变量,观察模型精度的提高程度。当变量的加入无法显著提高模型精度时,这个变量就被剔除。后向逐步选择是从43个变量的回归开始,逐一取出变量,观察变量减少带来模型精度的损失。如果变量减少没有显著降低模型精度,则剔除这一变量。通过这种逐一测试,并辅以机器学习的神经网络分析进行双重检验,PITF得到最终预测模型。这一变量选择方法听上去简单易行,但实际运算量巨大,43个候选变量意味着天文数字级别的模型数量。对PITF来说,检查完所有的变量组合是不可能的。报告称,研究者们在变量和模型选择方面花费了两年时间。
在最终的预测模型选择上,PITF的决定是使用单一模型,通过变量选择阶段确定一个在简洁性和精确性之间取得最佳平衡的单一模型,所有的预测基于这一个模型的预测结果。PITF的单一模型十分简洁,其全球预测模型只包含了6个变量(婴儿死亡率、政体、贸易开放、人口、人口密度和邻国处于内战或族群战争中的国家),规模最大的撒哈拉地区预测模型也只有8个变量,伊斯兰国家预测模型仅包含5个变量。
运用上一步建模所得到的简洁模型,PITF在第三期报告中宣称预测的准确率达到70%~80%。但PITF没有报告判断“预测准确性”的判断标准,加利·金(Gary King)和曾朗澈(Langche Zeng)也曾对PITF的预测工作进行批评,指出定量预测的结果是估算的概率,如需从两分的标准(预测的“对”与“错”)来判断预测表现,必须在进行预测前根据决策考虑而设定“门槛值”来进行预测分类。预测概率低于门槛值,决策者视预测结果为不发生,否则为预测发生。根据这一事先确定的门槛值,把观察量根据预测的概率分成发生(阳性)与不发生(阴性)两组,并与事实相对照,看各组的误分类(misclassification)的百分比,报告“假阳性”(false positive,即预测发生而没发生)和“假阴性”(false negative,即预测不发生而发生)的错误率。
PITF的预测工作的另外一个严重缺陷是没有报告预测的不确定性。PITF仅注意到了预测模型回归参数的标准差,但却没有报告由参数不确定性带来的预测结果的不确定性,也未见对预测结果置信区间或拟合优度的分析。PITF所言的预测“正确率”基于样本内预测结果,在整个报告中并没有报告任何样本外的预测工作和结果。此外,PITF的预测结果建立在单一预测模型基础上,未将其模型的预测表现与其他模型相比较。由于缺乏对预测不确定性的评估和分析,PITF的预测工作在关于预测结果的报告和分析部分严重缺乏科学性,降低了其研究工作的价值。
基于对PITF预测工作的批评,本文对其撒哈拉以南地区国家政治动荡的预测进行再分析,采取更为严格和规范的预测程序,运用贝叶斯方法提高工作组预测变量选择和模型建立的效率,并运用模型平均预测方法来处理和降低模型风险,对预测结果的不确定性和质量评估进行更详细的分析和报告。本文发展和运用的贝叶斯方法可以同时完成变量选择、模型比较和模型平均的多重任务,对三大预测风险来源进行同步处理。
为了便于对比,本文在再分析中沿袭了PITF的“案例控制”方法,采用PITF再取样后的样本,保留了撒哈拉以南地区国家样本中所有44个政治动荡事件发生的案例,并选取了118个对照控制案例,共计162个观察量。预测的时间窗口依然采用PITF的两年窗口。撒哈拉以南地区国家样本中的缺失数据数量较多,PITF用逐条删除(pairwise deletion)的办法来处理缺失数据,即只要变量中有缺失数据,该观察量就整条删除,这是极为简单粗暴的处理缺失数据的方法,不但会造成信息的巨大浪费,还有可能在删除过程中制造和加大样本的选择偏差。为了更好地处理缺失数据,本文运用多重替代法(multiple imputation)来填补缺失数据。
变量选择是建立预测模型的重要环节,但当候选变量数量较多时,变量选择工作极富挑战性且计算成本高昂。本文的变量选择建立在PITF通过初选得到的43个变量的基础上,但根据PITF报告,一些变量在数据库中对应多个变量,我们无法完全复原这43个变量,而是得到48个候选变量。这48个变量可以组合成数量巨大的不同模型,因此在模型比较基础上选择变量是一件工程浩大的工作。变量选择的难度还由于变量之间的共线性增大而增加。图1报告了这48个变量的相关矩阵,图中的圆圈越大表明相关性越高。对角线的相关系数为1,因为对角线算变量与自身的相关性。从图1可见,变量之间具有较强相关性的不在少数,有一些相关系数非常接近1。在多重共线性高的情况下,某些变量是否出现在模型中,会较大地影响到与它们高度相关的变量对结果产生的影响。PITF运用的逐一递增或逐一递减的测试方法,在变量间存在较强的多重共线性的情况下,会产生较大偏差。
本文采用贝叶斯针板模型(Bayesian Spike & SlabPrior Model)来进行变量选择。贝叶斯线性针板模型最早于1988年由米歇尔(T.J.Mitchell)和布恰普(J.J.Beauchamp)提出
本文使用的广义线性针板模型是杰夫·吉尔(Jeff Gill)和庞珣在乔治(Edward I.George)和麦克库罗其(Robert E.McCulloch)
其中
本文运用针板Logit模型并进行MCMC重复迭代模拟计算,对48个候选变量应被剔除出预测模型的概率进行估计。在模拟中根据回归系数被吸入“针”部分的频率来估算该变量被剔除出模型的概率。表1报告了经过了“贝叶斯学习”后得到的各变量被排除在预测模型之外的概率,即概率
虽然变量选择中出现了10个入选概率为1的变量,但并不说明建立在这10个变量基础上的预测模型就一定合理,因为这10个变量在测试中的表现与在模拟过程中其他变量是否同时出现在模型中有关,尽管其他变量的入选概率较低,但它们的出现与否会影响到这10个变量的入选概率以及效应规模。因此,仅仅根据入选概率来选定变量并构成最终模型仍然具有选择次优模型的风险,即由这10个拥有入选概率为1的变量组成的模型未必具有最佳的样本内和样本外预测表现。
针板模型的“选择性收缩效应”(selective shrinkage effect)在完成变量测试任务的同时还可实现模型平均。模型平均预测是基于多个预测模型预测结果进行加权平均,而权重是各预测模型的相对质量。
贝叶斯模型平均(Bayesian Model Averaging,简称BMA)是一种用来解决由模型不确定性造成推论和预测难题的方法。
上式是运用观察到的数据
在对撒哈拉以南地区国家政治动荡数据的分析中,针板Logit模型在模拟中抽样出了由不同预测量组合而形成的25个不同的模型。图3报告了这25个模型出现的经验概率以及所包含的变量(变量编号同表1的编号)。在模拟中,上文所提及的14个入选概率为0的变量没有出现在任何一个模型中。最简洁的模型包含了13个变量,比变量选择测试中的10个入选概率为1的变量多出3个。尽管变量选择测试中有10个变量入选概率为1,但仅以这10个变量组成的模型却没有在模拟过程中出现过。从模型的概率分布情况来看,其中22个模型的后验概率非常小,而概率最高的3个子模型的权重分别为0.1699、0.1212和0.1208,远高于其他模型,但没有一个模型有超过0.2的概率,说明在这一预测任务中,使用单一模型预测的模型风险较高。最优模型
根据这25个模型预测结果的加权平均(权重为图3的第二列),我们对样本中162个时空点上高烈度政治动荡事件发生的概率进行样本内预测。图4报告了对爆发政治动荡的概率的点预测值和95%置信区间。图4中的虚线将观察量按政治动荡事件实际情况分为“发生”与“不发生”两组,虚线左边的时空点是样本中观察到的动荡事件发生的案例,而右边是控制案例,没有发生政治动荡事件。图4中的点预测和区间预测在概率分布上将事件发生与不发生的情况清晰地区分开来。从总体上看,对那些动荡事件(
如果将门槛值设在概率为0.5,将那些预测概率高于0.5的单元定为预测“发生”,而低于0.5的单元定为预测“不发生”,本预测将可以宣称拥有100%的正确率。然而在实际预测中,门槛值应该在预测进行之前根据实现决策需要而设定,而不应当在事后根据预测结果来选择最大化“正确率”的门槛值。例如,如果我们认为“假阴性”错误带来的政策损失比“假阳性”错误大,那么这个门槛值在预测进行前就应设为低于0.5,低多少根据错误的相对代价进行设置,反之亦然。如果事先的门槛值设在0.7,则本预测即使将两类事件的预测区间完全区分开,仍然会根据门槛值在11个事件的预测上犯“假阴性”的错误,错误率为7.84%。PITF声称他们的正确率为80%且不报告置信区间、不报告门槛值、不报告门槛值的设置理由的做法是错误的。
本文进而通过对BMA预测和单一最佳模型预测的比较来进行模型预测质量及风险评估。在对预测的风险进行分析时,本文首先比较BMA和单一模型样本内预测的精度,然后采用预测对数得分
为了评价BMA和三个有最高后验概率的单一模型的预测表现,本文使用ROC曲线。加利·金(Gary King)和曾朗澈(Langche Zeng)在对PITF的预测结果评估方法进行批判时也主张并使用ROC曲线来进行预测质量评估。
关于样本外预测的表现和风险的评估比样本内预测更具有价值。为了进行样本外预测评估,本文先将样本分为训练组和检测组两个部分。在保证政治动荡事件发生的案例随机且平均地进入两组的情况下,本文将162个观察量随机分为两组。然后,我们用训练组数据进行模型训练,通过针板贝叶斯方法进行模型比较和选择,共选出27个模型并计算出它们的经验概率。其中两个模型的出现频率远高于其他模型(这两个子模型的后验概率分别是0.2134和0.1983)。
接着,我们用基于训练组数据而得到的模型和参数,对检测组数据进行预测,预测的时候分别使用BMA预测和单一最佳模型预测。这一预测过程比较简单,就是将检测组的
霍汀(J.A.Hoeting)等提出的预测对数指数(predictive log score)来计算决策风险,计算方法如下
指数得分越高,预测偏差越大。其中
本文运用这一标准来比较针板模型的BMA预测与单一最佳模型在政治动荡预测中的表现。运用上面两个公式计算BMA和单一模型的预测对数指数,报告在表2中的最下一行。BMA的预测对数指数小于单一模型8分左右,样本外预测表现最优。
另一种常见的用于比较预测风险的方法是分类法,即根据预测结果和门槛值将观察量划分风险等级,然后与实际观察到的事件类型进行对比,计算和对比不同预测在分类上的正确率。这种方法在预测研究中较为常用,因为风险等级类型比连续性的数值预测值更为直观,对政策制订者尤其具有吸引力,具体程序如下:
第一步,基于训练组数据得到预测模型,即得到模型
第二步,运用检测数据来计算每一“国家—年份”的风险倾向(risk propensity),即
第三步,运用计算所得的风险倾向的分位数来确定模型的低、中、高风险组;
第四步,对照检查被分到不同组别的国家政治动荡事件发生的实际情况,算出正确归类的百分比;
第五步,对比不同预测模型(方法)在各风险组的正确分类百分比。
给定临界值(分位数),如果一个模型把更多的政治动荡案例分配到较低风险组或者把更多的政治稳定案例分配到高风险组,则表明预测的表现更差。本文用3组不同的临界值选择来进行分类。第一组临界值运用分位值1/3和2/3,这个均分的选择可能是最常见的、最方便的选择,但却缺乏风险决策考量;第二组临界风险值是百分位数值40%和60%,其考量是基于政策制定者对位于中间的风险组兴趣不如两个极端组别大;第三组临界值是百分位数值20%和40%,基于假定错误预测将动荡国家错误划分到低风险组(“假阴性”)的代价较大,而通过将高风险组别的临界值降低来制定政策以帮助更多国家。我们将BMA模型与最佳的两个单一模型相比较,结果报告在表2中。尽管风险分类有不同临界值,但BMA比其他单一模型的效果要好:在绝大部分情况下,BMA分配到高风险组的观察单元比其他两个单一模型分配的高风险观察单元有更高的政治动荡比例,而被BMA分类为低风险的观察单元比其他两个单一模型分配的低风险观察单元政治动荡率更低。所有模型都将一些事实上经历了政治动荡的观察单元分到中等风险组,且有时其发生动荡的实际比率比高风险组还要高。这可以归因于训练组样本容量比较小,因而推断和预测的精确度整体较低。但数据的信息不足不妨碍我们对预测方法的相对表现进行比较。
在政治动荡预测分析中,BMA的样本外预测显然比单一最佳模型效果要好,但在样本内预测上只比单一最佳模型效果略胜一筹。在样本内预测中,由48个协变量的针板模型确定了25个子模型,其中3个的概率远高于其余22个。前3个最佳模型在预测方面效果相似。由于BMA主要基于这3个模型,所以它得出的样本内预测概率是相似的。但在样本外预测方面,检测组的内在机制只是基于训练组推断出的,但训练组数据中反映出的变量之间的关系很有可能与检测组有较大差异,即使两个组别是随机选择的。对于样本规模不到100的训练组来说,对变量间关系的推断具有较大的不确定性。BMA考虑到了模型不确定性并将训练组的信息用于所有可能的机制上,而其他模型只是将训练组得到的某一模型视作唯一“真实”的、适用于检测组的机制。正因为如此,BMA的预测因考虑和处理了模型不确定性而表现得更好。单一模型由于忽视了模型的不确定性,预测风险更高。模型风险越高,BMA相对于单一模型的优势就越明显。
本文探讨了国际关系定量预测的风险来源和处理方法,并对PITF预测项目进行评述和再分析,旨在强调使用定量方法进行国际关系预测时对预测风险进行控制和报告的重要性,并以此管窥处理和评估预测不确定性的方法和工具。国际关系现象相对于物理世界的现象更为复杂,也缺乏像自然科学领域内所具有的定律、公理和定理,难以用简洁确定的数学公式来表达,而只能用或然性统计模型来拟合。对于国际关系预测,我们须承认对现象认识的局部性、不完全性和不确定性,直面预测的风险程度。建立在概率论基础上和以随机变量为分析基础的统计学方法广泛运用于具有高度不确定性的社会科学预测,其最大的优势就在于能够系统评估和表达不确定性,以及能够根据预测风险的不同来源设计定量工具来对风险加以控制。
在再分析实例中,本文运用较为前沿的贝叶斯针板模型进行模型平均预测,将变量选择、模型比较和模型平均等具有挑战性的任务在同一过程中完成,相比传统的统计模型和机器学习方法具有更高的效率。尤其是BMA预测,尽管其对模型风险控制的优势得到学界公认,但由于应用时面临着较大的技术困难,在国际关系预测中仍不常见。本文所用的贝叶斯针板模型和MCMC模拟方法能够在迭代抽样中自然获得模型权重,使得模型平均预测简单易行,具有广阔的应用前景。除了本文应用的方法外,实现变量选择和模型比较的定量工具其实还有很多,常用的如神经网络分析法(neural network analysis)、LASSO、岭回归技术(ridge regression)、弹性网络(elastic net)等发展成熟的方法,可供研究者选择。随着大数据分析的兴起和算法科学的发展,此类的工具正在迅速地创新和更新,本文应用的贝叶斯针板模型也是这个趋势的体现。
国际关系预测研究富有前景,定量预测方法也已经发展得非常成熟,我国的国际关系研究者应该大胆尝试预测领域的研究。创新和开拓不能回避有风险的研究领域,虽然预测研究相较传统的研究任务显得风险更高、不确定性更大,但其应用价值和创新潜力值得我国的国际关系学者关注。其实,任何科学研究均具有风险,没有风险的研究往往等同于没有价值的研究。对研究风险的处理和评估,不但是科学研究的必须,而且其本身就是科学研究的组成部分。国际关系学者在不畏惧、不回避预测研究风险的同时,也需要对预测风险具有足够的重视和充分的认识,严格遵循预测研究程序,掌握和运用多种方法,在执行预测程序的每一个步骤中对风险进行管控,并详细评估和报告预测的风险程度,保障国际关系定量预测的科学价值和应用价值。
本研究是教育部国别与区域研究指向性课题“国际安全的大数据研究”的阶段性成果。
Kalev H. Leetaru, “A Big Data Approach to the Humanities, Arts, and Social Sciences: Wikipedia's View of the World Through Supercomputing, ”
相关讨论可参见D.Sarewitz, R. A.Pielke, & R. Byerly,
Philip E. Tetlock,
Michael S. Lewis-Beck, “Election Forecasting: Principles and Practice, ” working paper, 2006, p. 145.
Robert Nau, “Principles and Risks of Forecasting, ” Working Paper, 2014, p. 7.
参见Tamas Kristof, “Is It Possible to Make Scientific Forecasts in Social Sciences”,
Schrodt Phillip A. , “Forecasts and Contingencies: From Methodology to Policy.” Working Paper, 2002, p. 2.
Karl R. Popper,
Jeff Barrett and P. Kyle Stanford, “Prediction, ” in
Xiaomin Xu et al, “A Multi Time Scale Wind Power Forecasting Model of a Chaotic Echo State Network Based on a Hybrid Algorithm of Particle Swarm Optimization and Tabu Search,”
本文所讨论的定量预测包括统计预测、数据挖掘和机器学习等进行的以算法为主的预测,在一些文献中后者被称为learning approach,以区别于传统统计方法。本文在对定量预测的理论探讨中,侧重于基于统计模型的预测,主要是为了讨论的清晰和容易理解。数据挖掘和机器学习的方法可以运用于非模型预测,也可以运用于基于模型的预测,它们是预测模型统计建模的常用方法。本文在对政治动荡项目进行再分析时运用的建模方法就是机器学习的一种。
例如Hemant Ishwaranand J. Sunil Rao, “Detecting Differentially Expressed Genes in Microarrays Using Bayesian Model Selection, ”
关于预测风险的讨论还可参见“Robert Nau, Principles and Risks of Forecasting”, Working Paper, 2014, pp.7-8.
参数风险仅适用于参数预测模型,非参数预测模型不具有参数风险,但并不等同于非参数模型预测的总体风险一定低于参数模型预测。
这一项风险也适用于非模型预测,模型风险实际为不同算法选择的风险。鉴于一般对“模型”这一概念的熟悉程度高于算法,本文使用“模型风险”一词。
Jacob M. Montgomery, Florian M. Hollenbach, and Michael D. Ward, “Improving Predictions Using Ensemble Bayesian Model Averaging, ”
J.S.Armstrong ed.,
Jacob M. Montgomery and Brendan Nyhan, “Bayesian Model Averaging: Theoretical Developments and Practical Applications, ”
Michael D. Ward et al., “Stepping into the Future: The Next Generation of Crisis Forecasting Models, ” Technical Report, April 26, 2012, http://www.guillaumenicaise.com/wp-countent/uploads/2013/10/Crisis-Forecasting-Models.pdf.
项目网站参见http://eventdata.parusanalytics.com/index.html。项目介绍参见Philip A. Schrodt,
《经济学人》2012年4月刊对一系列项目进行了报道。参见“The Science of Civil War,”
Daniel C. Esty et al., “Failed States and International Security: Causes, Prospects, and Consequences, ” Working Paper, 1998, http://www.comm.ucsb.edu/faculty/mstohl/failed_states/1998/papers/gurr.html.
Jack A. Goldstone et al., “A Global Model for Forecasting Political Instability, ”
参见http://globalpolicy.gmu.edu/political-instability-task-force/political-instability-task-force-home/.
参见哈佛数据空间,https://dataverse.harvard.edu/dataset.xhtml?persistentId=hdl:1902.1/RPQIODIANR;宾夕法尼亚州立大学事件数据项目网页http://eventdata.parusanalytics.com/data.dir/atrocities.html;INSCR Database,全称“The Integrated Network for Societal Conflict Research”, http://www.systemicpeace.org/inscrdata.html.
Gary King and Langche Zeng, “Logistic Regression in Rare Events Data, ”
Burt L. Monroe, “The Five Vs of Big Data Political Science, ” Introduction to the Virtual Issue on Big Data in Political Science Political Analysis, ”
Gary King and Langche Zeng, “Improving Forecasts of State Failure,”
加利·金和曾朗澈全面批判了“工作组”缺失数据的处理、统计预测的策略及预测成功的评估,并提出了替代方法。该团队修正了他们所运用的一部分方法,并将修正后的版本发布在2011年的《美国政治学评论》上。
D.B.Rubin,
T.J.Mitchell and J. J.Beauchamp, “Bayesian Variable Selection in Linear Regression, ”
Hemant Ishwaran and J. Sunil Rao, “Spike and Slab Gene Selection for Multigroup Microarray Data, ”
Edward I. George and Robert E. McCulloch, “Variable Selection Via Gibbs Sampling, ”
Hemant Ishwaran and J. Sunil Rao, “Spike and Slab Variable Selection: Frequentist and Bayesian Strategies, ”
Xun Pang and Jeff Gill, “
Jeff Gill,
Hemant Ishwaran and J. Sunil Rao, “Clustering Gene Expression Profile Data by Selective Shrinkage,”
Robert E. Kass and Adrian E. Raftery, “Bayes Factors, ”
G为一个足够大的数,一般高于1000万。
J.A.Hoeting et al., “Bayesian Model Averaging: A Tutorial (with discussion),”
Gary King and Langche Zeng, “Improving Forecasts of State Failure,”
J.A.Hoeting et al., “Bayesian Model Averaging: A Tutorial (with discussion),”