大数据时代的经济学思考：数据驱动范式

时间：2022-03-06 08:24:41 浏览次数：

��zoޛ�)j馝��i�O4�M��Mu�͙VA��m��u<��Mw��T=��mYa�m��i��]��i?��<#� �M�M5�Qt�Tv�Ў5�ky 评价。而交叉检验应用原数据进行评价比假设检验更科学，在上述案例中，随机森林算法的模拟效果比多元线性回归模型要好的多，经过4折交叉检验，随机森林算法的测试集平均标准化均方误差为0.253，预测精度非常高，而多元线性回归模型测试集的平均NMSE则为4.378，结果还不及均值预测。因此结论是通过了T检验和F检验的多元线性回归模型仍然对于中国经济增长的分析是不准确的，还是需要由随机森林算法来进行分析。

三、科技创新数据集的随机森林模拟

随机森林模拟算法能够有效克服多元线性回归模型的不足，提升数据的驱动能力，对推动经济学的变革，具有重要作用。在对科技创新数据集进行随机模拟的过程中发现，制度因素是影响科技创新数据集驱动力的关键。人力资源和物力资源也是影响科技创新数据集的重要因素，固定物力对科技创新数据集的作用最不明显。研究结果表明，回归模型的驱动范式和随机森林模拟算法的驱动范式各不相同。单纯从模型的角度来说，包括多元线性回归模型和岭回归模型在内的回归模型，能够更加直观明了的显现出科技创新数据集的驱动力，同时，岭回归模型的驱动要大于多元线性回归模型的驱动力，能够更为准确的揭示科技创新数据集各变量之间的关系。原因是由多重共线对多元线性方程具有一定影响。而随机森林模拟算法未能建立统一的模型，对科技创新数据集驱动力的评价采用最优化算法，参照各个变量间的相互关系，获得测算结果。从对数据的要求来说，科技创新数据集与经济增长数据集具有相似性，在科技增长数据集中，多元线性回归模型的假设数量过多。以至于无法满足所有的假设。同时，由于多元线性回归模型受多重共线性的影响较大，不利于数据的拟合，因此，不得不依靠岭回归模型克服多元线性回归模型的弊端，但通过建立岭回归模型的方式，设定惩罚系数，也会在一定程度上降低模型测定的准确性。通过采用随机森林模拟算法，不需要对数据进行假设，大大减低了应用条件的限制，提升了算法的适应性。从预测的准确性来看，多元线性回归算法、岭回归算法和随机森林模拟算法的准确性都很高，其中一多元线性回归算法的准确率最高。原因是多元线性回归模型的决定系数高于其它两种算法。如果仅仅是为了实现对数据的预测，则可以忽略多重共线性，选择多元线性回归模型。基于此，笔者认为，应根据数据集的使用目的选择科学合理的算法。例如，在研究各变量之间的关系时，可采用岭回归算法和随机森林算法对数据进行拟合并求得结果。如果仅仅是为了实现对数据的预测，那么则应排除多重共线性对多元回归模型的影响，采用多元回归模型对数据进行预测。通过以上研究发现，利用多元回归模型对数据进行预测，准确率较高，岭回归模型能够克服多元线性回归模型的弊端，随机森林算法在数据集的拟合上较为稳健。因此，应结合实际情况，对三种方法进行合理运用。

四、結语

模型驱动和数据驱动两种范式之间的关系类似于牛顿力学、相对论和量子力学的关系，模型驱动范式在数据信息不发达的时代为经济学的研究做出了不可忽视的贡献，而现今在大数据爆炸式增长的时代，数据驱动范式利用模式驱动范式的研究理论和成果发展迅速，二者共同推动经济思想和理论的进步。

推荐访问: 数据范式 经济学 思考驱动