当前位置:无忧公文网 >范文大全 > 征文 > DDTR:大数据背景下的学生就业率预测模型

DDTR:大数据背景下的学生就业率预测模型

时间:2022-03-20 10:26:56 浏览次数:

摘 要:伴随大数据驱动的深入感知及预测方法的飞速发展,分析及研究学生就业率的变化趋势,对调整课程结构、提高学生就业率,均有较好的促进作用。本文基于在校学生的多项课程成绩,利用贪心选择策略,建立了采用自学习模式的就业率预测模型DDTR,通过混淆矩阵各项系数验证,该预测模型具有较高的就业预见性,对学校课程规划及学生就业具有一定的指导意义。

关键词:大数据;就业率;机器学习;Weka

中图分类号:TP315 文献标志码:B 文章编号:1673-8454(2018)21-0048-03

一、引言

近年来,伴随国际产业形式的调整及我国经济结构的不断深化,有效应对经济新常态对于人才的需求成为教育行业的首要任务。而其中,就业环节作为评测人才供给与人才需求的核心,已成为关键。2017年,党的十九大报告指出:“就业是最大的民生。提高就业质量,要堅持就业优先战略和积极就业政策,实现更高质量和更充分就业”。另一方面,全国应届毕业生人数在逐年增加,这给学生就业前景增加了更多的不确定性。“互联网+”时代的来临,将不可避免更深入地促进产业结构的调整。因此,分析研究就业率的变化趋势,把握新经济形势下社会发展的脉搏,将有利于高校、学生准确地进行专业、就业定位,评价自身能力,从而能更从容地适应新产业形势下的机遇和挑战。

基于此,本文通过大数据的分析方法,以高校真实数据为例,建立了利用自学习模式的就业率预测模型DDTR,有效地对就业前景进行预测。

二、DDTR系统架构

就业率是学校用于评价教学质量和应届学生能力的指标,对于学校和社会间良性作用的程度具有客观的反映。影响毕业生就业的因素具有多样性,通过对毕业生和招聘单位的调查,学生的学业成绩是就业率一个非常重要的影响因素,

本文旨在建立一种基于学生学业成绩的就业率预测模型,通过历史数据的比对,审查和规划学校的发展。同时,通过产生可能就业困难学生名单,学校可对这些学生进行针对性指导,帮助学生就业。基于成绩的就业率预测框架DDTR(data normalization-dimension specification-decision tree-employment rate)是一个自学习系统,如图1所示,每一次预测后,预测报告都要和真实报告进行分析匹配并最终给出反馈意见,进一步修改和完善预测模型。

三、DDTR模块分析

DDTR中的学生成绩主要来自于课程成绩,基于此,本文将学生的课程成绩作为模型的训练样本。系统的功能模块如图2所示,由3大模块组成,其中决策树模型模块负责将输入的数据根据相应算法进行分析后生成预测文件;原始数据处理模块负责将学生的课程成绩处理成预测模型需要的数据格式;测试与分析模块则负责将预测后的数据进行分析,以便进一步改善预测模型。[1]

1.决策树模型

决策树[2]是一种由结点和有向边组成的层次结构,树中每个终端结点被赋予一个类标号,非终端结点包含属性测试条件。每个待预测条目,从根结点往下,根据结点中的属性测试条件,选择相应TOPDOWN方向,进入子结点,再次测试,一直重复迭代递归,直到到达叶子结点。叶子结点代表了一个特定的类标号,带预测条目从根节点往下抵达叶结点的过程就是决策树分类的过程。

DDTR模型采用贪心选择策略,将训练样本记录相继划分为较纯的子集,以递归的方式进行建立。属性测试条件和决策树的结点关联,用以将记录集划分为较小的子集,对于测试条件的每一个输出,创建一个孩子结点,根据测试结果将结点中的记录分布到创建好的孩子结点中。模型使用Weka提供的J48决策树工具来实现,其中决策树算法采用的是C4.5的实现。

Weka[3]是使用Java编写的开源机器学习工具和数据挖掘软件。作为公开的数据挖掘平台,集合了数据预处理、分类、回归、聚类和关联规则等算法。决策树模型生成过程如下:首先进入explorer功能,使用preprocess选项卡导入转换好格式后的Weka输入文件,转至classify选项卡选择tree分类器下的J48工具,填入自定义的决策树参数。这里使用参数J48-C0.25-M2,点击Start,Weka将训练模型生成决策树模型,如图3所示。

其中每一个属性的数据类型都是numeric,对于这种连续的属性,决策树需要找到相应的划分点,将实数轴上的区域进行二分。如图3中的0.54、0.38这些数值,即选取划分点,从而对于连续属性而言,属性测试条件变成了具有二元输出的比较测试。二元划分父结点,产生一棵二叉的决策树。

2.原始数据处理

根据上文中预测模型需要的输入文件格式,需要对数据进行预处理[4],首先进行数据清洗,剔除缺失数据和无用信息,然后对数据进行归一化处理,利用相似性度量对课程进行归类,将同一类下的课程成绩利用学分进行合并,最终将所有课程划分为13个聚类,聚类内科目成绩关于学分的加权平均作为此聚类的得分。聚类作为分类器的输入属性,聚类得分/表现作为属性下的值并以此作为训练决策树分类器的输入。

(1)数据清洗

在实际应用中,数据往往不够“干净”,需要通过一系列步骤来对“脏”数据进行清洗,首先填补缺失值,然后确定并删除“噪声”数据,以确保数据质量。如果有些重要的属性由于各种原因导致没有数值,那么在数据清洗时要对这些空缺属性值按照约定进行处理:如果一条记录中多个属性值空缺,或者关键属性值空缺,则将这条记录忽略;如果属性值相对比较重要,并且空缺值不多,则可以根据相关经验将空缺值补充完整;如某位同学的多条成绩信息未知,那么则对这条数据进行整体删除;同时,原始数据的所有属性不一定都在数据挖掘中使用,应该选择合适的属性进行挖掘,删除不必要的属性。在本预测框架中,以信息与计算科学专业为例时,将《大学语文》、《中国近代史纲要》、《大学体育(一)》、《大学体育(二)》课程进行了删除,保留了所有专业课内容以及大学英语课程。

(2)数据归一化

由于课程的难易程度和给分标准不同,要对学生的成绩进行归一化处理,在归一化处理之后,归一化后的值代表了该学生的成绩在整个班级分数里所占的名次。假设某学生某门课程的成绩为X,则归一化后的成绩为:

X*=(X-Xmin) /(Xmax-Xmin)(1)

其中代表归一化后的成绩,Xmin表示该门课程的最低成绩,Xmax表示该门课程的最高成绩。

(3)维度规约

根据上文建立的预测模型,若直接将每门课程的成绩作为属性带入具体的算法中运行,系统会因属性过多而导致性能下降,在不影响预测效果的基础上,本文对归一化后的数据进行了维度规约。维度规约的方法依据数据的相关性,采用如下两条原则:

原则一:若A和B相关系数大于0.5,则认为A和B相关。

原则二:若A和B相关,B和C相关,A和C相关,则认为ABC相关。

本文采用公式(2)对两两课程之间的相似性度量,其中xi、yi分别表示课程A、B的每位学生归一化后的成绩,x、y分别表示课程A、B的成绩平均值。

r=(2)

其中r为Pearson系数,取值范围为[-1,1],用来反映课程之间相关性的强弱,若r的值为[0,0.3),表示两课程弱相关;若r的值为[0.3,0.5),表示两课程低度相关;若r的值为[0.5,0.8),表示两课程中度相关;若r的值为(0.8,1],表示两课程高度相关。

以《大学英语(一)》与《大学英语(二)》和《大学英语(一)》与《概率统计》为例,前者的Pearson系数为0.81,后者的Pearson系数为0.14,如图4所示,其中《大学英语(一)》与《大学英语(二)》之间各位同学基本保持了班级排名不变,两课程间是高度相关关系,《大学英语(一)》与《概率统计》之间是弱相关关系。通过对37门课程之间Pearson系数的分析,最大Pearson系数产生在《大学英语(一)》、《大学英语(二)》、《大学英语(三)》、《大学英语(四)》之间,值在0.8附近。数据结构与离散数学的Pearson系数为0.75,两门课程相关程度比较高,体现了计算机与数学在深层次中的关联。

根据维度归约原则,若ABC相关,则将ABC分在同一类中,本模型将37门学科分成了13个聚类,并且根据聚类中的每科得分,計算出每类课程的最终得分。经过数据预处理之后,其数据结果形式如图5所示。

四、模型测试与分析

本文使用模型准确度来评价模型的好坏。对于输入的样本,很容易出现过拟合的现象。采用10折交叉验证有助于防止或减轻这种情况。本文利用得到的混淆矩阵分析来测试模型的准确度。

本预测框架DDTR得到的混淆矩阵如表1所示。

混淆矩阵可以反映算法性能,其每一列代表预测值,每一行代表的是实际的类别,用于表明多个类之间是否有混淆。表1中a表示的是不就业0,b表示的是就业1。有9+25=34个样本被准确分类,有8个样本被误分,正确划分的实例样本比例是80.95%。

对于b,其TPR(True Positive Rate)为25/(25+4)即0.862,其FPR(False Positive Rate)为4/(4+9)即0.308,其余参数列表如表2所示。

根据TPR、FPR、Precision、Recall,框架的预测结果是有预测意义的,模型的分类效果在当前42个输入实例样本的表现是正常的。考虑到整体的样本数比较少,预测框架的性能将随着以后训练样本数的增加而提升,随着输入样本的增加,预测模型的准确度将大大提升。

五、结束语

本文通过决策树算法建立一个就业率预测模型DDTR,将数据归一化和维度规约后的数据作为输入来预测学生的就业情况,并通过10折交叉验证来验证预测模型的正确性。旨在通过此预测模型,辅助学校对课程体系进行规划,帮助学生就业。

参考文献:

[1]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1126-1130.

[2]张棪,曹健.面向大数据分析的决策树算法[J].计算机科学,2016 (S1).

[3]郑世明,苗壮,宋自林,高志年.WEKA环境下基于模糊理论的聚类算法[J].解放军理工大学学报(自然科学版),2012(1).

[4]邹杰.基于数据挖掘的数据清洗及其评估模型的研究[D].北京:北京邮电大学,2017.

(编辑:王晓明)

推荐访问: 就业率 模型 预测 数据 学生