当前位置:无忧公文网 >范文大全 > 征文 > 随机模拟技术在概率统计教学中的应用探究

随机模拟技术在概率统计教学中的应用探究

时间:2022-03-04 08:37:52 浏览次数:


打开文本图片集

【摘要】 利用R软件,将随机模拟技术应用到概率统计课程课堂教学中,实现对常用概率分布、大数定律、中心极限定理与假设检验等重点、难点内容进行实验式直观课堂教学,便于学生更好理解并掌握本课程的概念、知识与原理,为应用型本科院校的数学类课程课堂教学改革提供借鉴.

【关键词】 随机模拟;R软件;概率统计;课堂教学

【基金项目】 嘉兴学院南湖学院2017年课堂教学改革项目:“基于R软件的《概率统计》课程实验式教学探究”研究成果.

概率论与数理统计是一门研究随机现象及其规律的现代数学学科的重要分支,在自然科学、社会科学和工程技术等各个领域有着极其广泛的应用,特别是随着大数据、人工智能、机器学习方法的进一步发展与应用,该学科越来越受到广大业界与学者的重视.但由于其研究对象为随机现象,学科中所涉及的概念与方法独特,内容丰富,结果深刻,课程知识学习思维不同于传统的其他数学课程,并且概念繁多且较难以理解,又需要具备微积分学的基础,使得广大学生在学习本课程中存在较大的困难.另一方面,在课堂教学方式上,传统的课堂教学方法是教师采用课件展示,板书演算讲解,更多注重解释课程知识的数学原理,忽视概念知识点的模拟试验演示、图形图像化的直观展示与计算过程的计算机演示等,造成广大学生往往是被动接受相关的概念知识与方法,对抽象概念的实质领会可能存在较大困难,反映在本课程的课堂教学上,学生普遍反映不好理解课程中的抽象定义、概念、公式与计算,遇到问题往往不知如何分析,无从下手,从而导致较多学生对本课程的学习积极性不高,兴趣不浓,甚至存在少部分学生对本课程学习产生畏惧心理,使得课程课堂教学效果不够理想.为此,如何改变本课程的传统理论教学模式,探究对本课程的课堂教学改革,实现将复杂、抽象的概率统计概念、原理变得直观、形象,容易理解,从而激发广大学生对本课程的学习兴趣,提高学习的主动性,增强学习的信心,一直以来,广大讲授概率论与数理统计课程的教师在进行着不断的探索[1].

随着计算机技术的迅猛发展和统计软件强大功能的逐渐凸显,概率统计课程的课堂教学实验化逐渐成为现实.由于R软件[2-3]具有体积小、免费、自由、友好的界面、强大的可视化功能、有数以万计的程序扩展包等多方面优势,在当前,其迅速兴起,以及被广泛使用于各种数据分析工作中,它已经成为当前国外大学课堂教学[4]中使用的标准软件之一,随着国外R软件图书资料的引入及其中文版译书的增多,国内广大教师与业界人士也越来越重视R软件的使用.R软件大量的程序扩展包不但能够引领学生学习先进的统计理论,也能为他们学习计算机编程提供优秀的范例.笔者认为,利用R软件的强大计算与图形展现能力,将随机模拟技术应用到概率论与数理统计[5]的课堂教学中,向学生展现随机现象发生的全部可能的结果,对结果的分析计算,进行直观演示,绘制数据的图形图像,实现“所思”即“所见”,使得学生能深刻理解课程的知识原理与结论.通过基于R软件的随机模拟技术易于将抽象问题直观形象化,并应用于教学内容的验证与知识的探索,使得广大学生带着问题,通过自己编程独立地解决实际问题,这将改变传统的理论教学模式.直观形象的可视化教学[6]能极大激起學生学习的兴趣,提高教学效果,是适应时代发展需要的课程改革非常有益的尝试.

一、常用随机变量概率分布模拟

随机变量的概率分布是概率统计课程中基础而又重要的内容,其主要用于描述随机变量取值的概率规律,其是对现实世界数据进行建模的重要工具.在基础概率统计课程中主要是二项分布、泊松分布、均匀分布、指数分布、正态分布以及统计抽样中的卡方分布、t分布与f分布等.在R软件中给出了各 种概率分布的统一相关函数的计算式,即前缀+分布名称.前缀d表示概率密度函数值,p表示累积概率密度函数值,q表示分位数,r表示模拟产生相应分布的随机 数.

二、大数定律的模拟验证分析

大数定律回答了在试验条件不变下,随着试验次数的增多,随机事件的频率将接近其概率.设X1,…,Xm是一个独立同分布的随机变量序列,X 表示其样本均值,μ表示总体均值,则有当n→∞时,X →μ.该结论描述了样本均值变化的趋势,反映了平均结果的稳定性这一随机现象最根本的性质之一.

从图1可以发现,当样本量较少时,样本均值稳定性不是很好,但是随着样本量的增加,样本均值逐渐收敛到总体均值的特征越来越明显.

从大数定律中可以看到样本均值的收敛性质,但如果要进一步回答样本均值可能服从的分布,大数定律就无法给出结果,只有基于中心极限定理才能给出明确的回答.

(一)模拟的算法步骤

第一步:从常见的分布中选择一个分布,例如,均匀分布,从中产生若干个随机数;第二步:计算这些随机数的均值,即获得样本均值;第三步:变化生成随机数的数量,多次运行第一步、第二步.

(二)验证程序

设置从标准均匀分布中抽取1 000个随机数,计算其关于抽取次数的样本均值,运行程序如下:n=1000;y=rep (0,n);for(i in 1:n){ y[i]=mean(runif(i))};x=1:n;plot(x,y).

三、中心极限定理的验证分析

众所周知,正态分布的总体的样本和样本均值当然服从正态分布.对于不是正态分布总体的样本,随着样本量的增加,其样本均值的分布会越来越接近正态分布,这个可以解释自然界中许多现象,可以认为近似服从正态分布.对投掷骰子试验,如果投掷多次,其出现的点数之和的概率分布将趋近于正态分布,即出现的点数之和不会很大也不会很小,“中心极限”的教法就逐渐形象直观了.

(一)模拟的算法步骤

第一步:选择随机变量Xi所服从的分布类型,常见的有正态分布、均匀分布、指数分布、二项分布和泊松分布等;

第二步:设置模拟的总次数m与每次模拟试验中样本容量n;

第三步:基于R软件产生n个服从相同分布的随机数Xi(i=1,…,n);

第四步:利用n个随机数计算出标准化后的随机变量Yj,Yj= ∑ n i=1 Xi-nE(Xi)  n·var(Xi)  ,j=1,…,m;

第五步:重复运行第三、第四步Y1次,得到Y1,…,Ym;

第六步:对上述Y1,…,Ym进行正态性检验和描述统计分析,主要方法有QQ图检验、正态性检验以及均值、方差、偏度系数与峰度系数等.

(二)中心极限定理的模拟验证程序

假设随机变量服从二项分布,z~B(n,p),设其标准化后的随机变量是x,程序如下:

m=500  #m模拟次数

n=12;p=0.35

z=rbinom(m,n,p)  #产生500个二项分布随机数

x=(z-n*p)/sqrt(n*p*(1-p))  #对500个二项随机数标准化

hist(x,prob=T,main=paste("n=",n))

curve(dnorm(x),add=T)  #增加正态曲线

sim.clt<-function(m=500,n=12,p=0.35){ z=rbinom(m,n,p);x=(z-n*p)/sqrt(n*p*(1-p))

hist(x,prob=T,breaks=10,main=paste("n=",n,"p=",p,"m=",m));curve(dnorm(x),add=T)}

par(mar=c(4,4,2,1),mfrow=c(2,1),cex=0.8);sim.clt();sim.clt(1000)

par(mar=c(4,4,2,1),mfrow=c(2,1),cex=0.8)

sim.clt(1000,20)  sim.clt(1000,30,0.5)

从图2可以看出,不同样本容量下,服从二项分布总体的样本均值的密度曲线与标准正态分布的密度曲线将随着样本量的增大,近似程度越来越高.

中心极限定理模拟近似图

四、假设检验模拟验证分析

(一)假设检验基本原理简述

假设检验是利用样本的信息来推断样本与总体差异,是由于抽样误差还是本质差别所造成的统计推断方法之一.其基本原理是先对总体的特征给出某种假设,通过来自总体的样本信息依据小概率事件反证原理来给出对假设的判断.小概率事件原理是指发生概率低于0.01或0.05的事件在一次试验中不会发生.反证法思想就是现提出假设,再来计算在假设成立条件下事件发生的概率,如果概率小于事先设定的小概率,则认为假设不成立,如果事件发生的概率大于小概率则不能认为假设不成立.

(二)假设检验的实现步骤

第1步,提出原假设H0与备择假设H1;第2步,根据要检验的问题,选定检验统计量,并由样本观察值算出检验统计量的值,如t值、u值、f值等;第3步,对于事先设定的小概率,根据检验统计量所服从的分布确定临界值;第4步,比较依照观察数据下的检验统计量值与临界值的大小,最后给出对原假设的取舍结论.

(三)假设检验模拟实证

例1   设某企业职工的年收入X(千元)服从正态分布,现从中随机调查18位职工的年收入情况75.47,79.47,7964,59.40,82.08,66.13,72.41,96.76,69.62,73.24,7765,74.19,82.59,70.69,74.38,76.29,73.57,87.94.问在显著性水平0.05下,是否可认为这个企业全体职工的平均年收入为70(千元)?

利用R软件自带的函数t.test(x,mu=70),读取以上数据运行函数获得如下结果.

One Sample t-test data: x,t=3.1896,df=17,p-value=0.005366

alternative hypothesis:true mean is not equal to 70;

95 percent confidence interval:72.09821 80.29767;sample estimates:mean of x:76.19794.

如果自己编写下列t检验函数,然后读入数据运行检验函数,也将得到上述同样的分析结果.

tf=function(x,mu=70){ n=length(x);xb=mean(x);s1=sd(x)/sqrt(n);t=(xb-mu)/s1df=n-1

p=2-2*pt(t,n-1);list(t=t,df=df,p=p)}.该语句系自己编写的t检验函数

五、结束语

为提高广大学生对概率论与数理统计课程概念、原理、公式的理解与掌握,强化对课程知识的实际应用,改革概率统计课程的传统教学模式,特别是改革教师课堂教学中偏重理论知识与模型公式的推导与解释,而忽视所讲述知识点的模拟展示、图形图像的直观演示与数据生成过程以及计算结果的计算机实现等问题.课堂教学中教师必须抛弃传统的教学模式,实现对课程所涉及的每一个知识点设计小试验,进行直观化教学,解决知识点的“黑匣子”问题,这就要求教师不仅需要将其原理解释清楚,还要能在课堂上利用计算机展现问题求解的全过程.本文提出基于R软件,利用随机模拟技术对概率论与数理统计课程中的常见概率分布、大数定律、中心极限定理以及假设检验等重要知识点实行模拟实证,进行直观可视化的教学.这将有助学生更好理解概率统计中的知识及其原理,特别是在课堂教学上鼓励师生一起动手制作设计试验,编写程序,检验概率与统计课程中的理论、模型,实现学生能自己设计,验证书本中的结论,并将所掌握的数学相关知识用来解释生活中的现象与实际问题,极大激发他们对本课程学习的兴趣,学习的积极性、主动性,最大地提高课堂教学效果.为更好适应概率论与数理统计课程的课堂教学改革需要,对课程的学习考核方面的是进一步研究的方向.例如,采用多元化的形式进行课程考核,可以结合学生在这门课程学习过程中,在新的课堂教学形式下的积极性、发言记录,小组的自行设计实验项目和汇报情况,常规作业和期末考试等多个方面综合评定课程成绩等.

【参考文献】

[1]曹丽,张莉.基于R软件的概率统计直观教学展示[J].大学数学,2017(4):86-89.

[2]王斌會.数据统计分析级R语言编程[M].广州:暨南大学出版社,2014.

[3]薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2007.

[4]Maria Dolores Ugarte,Ana F Militino,Alan Arnholt.Probability and Statistics with R[M].London:Chapman & Hall,2008.

[5]盛骤,概率论与数理统计[M].北京:高等教育出版社,2015:26-56.

[6]张福鼎.基于Matlab可视化的概率论与数理统计教学方式探讨[J].江苏第二师范学院学报(自然科学版),2016(12):59-62.

推荐访问: 探究 概率 随机 模拟 统计