当前位置:无忧公文网 >范文大全 > 征文 > 基于数据清洗“DEAN”流程的健康信息领域研究热点探测

基于数据清洗“DEAN”流程的健康信息领域研究热点探测

时间:2022-03-31 08:13:13 浏览次数:

〔摘 要〕[目的/意义]了解我国健康信息领域研究热点,提升研究热点识别的准确性。[方法/过程]论文首先构建了数据清洗“DEAN”流程,在此基础上以CNKI和万方数据库收录的2004-2017年健康信息领域文献数据为研究对象,运用Citespace Ⅴ软件对健康信息领域的研究热点进行识别。[结果/结论]研究共探测出我国健康信息领域六大研究热点,并对是否运用“DEAN”流程识别出的研究热点结果进行对比分析,发现运用“DEAN”流程能够提升研究热点识别的准确性。

〔关键词〕数据清洗;DEAN;健康信息;研究热点

DOI:10.3969/j.issn.1008-0821.2018.10.011

〔中图分类号〕G250.252 〔文獻标识码〕A 〔文章编号〕1008-0821(2018)10-0073-05

〔Abstract〕[Purpose/Significance]The purpose of this paper was to understand the research hotspots of the health information researches.[Method/Process]The Data cleaning process named“DEAN”was constructed firstly,and published articles on health information during 2004-2017,which were recorded in the database of CNKI and WanFang,were chosen to be analyzed in this paper.[Result/Conclusion]By applying the software of Citesapce Ⅴ,the paper found Six research hotspots on the areas of health information.Meanwhile the paper compared the results of two cases that applied“DEAN”process or not,and found“DEAN”process could improve the accuracy of research hotspot identification.

〔Key words〕data clean;DEAN;health information;research hotpot

健康信息指与公众、患者及其家属有关的医学和健康相关信息[1]。健康信息的来源较为复杂,可源自专业人士(如医生)、非专业人士(如家庭成员或朋友)和媒体(如网络、电视等)[2]。随着网络技术的发展,健康信息在互联网上的快速增殖,使得患者趋向于首先通过网络获取自身状况的健康信息,而不是第一时间寻求专业人士的帮助[3]。2016年10月发布的《中国网民科普需求搜索行为报告》显示:健康与医疗主题占百度搜索所有主题的57%,成为最受关注的科普主题[4]。由此可见健康信息对优化公众健康管理及改善公众健康意识意义重大[5]。因此全面把握健康信息领域研究热点,对健康信息的深入研究至关重要。

目前已有学者进行了健康信息领域研究热点识别的相关研究,如吴浩等对网络健康信息的研究热点进行了分析[6]。陈娟等对国内外健康信息领域的演进路径和研究热点进行了比较研究[7]。Wang Y等对6个国家的区域健康信息网络的研究热点和演进路径进行了比较分析[8]。上述研究均是以国内外文献数据库健康信息研究相关文献为数据源,通过关键词频次分析及共现分析,识别国内外健康信息研究领域或其子领域的研究热点,具有较好的实用价值,但是与大多数利用关键词共现方法识别领域研究热点的研究类似,上述研究对于研究热点识别过程中数据清洗过程的描述不够全面系统,而数据清洗的效果将直接决定研究热点识别的准确性。基于此,笔者首先构建数据清洗的“DEAN”流程,对关键词数据进行全面系统的清洗,在此基础上对健康信息领域研究热点进行识别,以提升结果准确性。

1 数据清洗的“DEAN”流程

1.1 基本环节

数据清洗的“DEAN”流程的基本环节如图1的所示。

“DEAN”源自数据清洗的4类对象,即重复记录(Duplicates)、错误记录(Errors)、同义关键词(Alias)和干扰关键词(Noises)的英文首字母组合。关键词的准确性和频次是影响关键词共现方法识别领域研究热点结果准确性的两个重要因素。“DEAN”4类对象及其对关键词准确性和频次产生影响的具体机理为:

1)Duplicates

Duplicates指数据库中所有字段均相同,或有些字段不同,但题名且关键词字段相同,或存在包含关系的文献记录。主要包括:①数据库内的重复记录,可由于数据库更新、维护失误所致,或是题名及关键词字段相同的论文被两种以上期刊同时收录所致。②多数据库重复记录,多见于使用多数据库作为数据来源时,由不同数据库收录相同文献所致。Duplicates可增加关键词的频次,可能导致本不是研究热点的关键词被识别为研究热点。

2)Errors

Errors指不符合检索需求的记录。主要包括:①文献类型错误,如检索出的会议通知、编者按及广告等不符合检索需求的类型的记录。②由检索策略导致的错误,如检索出的不相关的记录。Errors可降低关键词的准确性,可能降低聚类的准确性,进而影响研究热点的归纳和整合。

3)Alias

Alias指表示相同概念的关键词。主要包括:①语法异构,如英文单词的大小写及单复数。②语义异构,如全称与缩写及同义词。Alias可降低表示同一概念的关键词的频次,可能导致本该作为研究热点被识别的主题最终未被识别。

4)Noises

Noises指干扰研究热点识别结果的关键词。主要包括:①子网络(Subnetwork)。构建关键词共现网络时可能会出现多个子网络。受聚类算法所限,每次只能选取规模最大的子网络进行聚类[9]。其它子网络所包含的关键词则被视为干扰关键词。②低频关键词。高于某一阈值的关键词将作为研究热点被识别,低于该阈值的关键词则被视为干扰关键词。Noises可分散研究人员注意力,可能干扰核心关键词的归纳和整合。

1.2 实现方案

针对“DEAN”流程的基本环节,拟定各环节的实现方案,各环节需要运用的软件及其功能如表1所示。

2 数据来源与方法

2.1 数据检索与清洗

选择CNKI和万方期刊数据库作为数据来源,通过专家咨询制定相应的检索策略。CNKI期刊数据库的检索策略为:((关键词=健康信息)(模糊))OR((题名=健康信息)(精确)),期刊来源类别选择“核心期刊”和“CSSCI”,检索时间截至2017年11月,共检索文献173篇。万方期刊数据库的检索策略为:题名或关键词为“健康信息”,检索时间截至2017年11月,以“北大核心”为限定条件,共检索文献200篇,以CSSCI为限定条件,共检索文献73篇。将检索出的446文献以Refworks格式导出,作为原始研究的原始数据。按照表1的数据清洗方案对原始数据进行清洗,得到研究所需的样本数据,供进一步分析使用。

2.2 方法与工具

运用关键词共现方法识别健康信息领域研究热点。共同出现在一篇文献中的两个关键词之间存在一定的内在联系,且共同出现的次数越多,则联系越紧密。由于关键词是对文献内容的浓缩和精炼,因此在对共现关键词进行聚类的基础上,对核心关键词之间的关系进行梳理和整合,能够识别出特定领域的研究热点[10]。

Citespace Ⅴ软件是陈超美博士开发的文献信息分析及可视化软件,能够实现运用关键词共现方法识别特定领域的研究热点[11]。具体步骤为:1)将清洗后得到的样本数据导入Citespace Ⅴ软件;2)“Time Slicing”设置为2004-2017年,“Years Per Slice”设置为1年,“Term Source”选择Keywords Plus,“Node Types”选择Keyword,“Selection Criteria”选择“Top N Per Slice”,设置为200,“Pruning”选择Pathfinder;3)运行Citespace Ⅴ软件,得到可视化图谱;4)选择“聚类”功能,得到研究热点图谱。

3 结 果

3.1 数据清洗结果

依据“DEAN”流程数据清洗方案对原始数据进行清洗的结果如表2所示。

3.2 研究热点识别结果

得到健康信息领域研究热点图谱,如图2所示。在图2中,相互独立的几何图形为应用聚类算法得到的不同类团,可以表示健康信息研究领域的不同子领域。节点和标签字体的大小与关键词的频次成正比,且只显示频次≥4的关键词的标签。

由图2可知,健康信息领域的研究热点包括以下几个方面:第一,健康信息素养研究,主要包括健康信息素养的影响因素,老年人、糖尿病患者健康信息素养状况,图书馆在提升公共健康信息素养中的功能和作用,健康信息素养现状下的信息服务等研究。第二,健康信息搜寻研究,主要包括网络健康信息搜寻行为研究,用户个性化健康信息搜寻等研究。第三,新媒体环境下的健康信息传播研究,主要包括新媒体环境下健康信息的获取、利用及效果评价等研究。第四,健康信息管理研究,包括运用信息系统及现代信息技术对用户健康信息进行存储、分析及利用等研究。第五,大数据环境下的健康信息分析与应用,包括互联网、社交媒体健康信息分析与应用,健康信息隐私管理等研究。第六,健康教育研究,主要包括农村居民、孕产妇等群体的健康信息需求调查基础上的健康教育策略研究。

4 讨 论

本研究运用Citespace Ⅴ软件,对未使用“DEAN”数据清洗流程情况下的健康信息领域研究热点进行识别,如图3所示,所有参数与使用“DEAN”流程时保持一致。

对比研究热点的识别效果可知,图2比图3的优势体现在以下4个方面:

1)研究热点地位更加均衡

图3中代表“健康信息”的节点和标签地位过于突出,而图2中代表各研究热点的节点和文字标签总体上看较为均衡,究其原因在于原始数据中过多的重复记录造成了频次靠前研究热点的放大效应,以“健康信息”为例,在原始数据中其频次达到了140次,而经过Remove Duplicates环节后,其频次降到了83次。因此“去重”可以有效地降低偏倚,改善识别效果。

2)研究热点识别结果更加准确

图3显示了“山东省”、“优秀期刊”和“综合质量”这3个研究热点,明显与健康信息研究领域相关性较低,究其原因在于原始数据内有一条以“综合质量、优秀期刊、山东省、健康信息”等为关键词的某期刊获奖通知文献记录,且该通知在该期刊的不同期次重复刊登,使得“山东省”、“优秀期刊”和“综合质量”这3个关键词累积频次达到23次、23次和22次,从而被识别为研究热点,而经过Erase Errors环节后,上述记录被作为错误记录予以删除,在图2中不再被展示出来。因此“勘误”能够去除错误研究热点,改善识别效果。

3)新研究热点的涌现

图2中涌现了“新媒体”、“用户”和“公共”等新研究热点,究其原因在于对原始数据中不一致的关键词进行了合并。经过“Merge Alias”环节后,一方面增加了新的关键词,如将“QQ”、“微信”和“朋友圈”整合为“新媒体”等;另一方面某些关鍵词的频次得到了增加,如通过将“在线健康信息”整合为“网络健康信息”使后者的频次从5次增加到8次。因此“合并”可以发掘潜在的研究热点,改善识别效果。

4)研究热点识别结果更加清晰

与图3相比,图2展示的研究热点结果更加清晰,究其原因在于对原始数据进行了降噪处理。经过“Reduce Noises”环节,对关键词频次小于4次的关键词标签进行了隐藏。因此“降噪”能够去除造成干扰的噪声关键词,改善识别效果。

5 结 论

目前,共词分析方法已广泛应用于领域研究热点的识别研究,但是对运用该方法所识别的研究热点的准确性和有效性进行验证方面存在着明显的薄弱[12]。本研究提出的“DEAN”数据清洗流程能够提升研究热点识别的准确性和有效性,具体体现在研究热点地位更加均衡;研究热点识别结果更加准确;新研究热点的涌现;研究热点识别结果更加清晰4个方面。在运用“DEAN”数据清洗流程的基础上,识别出健康信息领域的6大研究热点,包括:健康信息素养研究;健康信息搜寻研究;新媒体环境下的健康信息传播研究;健康信息管理研究;大数据环境下的健康信息分析与应用;健康教育研究。

参考文献

[1]National Network of Libraries of Medicine.Consumer Health Information:A Workshop for Librarians Providing Health Information to the Public[EB/OL].http://nnlm.gov/priorities/topics/consumer-health,2017-12-30.

[2]Rose I D,Friedman D B.We Need Health Information Too:A Systematic Review of Studies Examining the Health Information Seeking and Communication Practices of Sexual Minority Youth[J].Health Education Journal,2013,72(4):417-430.

[3]Tan S L,Goonawardene N.Internet Health Information Seeking and the Patient-Physician Relationship:A Systematic Review[J].Journal of Medical Internet Research,2017,19(1):e9.

[4]科普中國.中国网民科普需求搜索行为报告(2016年第二季度)[EB/OL].http:/ / /notice /201611 /t20161103_43467.shtml,2016-11-03.

[5]付少雄,胡媛.大学生健康信息行为对实际健康水平的影响研究——基于健康素养与健康信息搜寻视角[J].现代情报,2018,38(2):84-90.

[6]吴浩,涂嘉玲,赵文龙.网络健康信息研究热点分析[J].现代预防医学,2015,42(5):847-851.

[7]陈娟,石习敏,杨均雪,等.国内外健康信息领域演进路径、热点前沿比较研究——基于科学知识图谱的可视化分析[J].现代预防医学,2017,44(1):110-115.

[8]Wang Y,Zheng J,Zhang A,et al.Visualization Maps for the Evolution of Research Hotspots in the Field of Regional Health Information Networks[J].Inform Health Soc Care,2017,43(56):1-21.

[9]Barirani A,Agard B,Beaudry C.Competence Maps Using Agglomerative Hierarchical Clustering[J].Journal of Intelligent Manufacturing,2013,24(2):373-384.

[10]邱均平,温芳芳.近五年来图书情报学研究热点与前沿的可视化分析——基于13种高影响力外文源刊的计量研究[J].中国图书馆学报,2011,37(2):51-60.

[11]Chen C.CiteSpace Ⅱ:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J].Journal of the Association for Information Science & Technology,2009,57(3):359-377.

[12]杨丽,张彤彤,周文杰.共词分析识别研究热点的效标关联效度研究:基于自然语言处理[J].图书与情报,2018,(1):15-19.

责任编辑:陈 媛)

推荐访问: 热点 探测 清洗 流程 领域