基于BTM模型的《地理学报》论文摘要主题分析
注:未经允许不得转载,若需转载请联系作者(WeChat:danghui629)
- 地理学是全球环境变化和资源利用研究中重要的学科,同时在国家基础建设中扮演着重要的角色。本文采集了《地理学报》1978年~2017年期间内发表的3528篇学术论文摘要,并应用BTM(Biterm Topic Model)模型对论文摘要进行主题推断得到了22个主题,揭示了改革开放以来地理学科的不同研究方向。基于BTM模型的结果,依据聚合的主题分布量化了地域之间以及单位之间的相似性。通过分析主题分布随时间的变化,找到了一些研究的热主题和冷主题。通过对发文量的统计,发现了《地理学报》论文的主要来源地域和单位,其中在地域上,主要以北京、江苏、广东等为主,在单位上主要集中于中国科学院地理科学与资源研究所、北京大学、南京大学等。最后以中国科学院地理科学与资源研究所和北京大学为例,以网络图的形式展示了学者与主题之间的关系,得到了不同主题下的核心学者及学者的主要研究方向,如陆大道、方创琳、许炯心等作者。本文的结果可能会使不同的人群(包括研究人员、期刊编辑,研究机构等)在确定研究领域/研究项目以及重新调整期刊开发的重点等方面受益。
关键词:主题模型;论文摘要;文本分类;《地理学报》
Key words: Topic model; abstract of the paper; text classification; Acta Geographica Sinica
1 引言
近几十年以来,随着全球的人口、资源、环境和发展等诸多问题的出现,人类的可持续发展面临着极大的挑战。地理学在全球环境变化和全球经济一体化研究中扮演了重要的角色,地理学的理论、方法和技术已经成为解决人类社会可持续发展问题的科学基础[1]。由中国地理学会和中国科学院地理科学与资源研究所主办的《地理学报》,创刊于1934年,至今已有84年历史,是反映我国地理科学研究水平的综合性学术刊物[2]。1978年以后,学术氛围高涨,刊文量急剧增加,其影响越来越大。根据中国科学技术信息研究所于2017年10月31日发布的《2017年版中国科技期刊引证报告(核心版)》,《地理学报》影响因子为3.894,位于全国科技核心期刊第2位;总被引频次8839次,位于全国科技核心期刊第18位,连续16年地理学科排名第一[3];该期刊紧跟世界地理科学发展的步伐,代表着中国地理科学发展水平,是研究我国地理科学的重要刊物。
科学出版物通常被认为是反映理论和实践研究发展趋势的关键代理,有大量文献用定量方法研究出版物的数据,这些方法通常被称为科学计量学。尽管科学计量分析提供了一种很好的工具,可以从引用数据中量化文章和作者的重要性,但它不能为我们提供与主题相关的信息,以便更好地理解不同的研究背景。实际上,科学出版物的内容往往对研究某一领域更为重要,因为它可以帮助获得针对性问题的解决方案,了解特定技术的发展并提供新的学习领域。一篇论文的摘要是得到论文相关信息的一个简明而重要的内容,它揭示了一篇论文的全貌。换句话说,摘要可以被认为是一篇论文的简明概述,并且可以用于识别和解释论文主题。例如,Griffiths和Steyvers(2004)调查了从1991年到2001年在美国国家科学院院刊(PNAS)上发表的文章的抽象数据,并将从主题建模获得的研究主题/领域与现有类别进行了比较[4]。 Blei和Lafferty(2006)在1880-2000期间的科学期刊的历史文献中应用了动态话题模型,以研究单个话题随时间变化的情况[5]。Gatti等人(2015)在运筹学和管理科学领域对来自20种期刊的文章元数据应用主题建模,并量化了不同期刊的一般性和特异性[6]。Das等人(2016)对运输研究委员会(TRB)年会上发表的论文摘要样本进行了主题建模,并调查了2008年至2014年的主题变化[7]。Lijun Sun等人(2017)对1990年至2015年间的交通领域的期刊论文进行主题建模,研究了不同期刊、不同国家之间的论文主题分布情况[8]。
本文针对《地理学报》1978年以来发表的学术论文,对论文作者的地域分布、论文发表数量等做了简要分析;同时采用BTM(Biterm Topic Model)模型对论文摘要进行主题建模,分析了主题随时间的变化趋势,主题与地区的相似性关系;针对特定高校与科研院所,分析了主题与时间、主题与作者之间的关系,展示了我国地理学研究方向的变化和发展趋势。
2 基本理论与方法
首先介绍了BTM主题模型的基本原理,主题模型是对文本中潜在的主题进行建模的一种方法,可以以此挖掘文本各抽象主题。主题可以看作是词项的概率分布(即类似单词的集群),其中的每个词是经过这个词选择某一主题的概率的大小来决定的。各主题模型中,LDA主题模型由于其最少的基本假设,而应用最为广泛。近年来,以Twitter、微博、商品评论等为代表的短文本呈显著增长趋势。在使用传统的长文本处理方法直接对短文本进行分析时,常常无法达到预期要求。BTM模型作为LDA的变体模型,它通过使用整个语料库中的聚合模式进行主题学习,一定程度上避免了短文本所造成的数据稀疏。该模型的学习过程不需要任何其他外部数据的辅助,这也是第一个通用于短文本的主题模型,同时适用于传统的长文本。
3 主题数目的确定
对论文摘要进行主题建模时,主题数目的多少直接影响到最终结果的好坏,主题数目过大或过小均不能很好地提取出摘要文本中潜在的主题,因此主题数目的选取是BTM建模的一个关键步骤。
3.1 数据
利用网络爬虫获取《地理学报》自创刊以来至2017年发表的论文信息,主要包括论文题目、论文摘要、论文作者、作者所属单位与地区以及论文出版日期等内容,共计4045篇。1978年(含)以后的论文总篇数为3592篇,剔除其中摘要为空、作者地区为空的论文,剩余3528篇,共291期,时间跨度为1978年~2017年。图2展示了《地理学报》1978年以来每年的发文量。
自1978年以来,《地理学报》的发文量虽有波动,但一直处于上升趋势,从1978年发文11篇增加到2017年发文164篇,年论文量在40年间增加了15倍,平均每期发文量12篇。对3528篇论文的第一作者统计共计2243名作者,第一作者发文量超过一篇论文的占17%。
3.2 主题数目的确定
采用主题一致性指标(Topic Coherence)来确定主题数目,主题一致性通过度量主题下高得分词语之间的语义相似程度来评估主题质量。
对《地理学报》3528篇论文摘要进行BTM主题建模时,将主题数目K的取值范围设置为20~50,间隔为2,分别计算不同主题数目下的平均主题一致性得分。可以看出,当主题数目为22时,主题一致性指标达到最优值,因此将主题数目K设置为22。
4 主题结果分析
主要展示了论文摘要数据的分析结果,首先在时间维度上重点研究了主题随时间的消亡情况,从中得到了热主题和冷主题,在空间维度上重点研究了数据的分布情况,并通过聚合文档-主题概率,得到了地域、科研院所与高校之间的相似程度。最后依据发文量选取特定科研院所和高校,分析了其主题随时间的变化以及作者(仅第一作者)与主题的网络关系。
4.1 发现主题
使用R语言版本的结巴分词工具jiebaR对3528篇论文摘要进行预处理:1)提取中文;2)分词;3)去除停用词;4)去除单字。
数据预处理后,使用BTM模型获取论文摘要的主题,参数设置为:主题数目K=22,α=50/K,β=0.01,迭代次数Niter=2000。BTM模型运行结束后,可获得两种类型的概率分布:主题概率分布θ和主题-词概率分布φ,主题概率分布是指在所有论文摘要组成的语料库中各主题出现的概率,值越大表示在语料库中该主题出现的可能性越大,主题-词概率分布是指在不同主题中某个词出现的概率,值越大表示在该主题中出现该词的可能性越大,即出现概率越大的词能更好地描述该主题的特性。图4以词云形式对22个主题Topic #1~Topic #22进行了展示,各主题按照主题概率分布降序排列,每个主题的词云按照主题-词概率分布列出了该主题中出现概率最大的前20个词,词显示较大表示在该主题中词出现的概率较大。
1 | Topic #1 (0.087) |
基于主题词的分布,可以直观地将主题匹配到一些特定的研究领域。该结果可作为地理学研究领域和领域分类方案的参考,因为这些潜在主题通常与研究领域的分类方案非常吻合。例如,Topic#1:“模型、空间、研究、方法、分析、城市、模拟、数据、特征、区域、…”,主要涉及空间模型与分析方法的研究;Topic#2:“变化、趋势、降水、年代、气温、地区、增加、夏季、降水量、特征、…”,主要是有关气候变化的研究;Topic#3:“研究、地理学、发展、中国、地理、理论、本文、经济、科学、分析、…”,主要是有关地理学发展与理论方法的研究;Topic#4:“发展、城市、经济、中国、区域、空间、研究、影响、地区、作用、…”,属于城市和区域经济发展有关的研究……。
4.2 主题随时间的变化情况
在时间维度上对论文摘要的主题进行了分析,时间的维度可以反映这些主题的消亡以及出现。由图5左图分析可知22个主题变化趋势可以大致分为以下4类:
1)几乎每年均有文章发表,但总发文量及变化趋势有所不同,主要包括Topic#1#5、Topic#15、Topic#17以及Topic#20。其中Topic#1#5总体发文量较多,且呈现逐渐上升趋势,Topic#15、Topic#17以及Topic#20年发文量较为平稳。
2)在某个年份之前文章发表很少或无发表,之后逐渐增多,主要包括Topic#6~#9、Topic#11、Topic#16以及Topic#19,其分界点分别为2002年、2003年、2005年、1997年、2001年、2009年以及2000年。
3)发文量先升后降,中间出现一段高峰期,主要包括Topic#10、Topic#12~Topic#14。其中Topic#10高峰期为1996年至2004年,Topic#12的高峰期为1998年至2010年,Topic#13的高峰期为1999年至2008年,Topic#14的高峰期为1993年至2002年。
4)发文量先降后升,中间出现一段低谷期,主要包括Topic#18与Topic#22。其中Topic#18的低谷期为1987年至1999年,Topic#22的低谷期为1989年至2008年。
4.3 主题与空间分布的关系
针对已有数据从统计学的角度,分析了1978年以来《地理学报》在省级区域上的分布情况;地区的发文量是由各区域的高校(科研院所)所贡献的,统计各高校(科研院所)的发文量可以挖掘出哪所高校(科研院所)对该区域的发文量贡献大,就可以从该期刊的角度,发掘某省份(直辖市)或高校(科研院所)在地理学领域具有不错的科研水平。如图7所示,北京(1615篇)、江苏(411篇)、广东(257篇)、上海(192篇)、甘肃(186篇)等五个省份(直辖市)居于前列,占总发文量的75%。如图8所示,中国科学院地理科学与资源研究所(852篇)、北京大学(256篇)、南京大学(206篇)、中山大学(154篇)、华东师范大学(135篇)、北京师范大学(131篇)等六个高校(科研院所)居于前列,占总发文量的49%。
4.3.1 主题与地域
进一步在空间维度上对论文摘要的主题进行了分析。地区层面上的主题分布呈现出极大的多样性。由地域主题分布和地域相似性矩阵可知,其中青海、西藏为一类,并且青海地区研究主题主要与气候环境有关(Topic#2、Topic#12、Topic#17),西藏地区研究主题大部分与气候相关(Topic#2);台湾自成一类,并且台湾地区研究主题主要为海岸地貌发育与沉积(Topic#15);另包括内蒙古、甘肃、山西、四川、新疆等在研究主题上具有很高的相似性(主要体现在Topic#2上);贵州、河北地域在Topic#15、Topic#16上,安徽、天津、香港地域在Topic#6、Topic#2、Topic#3上,海南、江西地域在Topic#6、Topic#7上,广西、宁夏在Topic#11、Topic#18上都各自占有较高的比重;其余地域(如黑龙江、重庆、广东、…、湖北、江苏)主题分布较为均匀,说明这些地域研究方向较为广泛,对不同研究内容均有一定的涉及。
5 总结与展望
1、《地理学报》作为国内地理学领域最重要的期刊,对地理学领域的研究主流与研究热点具有很好的同步性与前瞻性。应用改进的概率主题模型对期刊所刊载的1978年以来的论文摘要进行分类,并定性与定量的从时间、空间、社会关系三个维度对22个论文摘要主题进行了深入讨论,结果不仅反映出《地理学报》对地理学领域的发展方向有较好的把握,更进一步体现了1978年以来地理学科研究成果的发展趋势。结果表明:1978年以来《地理学报》的载文作者主要集中于经济、文化发达的北京、江苏、广东、上海、甘肃等地,其数量在总发文量的75%;作者单位主要集中于中国科学院地理科学与资源研究所、北京大学、南京大学、中山大学、华东师范大学、北京师范大学等地,其数量占总发文量的49%,说明地理科学发展在我国存在不平衡性。
2、由22个主题的概率分布来看,气候变化、城市空间结构、中国经济发展与区域差异、城市人居环境与居住空间、旅游地理与空间感知等主题的发文量呈明显升高趋势,说明这几个方向的研究发展迅速。海岸地貌发育与沉积、人口空间分布与差异这两个主题呈微弱下降趋势,说明学者对这两类主题研究关注度不高。生态资源评价主题的权重波动较大,但整体比例较高,说明其研究处于相对平稳的状态。同时从学者的角度,构建了学者与主题之间的网络关系图,探究了学者之间研究领域的交叉点,为以后的合作提供了可能。
3、本文仅以《地理学报》为研究对象,所得到结论不能完全准确地体现整个地理学领域也不能完全准确地概括各主题趋势与学者的研究方向,且鉴于各行业属性期刊均有地理类文章刊载,因此,要对地理学的整体研究情况进行深入且细致的分析,则需要获取更多相关的数据进行探索和分析。
参考文献(References):
[1] 范闻捷, 高锡章, 冷疏影. 青年科学基金助推地理学研究创新与综合[J]. 地理科学进展, 2018, 37(4).
[2] Shujin H E, Zhao X. Analysis of the Articles on Human Geography Published in Acta Geographica Sinica in 1934-2004[J]. Acta Geographica Sinica, 2004.
[3] 何书金, 赵歆. 《2016年版中国科技期刊引证报告》的地理学数据[J]. 地理学报, 2016, 71(11):2112-2112.
[4] Griffiths T L, Steyvers M. Finding scientific topics.[J]. Proc Natl Acad Sci U S A, 2004, 101 Suppl 1(1):5228-5235.
[5] Blei D M, Lafferty J D. Dynamic topic models[C]// Proc. International Conference on Machine Learning. 2006:113-120.
[6] Gatti C J, Brooks J D, Nurre S G. A Historical Analysis of the Field of OR/MS using Topic Models[J]. Computer Science, 2015.
[7] Das S. Text Mining and Topic Modeling on Compendium Papers from Transportation Research Board Annual Meetings[C]// Trb, Meeting. 2016.
[8] Sun L, Yin Y. Discovering themes and trends in transportation research using topic modeling[J]. Transportation Research Part C Emerging Technologies, 2017, 77:49-66.
[9] Mimno D, Wallach H M, Talley E, et al. Optimizing Semantic Coherence in Topic Models.[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011:262-272.
[10] Stevens K, Kegelmeyer P, Andrzejewski D, et al. Exploring topic coherence over many models and many topics[C]// Conference on Empirical Methods in Natural Language Processing. 2012.
注:未经允许不得转载,若需转载请联系作者(WeChat:danghui629)