下面是小编为大家整理的主题—主题关联学科知识网络构建与演化分析【完整版】,供大家参考。
主题—主题关联的学科知识网络构建与演化分析 ——Research on Construction and Evolution Analysis of Discipline Knowledge Network Based on Topics Association 作
者:
王曰芬/王金树/关鹏
作者简介:
王曰芬,通讯作者(1963- ),女,辽宁葫芦岛人,南京理工大学经济管理学院教授,博士生导师,主要从事信息分析与情报研究、网络信息管理、知识服务等;王金树,南京理工大学经济管理学院;关鹏,南京理工大学经济管理学院。南京 210094;巢湖学院应用数学学院。合肥 238000
原发信息:
《情报科学》(长春)2018 年第 20189 期 第 9-15,102 页
内容提要:
[目的/意义]构建主题—主题关联的学科知识网络,从主题之间语义关联角度度量主题在学科知识网络中的影响力,分析学科知识结构演化规律,为热点、前沿主题探测提供方法支撑。[方法/过程]基于 LDA 主题模型抽取学科领域研究主题,利用主题在科学文献中的共现关系构建主题—主题关联的学科知识网络,并提出主题影响力概念和度量方法;基于复杂网络结构分析方法对学科领域生命周期内主题—主题关联的学科知识网络进行演化分析。[结果/结论]实证分析表明主题的网络影响力是主题强度、被学者关注度等外部特征指标的有力补充,可用来探测热点、前沿主题。同时,学科知识结构随着学科领域的发展表现出较强的小世界网络特征。
Research on Construction and Evolution Analysis of Discipline Knowledge Network Based on Topics Association
关
键
词:
学科知识网络/复杂网络/演化分析/主题影响力/网络科学
期刊名称:
《图书馆学情报学》 复印期号:
2018 年 11 期
中图分类号:G201
1 引言
在科学知识表达中,主题作为中观层次的学科知识单元,它实际上代表了学科的特定研究领域或研究方向。在学科知识网络中,虽然主题单元是表征知识内容的隐性科学分子,但是与其他知识单元关联密切,有着影响科学发展历程与趋向的作用。若以主题为节点,通过主题与其他学科知识节点(如作者、机构、引文等)建立语义关联,形成学科知识网络,则可通过网络结构特征计算和演化分析,测量和评估主题影响力及其演化趋势,从而深入发掘科学知识生成与进化的内在机制及其脉络,为科学预测与知识服务提供方法论支撑。目前,基于 LDA 主题模型[1]和 AT 主题模型[2]的主题挖掘方法提供了可度量主题与其他学科知识节点之间语义关联度的方法,使整合主题的学科知识网络构建成为可能。
以作者、机构、引文等显性知识单元为节点构建知识网络的研究已经涌现出不少的成果,随着研究的深入,如何扩展到隐性知识单元,并有效解决主题与其他学科知识单元之间的语义关联计算问题,测度主题在知识网络中的影响力,成为学科知识网络体系不断发展的需求。
Price 在《小科学、大科学》一书中用科学分子来形象的表示科学知识节点,他认为应该用科学的、严谨的方式对科学分子之间的相互作用、科学分子的运行轨迹进行研究,以科学的方法研究科学结构和科学发展动态[3]。本文在研究整合主题的学科知识网络构建框架与方法基础上,以构建主题—主题关联的学科知识网络为研究内容,尝试研究主题与主题之间语义关联强度的度量方法,提出主题影响力的表征指标,设计主题—主题关联的学科知识网络构建思路与流程,用实证来检验所提出的网络模型并对网络结构演化进行分析。以探究由主题影响的知识网络所反映的科学过程和演变状态,通过分析主题在知识网络中内在关联与外在影响要素,发现哪些主题是重要基础性研究或者哪些主题起到桥梁纽带作用,为科学发展的热点、前沿主题探测提供新的思路,以促进学科领域知识服务,进一步完善科学的方法体系。
2 主题影响力度量及相关研究进展
关于主题的影响力测度,已有不少学者提出了有效的度量方法,如:Mann 等从文档对主题的支持度方面度量主题的影响力,当有越多的文档支持主题时,主题的影响力越大。支持文档的选择是以文档中的词由该主题生成的概率超过 10%为判断标准,可以通过支持文档将对主题的影响力刻画转化为对支持文档的刻画,如类似于期刊影响因子,可以提出基于文档引用数据的主题影响因子[4]。祝娜等利用 LDA 提取主题,并通过主题的支持文档设计了主题的三种影响力度量指标:发文量、被引量和新颖度[5]。以上研究对主题的影响力测度是从知识传播的角度进行分析,是将
论文引用指标转移到主题上来,刻画了主题的被关注程度,但并不能测度主题之间的相互影响作用。所以,主题结构的测度不能仅仅着眼于外部因素,主题之间的相互影响也是推动学科发展和知识创新的重要因素。因此,本文提出从主题语义关联的视角刻画和测度主题的影响力。
通过主题—主题关联的一模学科知识网络,借鉴社会网络分析中节点重要性度量方法,可以测度主题在主题—主题关联的一模学科知识网络中的影响力和作用。社会网络中节点重要性可以是节点的影响力,地位或者其他因素的综合,一般通过中心性指标来度量[6],如度中心性(Degree Centrality)、居间中心性(Betweenness Centrality)和邻近中心性(Closeness Centrality),下面将剖析各种中心性指标在主题—主题关联的一模学科知识网络中的内涵。
(1)度中心性
度中心性指标直接反映的是一个节点对于网络其他节点的直接影响力。在主题—主题关联的一模学科知识网络中,有大量的邻居数目的主题可能有更大的影响力,通常表明该主题是该学科领域中的重要基础性研究课题,是其他主题开展研究的前提和基础。
(2)邻近中心性
邻近中心性用来度量网络中的节点通过网络结构对其他节点施加影响的能力。节点的邻近中心性越大,表明该节点跃居于网络的中心,在网络中就越重要[7]。邻近中心性指标通过节点到达其他节点的最短距离来度量,是通过网络拓扑结构度量节点重要性的方法。在主题—主题关联的一
模学科知识网络中,邻近中心性高的主题往往具有较强的交叉性和渗透性,是学者普遍关注的对象,也是最容易成长为学科领域新兴和前沿方向的主题。
(3)居间中心性
Freeman 于 1977 年在研究社会网络时提出居间中心性指标[8],该指标用于衡量个体社会地位的参数,通常反映节点的“交际能力”。在主题—主题关联的一模学科知识网络中,居间中心性高的主题往往在该学科领域的发展中起到桥梁和中介作用,成为连接不同研究方向的关键主题,往往代表着这个学科领域中的重要方法或者工具。
3 主题—主题关联的一模学科知识网络构建
主题—主题关联的一模学科知识网络由 TTN=(T,E)表示,其中 T 表示主题集合,E 表示主题与主题之间的连线。主题与主题之间的连线表示主题之间的关联,关联强度的计算有多种方法,如基于相似度的计算、基于共现强度的计算。主题作为知识节点,和词一样可以在文档中有所体现,并且可以通过 LDA、AT 等主题模型度量主题在文档中的占比,所以本文选择基于主题在文档中的共现来建立主题与主题之间的关联。
通过 LDA 主题抽取,可以获取文档—主题矩阵,根据该矩阵可度量每个文档中主题的分布情况。基于此,可以计算每个主题对在文档集中的共现频次,得到主题与主题之间的关联强度,构建共现矩阵,进而可以构建 TTN 网络。共现强度值的计算是网络构建的关键,目前已有的共现强
度值计算主要有:共现频次、包容指数、临近指数、相互包容指数(E 指数)、Ochiia 系数等[9]。
主题共现频次是最初级的关联强度,仅体现了两个主题在文档中共同出现的次数,但由于部分主题可能为泛型主题(如基础理论方面的主题),在每个文档中都会出现,造成和其他任何主题之间都存在较高的共现频次,但这无法衡量二者之间的关联度。另外,共现频次低的主题对之间的关联度未必比共现频次高的主题对关联强度低,如两个典型主题之间的共现,虽然比两个泛型主题的共现频次低,但是语义关联度肯定比泛型主题高。
基于包容指数的共现强度在低频之间或者低频与高频之间的共现强度值往往较大,只适合选取高频共现分析的情况下使用。基于临近指数的共现强度会出现低频之间的共现强度值远远大于高频共现之间的强度值,故也不适合主题共现分析。E 指数和 Ochiia 系数相比较其他的指数在低频共现的强度值计算方面优化不少,使低频之间的共现强度有所降低,但在主题共现分析时仍不能解决泛型主题共现强度值较大的现象。为了平衡低频共现和高频共现之间的强度值,同时减少泛型主题对共现的影响,本文对E 指数进行了改进,将主题的逆向文档频率(Inverse Document Frequency,IDF)考虑进来,进而降低泛型主题对共现强度的影响。
考虑主题的逆向文档频率改进的 E 指数(简称,IE 指数)的主题共现强度值计算公式如下:
其中 表示主题 在文档集中的共现频次, 表示主题在文档集中出现的次数(也称为主题的文档支持度),D 表示文档集的文档数。
4 实证研究
为了检验本文提出的 TTN 网络构建、主题影响力度量方法和网络结构演化分析方法的可操作性和有效性,本节展开了实证研究。实证研究的数据来源于 web of science 的锂离子电池(lithium-ion battery)领域,检索策略如表 1 所示。经过去重,去除与主题无关的文献,去除缺失等数据预处理过程,最终获得锂离子电池语料 14693 篇。本文的研究目标是深度挖掘学科领域知识结构及其演化规律,从而对新兴热点主题、关键主题进行挖掘和预测,而锂离子电池领域是材料科学的新兴热点研究领域,所以适合作为本章的实证数据。
4.1 锂离子电池领域生命周期划分
根据学科领域生命周期划分方法,本文统计了锂离子电池领域每一年文献的发表量,通过拟合文献增长速率,按照不同的速率,将锂离子电池领域的发展划分为四个阶段。第一阶段(Period 1)为萌芽期:1996—2000,第二阶段(Period 2)为成长期:2001—2005,第三阶段(Period 3)为发展期:2006—2010,第四阶段(Period 4)为快速发展期:2011—2016。从图 1 中可以看出,文献增长速率随着时间增长,萌芽期最小,到了快速发展期文献增长的速度非常快。
图 1 锂离子电池领域生命周期示意图
4.2 锂离子电池领域主题挖掘
本文基于 Perplexity-Var 指标确定了锂离子电池语料全局及各阶段LDA 主题抽取数目。Perplexity-Var 指标是结合了主题之间的相似度和模型的困惑度的指标,可以综合反映 LDA 的主题抽取效果和模型的泛化能力[10]。
经过 LDA 主题抽取,所有文献构成的全局语料库共抽取主题 35个,根据文献调研和专家经验筛选,从 35 个主题中识别出 30 个典型主题,这 30 个典型主题也称为全局主题。全局主题将作为锂离子电池学科领域各发展阶段主题语义判断的主要依据。部分全局主题的表示如表 2 所示,受篇幅所限,这里只展示了每个 Topic 的主题词(top20)。从每个主题下的前 20 主题词的语义可以归纳出该主题的含义。如:Topic5 是“锂离子电池薄膜研究”,topic6 是“XRD 分析”,topic11 是“静电纺丝与纳米纤维”,topic14 是“石墨烯纳米复合材料”,topic16 是“锂离子电池回收利用”,topic17 是“SOC 估算”,topic23 是“混动动力系统设计”,topic28 是“锂离子电池热管理”。
在抽取锂离子电池领域各发展阶段的主题时,本文使用了全局的主题词典,这样做的目的是保证了各发展阶段的主题都具有相同的维度和词向量基,只是各主题词向量的概率分布不同。由于各主题的维度和词向量基
相同,则可以定义适当的度量(如余弦距离、KL 散度等)计算主题之间的语义相似度,从而分析主题的语义演化。基于全局词典的 LDA 抽取的各阶段主题词及主题强度展示如图 2、图 3、图 4 和图 5 所示。从图 2 可以看出,在锂离子电池领域的萌芽期,topic1-2(锂离子电池电极材料化学性能研究)的主题强度为 0.54,topic1-6(锂离子电池性能研究:能量特性、工作特性和环境特性)的主题强度为 0.27,二者主题强度之和为 0.81,而其他主题的强度值都较小,说明在萌芽期该领域主要围绕这两个主题展开研究。
图 2 萌芽期主题词及主题强度展示
图 3 成长期主题词及主题强度展示
图 4 发展期主题词及主题强度展示
图 5 快速发展期主题词及主题强度展示
在成长期,主题强度值进一步分化(如图 3 所示),说明主题的研究强度进一步分散,主题强度值大于 0.1 的主题有三个分别是 topic2-1(锂离子电池电极化学性能研究),topic2-13(锂离子电池热管理)和 topic2-14(锂离子电池正极材料结构及性能研究)。同时,还存在一些主题强度值不大但是新出现的一些研究主题,如 topic2-3(尖晶石型正极材料)主题强
度为 0.074、topic2-4(锂离子电池组电路设计)主题强度为 0.051、topic2-5(电解质材料)主题强度为 0.069、topic2-6(锂离子电池薄膜研究)主题强度为 0.044 等。相比较萌芽期,成长期的研究主题形成了以topic2-1/topic2-13/topic2-14 为主,其他研究主题逐步成长的局面。
在发展期,topic3-15(锂离子电池正极材料结构及性能研究)是阶段最热的研究主题,主题强度值为 0.16,其次是 topic3-18(锂离子电池负极材料结构及性能研究)主题强度值为 0.10。由此也可以看出,在萌芽期和成长期研究主题“锂离子电池电极化学性能研究”在发展期分裂为“正极材料性能研究”和“负极材料性能研究”两个主题。在快速发展期,单一研究主题的强度值较高的现象进一步弱化,但是锂离子电池...
推荐访问:主题 演化 完整版 主题—主题关联的学科知识网络构建与演化分析 学科整合主题