关联文献的知识发现与创新研究进展

2013-03-12 MedSci MedSci原创

关联文献的知识发现与创新研究进展 A Study on the state-of-the-art of Literature-Related Discovery and Innovation 田瑞强 姚长青 潘云涛 TIAN Ruiqiang, YAO Changqing, PAN Yuntao (中国科学技术信息研究所,北京,100038) Institute of Scienti

关联文献的知识发现与创新研究进展

A Study on the state-of-the-art of Literature-Related Discovery and Innovation

田瑞强 姚长青 潘云涛

TIAN Ruiqiang, YAO Changqing, PAN Yuntao

(中国科学技术信息研究所,北京,100038

Institute of Scientific & Technical Information of China, Beijing 100038, China
摘要   
本文对关联文献知识发现的发展历程、技术变迁及发展方向进行了深入分析,按知识发现过程所采用技术的不同特点将其分为两个阶段,并根据充满争议的研究话题提出了下一代关联文献知识发现的发展方向。研究表明:第一代的关联文献知识发现分析以标题和摘要字段为主,采用词频过滤技术,结果评估以Swanson1986年
的案例为标准;第二代技术的文本分析范围从标题和摘要字段扩展到了叙词表和医学主题词表,分析单元从单词短语扩展到概念、语义,同时筛选采用语义过滤方
法,评价采取四步审查法。下一代技术的发展方向有:关联文献知识发现结果的评价或审查标准研究;关联文献知识发现的成果仅仅是知识增量还是彻底的知识发现
或创新的讨论;对自动化地从大量知识发现候选者中筛选出少量真正知识发现的技术研究。

关键词 
关联文献 知识发现 非相关文献 Swanson LRDI ABC模型 LBD

Abstract   Literature-Related Discovery and
Innovation (LRDI-formerly LRD or LBD) was proposed by Kostoff in 2012, integrating
discovery generation from disparate literatures with the innovation obtained
from prior art. The paper provided a brief overview of LRDI, both past and
present, and proposed some promising possible directions for next generation. As
figured out in the paper, the first generation of LRDI employed title words and
abstract terms for analysis, words frequency for filter, Swanson’s results in
1986 for evaluation; In parallel, the second generation of LRDI occupied
thesaurus-standardized terms and Medical Subject Headings(MeSH) terms for analyzing,
concepts for semantic filtering, Four-steps vetting for evaluating. Furthermore,
the paper indicated that Gold Standard of LRDI, knowledge increment VS radical
discoveries and techniques for culling large volume potential discovery
candidates into operable sized recommendations will attract more attentions of researchers
in future.                                                                                   

Key words  literature-related discovery; literature-based discovery; literature-related
discovery and innovation; Swanson; ABCs

1.  引言

1986年美国芝加哥大学的D.R Swanson创立了一种新的情报学研究方法[[1]]。在ISI WoS(Web of Science)数据库中使用主题检索发现“Literature-Based Discovery”一词最早出现在Gordon和Dumais1996年发表的论文中[[2]],此后研究者基本称Swanson1986年的方法为Literature-Based Discovery(LBD)。2007年,R.N Kostoff将LBD扩展为LRD(Literature-Related Discovery),LRD包括LBD和LAD (Literature-assisted
discovery)[[3]]。LBD仅通过单纯分析文献产生潜在知识发现,LAD在此基础上引入了专家智慧,不只分析文献并且依靠专家之间的沟通来产生知识发现。2012年Kostoff在LRD的基础上提出了关联文献知识发现与创新(Literature-Related Discovery and
Innovation,LRDI)强调将知识发现和创新结合,此为关于Swanson1986年研究的最新完整表述。在CNKI数据库中检索国内最早介绍Swanson研究的是马明和武夷山2003年合著的文章,他们将Swanson的方法称为非相关文献的知识发现[[4]],此后国内的研究者对Swanson的研究基本沿用了该说法。

关联文献的知识发现与创新是运用文本挖掘方法架构起彼此分离的概念间联系的系统方法[[5]]。科技的迅猛发展使人类的知识规模在过去一段时间内巨幅增长,其
后果是研究人员不得不花费大量精力才能跟上本学科的发展节奏而对其他领域的学科发展关注就相应减少。科研领域的不断细分,专业化程度越来越深,这种过度专
业化导致出现了所谓的“知识分裂”现象。单独的知识单元在产生时某种程度上是彼此独立的,尽管他们之间的逻辑关系可能显而易见却经常被人忽视,即所谓未发
现的公开知识(Undiscovered Public Knowledge)[1]。只有当这些知识碎片重新拼合在一起时,单元之间的关联才会浮出水面,而这些新建立的关联很可能就会导致潜在的知识发现,这就是Swanson创立LBD的初衷。

关联文献的知识发现与创新自创立至今已历经26年。期间,LRDI理论不断发展并日趋成熟,应用领域也从最初的医学、生物领域扩展到工程[[6]]、社会学领域[[7]],国内近年来也出现了将LRDI应用于航天[[8]]、农业领域[[9]][[10]]的研究。纵观LRDI的发展历程,这20多年间,不但诞生了相应的辅助软件系统(Arrowsmith),而且知识发现过程所应用的技术路线也发生了较大变化。但目前国内的研究很多仍停留在一代LBD相关技术的讨论,如非相关文献知识发现过程中的排序方法、初始文献集合结构等技术的研究[[11]~[15]],很多研究仍以复现Swanson1986年的试验为目的[[16]][[17]],未对其新的发展形势给予应有的关注。本文根据LRDI的技术变化特点将其发展划分为两个阶段,并对各阶段进行了深入分析,根据LRDI研究中充满讨论和争议的话题提出了下一代关联文献知识发现的发展方向。

2.  第一代LBD技术

1986年,D.R Swanson的鱼油与雷诺氏病论文第一次使用了开放式关联文献的知识发现过程(Open Discovery System,
ODS LBD),经过多年研究,最初的理念逐渐成熟并延续至今。许多后续的工作由Swanson和Smalheiser共同完成,包括:镁-偏头痛(migraine and magnesium)[[18]]、生长调节素C-精氨酸(somatomedin-C and arginine)[[19]], 和可作为生物武器的潜在病毒(potential bio-warfare
agents)案例[[20]]等。1996年Gordon和Lindsay拓展了Swanson的研究[[21]],不同的是,他们没有从标题中选词而从摘要中选词,改进了基于单词的词频统计法,改用基于短语的词频统计法再次验证了“鱼油-雷诺氏病”之间的关联。他们虽沿用了Swanson的框架,却将医学知识和文献检索结合进行了更深层的文本挖掘。分析范围上,Gordon和Lindsay也未局限于标题和主题词,而对整个Medline记录中的词和短语分析,提取对象从单词变为短语,使得文本分析范围得到扩充,为知识发现提供了更广阔的视角。所以他们不是对Swanson研究的全面复制,其方法对识别中间文献具有重要意义,但仍基于高频词过滤。

2001年,Weeber开发了DAD(Disease-Adverse drug
reaction-Drug)系统[[22]],率先将ODS和CDS过程结合,先通过开放过程形成假设,接着是检验假设的闭合过程,以此两步模型模拟Swanson的“RP-Fish oil”和“Migraine-Magnesium”知识发现案例。他通过MetaMap将自然语言映射为统一医学语言系统(Unified Medical
Language System, UMLS),以此作为词表标准化词汇并对主题概念进行语义过滤,该方法大幅度降低了筛选所需要处理的数据量。Weeber的贡献在于将LBD过程的分析单元由基本的单词或短语拓展到概念层面,更好提高了挖掘效果。但由于该方法需要一个详细的概念词表,而这只有医学领域存在UMLS,其他领域却很难找到类似的权威词表。其次,在筛选中间文献时,该方法仍是基于高频词的,强调了高频度的概念。 {nextpage}

3.  第二代LRD技术

2003年,Stegmann和Grohmann[[23]]首先将共词方法引入LBD过程,通过对关键词(MeSH词条)聚类与战略坐标来识别潜在知识发现。结果显示对知识发现有意义的词条都集中在左下象限(表示低于密度-中心度中值)。

2004年,Srinivasan[[24]]以Medline数据库中的MeSH词条为对象进行知识发现,将语义分析方法和词频统计方法结合并提出基于概念的词频统计,将自然语言通过MeSH与UMLS的语义类型相联系,并利用Gordon的方法统计参数,计算概念之间的相关性。其中MeSH中的词条被分割成语义单元,在每个语义类中MeSH以赋权向量形式表示,代表了相关联的主题。Srinivasan的语义控制方法与Weeber的语义控制方法有如下区别:增加了词频权重、以概念为基本研究对象,Weeber的是普通词频统计;在各个语义类型内部进行排序,而Weeber是将各语义类型合并在一起统一排序。同年Wren[[25]] 采用了标准ABC模型进行知识发现。他定义了主题类并从不同数据库中抽取类成员,研究其在Medline数据库中的共现情况寻找概念间的隐含关系。不同于其他研究者重点关注寻找关联词汇,他则关注如何有效识别出词汇间的关联。Wren用基于信息测度的方法计算词汇间的关联度,并发现最小互信息公式的排序结果相对于词频统计而言,能够有效提高低频概念,特别是相对专指、生物学意义更明确的概念在B集中的排序。Wren的算法从词汇间的共享联系出发,引入了信息论中的互信息方法,其方法具有领域无关的特性,可推广到众多研究领域。Hristovski(2004)[[26]]则采用述谓分析法以增强LBD,使用MeSH词条而非标题词,用与医学概念的关联代替了词频筛选。以UMLS的共现文本提取概念间关系,对Medline等主要生物学数据库中出现的所有概念的共现情况进行统计,通过UMLS的共现文本可得到与某一概念共现的所有概念,以初始概念与目标概念是否存在共现关系作为筛选潜在知识发现的条件。

2006年,Yildiz和Pratt [[27]]开发了LitLinker开放式知识发现系统,引入中间文献集和知识库启发机制控制与初始主题直接相关的文献集合。LitLinker通过计算词条在文献中的概率并设置阈值来寻找关联概念。其优势在于对概念进行修剪和聚类,排除了初始概念的上、下位类及相关概念,避免因同一概念存在多种表述方式遗漏有用的信息,使知识发现效率得到有效提高。

Kostoff沿着经典的知识发现模型进行了一系列研究,并于2008年发表了多篇文献[[28]~[35]]。他率先将LRD应用于工程领域,开展了旨在寻找降低成本的水净化替代方法(Water Purification, WP)研究,并结合了科学引文索引数据库进行LRD过程。尽管他的LRD研究案例都以一代的ABC知识发现模型为蓝本——均从初始文献集合C的检索开始,但Kostoff的贡献在于他不仅系统化了中间关联文献集的检索和筛选方法,使之成为一套完整严谨的潜在知识发现挖掘体系,而且在于他将引文理论引入了知识发现过程,并丰富了第二代研究者采用的共词分析技术。此前LRD中的共词分析主要是运用孤立的数学指标体系或模型来进行,Kostoff在此基础上引入了专家分析和短语的“邻近度分析”,认为同一语义界限内与主题相关的概念在物理意义和概念上也接近该主题。这种介入了专家判定和内容考虑的共词分析避免了主要主题的遗漏,比相对单纯的共词分析更具知识发现效率。

4.  两代技术特点比较

4.1LBD的ABC知识发现模型

自Swanson首次提出可以从公开的相互分离的知识中通过关联以产生知识发现以来,LBD不断发展成熟,但基本原则并没多少变化。一般地,将反映目标问题的核心文献记为文献集合C,也称为初始文献集,比如Swanson案例中的雷诺氏病相关文献;将问题的解决方法所在文献集合记为A,案例中的鱼油和二十碳五烯酸相关文献;将连接A和C的中间文献集合记为B,也即中间集。通过文献集C来寻找中间集合B,继而确定A——即从目标问题出发寻找解决方案的过程称为开放式知识发现过程;而通过A和C来寻找B的过程称为闭合式知识发现过程(Close Discovery System, CDS LBD)——即从目标问题与假设的解决方案出发,探寻其中的作用机制,如图1所示。由于开放式知识发现过程中产生的中间集合B数量更大组合情况更多,所以一般要比闭合式过程更具挑战,很多的LBD研究也都是开放式的知识发现过程。

该模型有两个前提:①假设可以找到两组相互分离的文献,其中第一个文献AB中包含了一个核心主题A和次级主题B(一般为多个),另外一个文献BC则包含了核心主题B(可能一个或多个)和次级主题C。②通过主题B可以建立两个文献间的关联。而连接两个文献中分离部分的关联就是潜在知识发现,但不能通过单独阅读文献AB而识别出文献BC中分离的主题C。比如案例中的鱼油(文献AB中的主题A)能够降低血液粘度(连接文献AB和文献BC的主题B)能够缓解雷诺氏病(文献BC中的主题C),然而在当时的公开文献中没有找到同时论述雷诺氏病和鱼油的文献,由此Swanson产生了第一个关联文献的知识发现。

4.2LRD的知识发现过程

Kostoff在ABCs基础上提出了LRD的潜在知识发现挖掘过程。LRD是将两个或以上的概念通过文献挖掘技术建立联系,以发现新颖有意义且合理的知识和创新。LRD有两种研究思路:①通过单纯分析文献产生潜在知识发现②不仅分析文献,且依赖与作者之间的互动沟通产生知识发现(Literature-assisted
discovery,LAD)。一般地LRD包含4个过程,如图1所示。该过程本质上与LBD的ABC模型相同,只是将中间集合B分成了两步进行。其中步骤1~3将与描述目标问题的核心文献非相关(间接关联)的文献识别、检索、分类,步骤4主要将这些非相关文献中的概念与目标核心文献建立联系以产生潜在知识发现。




图1 LRD的知识发现过程

4.3两代技术差异比较

从以上的分析来看,尽管一代的LBD知识发现过程与二代的LRD过程在基本原理和模型上并无变化,但在对各文献集合处理的细节上还存在一些差别。

4.3.1分析对象的范围

从分析的文本范围来看,第一代LBD主要以文献标题和摘要构建初始文献集并寻找中间集合,如Swanson开始就只采用标题字段。第二代LRD则扩展到标准叙词表和医学主题词表,比如2004年Wren和2005年Hristovski等就采用了标题、文摘和MeSH字段。使用标题进行知识发现过程简单、容易操作,但题目字段很少能完整涵盖文献的所有概念,往往会遗漏重要的知识发现。标准化的叙词表,如UMLS和MeSH,能够提供统一知识分类体系,完整涵盖了领域的几乎所有重要概念,并能显示该领域的语义结构关系。MeSH词条能够规范表达生物医学概念,利用MeSH词条表达文献主题能够克服词汇的同义、多义问题。同时MeSH能够充分表达生物医学领域的相关概念,具有很好的语义过滤功能,减小了中间集合的数量使后续过程更具操作性;MeSH词条识别潜在知识是把双刃剑,因为MeSH词条数目有限,尽管减少了工作量但每个变量的涵盖范围却大幅增加,每个MeSH词条对应很多医学主题,需要大量的人工分析不利于实现全面自动化。同时由于医学领域存在UMLS和MeSH,虽然能够有效降低数量,而其他领域却不存在类似的权威叙词表,构建权威标准叙词表则是个极其耗费时间和资源的工程,不利于其他领域的应用。

从分析的文本单元来看,一代LBD主要针对单词和短语,由于一个单词或短语并不能准确描述一个概念,二代LBD不但采取了一个、两个、三个词汇构成的单元,还引入了MeSH词条,有的还将自然语言与UMLS概念映射,这使得LRD过程分析的单元扩展到概念和语义层面,大幅提升了知识发现的准确性。

4.3.2中间集合B的筛选

通过扩展产生中间集合B,第一代LBD采用的过滤技术基本都基于高频词,强调了高频度。例如Swanson1986年根据B在AB-BC链中共现的次数对B词进行排序,其假设是B链
结越多,则其对产生知识发现越重要,因而低频词就被忽略了。这种方法的潜在设定是高频度即代表高关联度,但问题在于高关联性并不意味着能导致知识发现的高
概率,低频词没有理由被排除在知识发现过程之外。而且从现有的研究来看,已知的关联中的中间集合中的词汇和目标集合中的词汇采用共现频率统计并没有得出较
高的共现频次。相反,词组的频次越高,由它导致知识发现的概率并不高,很可能只是个宽泛的概念。例如,镁和偏头痛案例中,疼痛(pain)的频次很高[18],虽然表示其与偏头痛的关联性很高,但它是医学领域的常见词汇并不能产生知识发现。


联文献知识发现的基本假设是:科技文献包含许多概念,每个概念一般都包含子概念或次级概念。单纯从组合论的角度,两个或更多的概念有大量的组合方式。这些
概念组合构成了大量完全不相关的文献。经验可知,一个问题的解决方案——跨学科问题更甚——都涉及许多概念。由此假设这些大量的可能组合中一定包括可以导
致知识发现的那部分组合[3]。
关联文献知识发现的目的就是要通过出色的设计检索过程合理有效地识别这些潜在知识发现组合。因此与核心文献距离更远方向更背离的文献,从核心文献角度目标
问题被先前的研究所关注到的几率就越小,其存在知识发现的概率就越大。由此可以看出,低频词反而更可能导致知识发现,不应被忽略。

第二代LRD采用语义过滤而不关注词语的频次,应用的语义过滤有两种:语义类词汇和语义类工具。在各级检索式中加入语义类短语进行限定,该语义类一般与知识发现过程的目标、欲寻求解决方案的类型有关,比如Kostoff的帕金森病的非药物疗法案例,使用的语义类词汇是一些植物、植物疗法、膳食和饮食有关的词汇[33]。研究也发现语义类词汇在聚类过程中起到了有效的过滤作用。例如潜在知识发现候选者记录中通常有多个MeSH术语,其余记录中这些主题类的MeSH术语很少。语义类工具包括两种方法,聚类语义过滤和潜在语义索引潜在语义索引。聚类过程不仅对分离语义类具有强大的过滤作用,对最具希望的和没有多大希望的知识发现候选者同样具有强大的分离作用。潜在语义索引通过奇异值分解方法获得在文本中术语和概念之间关系的索引,它根据扩展核心术语与挑选的核心术语之间的余弦相似度来筛选。 {nextpage}

4.3.3知识发现A的认定

LBD的一个核心问题是没有权威标准以评价知识发现过程。一个真正的黄金标准应该能从定性和定量两个方面来评价潜在的知识发现。大多数的LBD研究者都以Swanson鱼油论文的结果作为评估其LBD研究的基准。但问题在于Swanson的LBD结果能否提供一个普遍的评价框架。一方面,Kostoff等对Swanson的结果能否称为真正的知识发现或创新提出了质疑,他质疑Swanson的研究是否加快了应用鱼油治疗雷诺氏症。基于一个并非真正的知识发现结果来评估所有新的LBD过程势必只能得到错误的结果。另一方面,随着研究的进展,也不能确保是否会出现比Swanson更好的知识发现,若还以Swanson的结果为标准评价LBD过程就更不合时宜了。


评估一个测量工具一般会有两个选择。若该问题有明确的解决方案,那么可以比较该工具的方案与标准方案之间的差距。另外,如果能评估该工具的固有误差,那么
也就可以确定其准确率了。但是对于知识发现的识别而言,任何目标问题可能的知识发现内容未知,所以无法评价该过程所达到的水平。况且,在做一系列的验证之
前,也不能评价任何知识发现的正确性。这也就意味着在能确切地评估一个潜在知识发现能否称为真正的知识发现之前要经历一个长期的验证过程。因此,LBD的黄金标准都应该是一个个经过验证的个案。为此Kostoff提出了一个四步审查过程来确认知识发现[29]。首先审查核心文献集C,
确保得到的知识发现在之前的文献中没有出现过。其次审查引文关系,检查潜在知识发现候选者与核心文献之间是否存在引文链接。然后审查专利数据库,阅读专利
的权利声明以检查是否存在已有关联。最后要通过领域专家审查,这些专家分别来自核心问题所在领域和潜在知识发现所在领域。通过向核心问题领域的专家咨询潜
在知识发现概念能否称为真正的知识发现,以前是否碰到过该概念;向潜在知识发现领域的专家咨询该概念能否移植外推到目标问题领域来审查。审查按照新颖性、
价值性和重要性三原则进行。完整通过四步审查的潜在知识发现候选者就成为真正的知识发现。

5.  下一代LBDI技术

根据目前关联文献的知识发现技术缺陷及研究者在一些问题上存在的争议,提出下一代关联文献的知识发现的发展方向。

5.1现有技术的缺陷

现有的知识发现系统,通常以ACi命题为真的可能性作为评价条件。然而新发现首次提出时,以当时的知识视野看起来往往都不太可能[[36]](Simonton,2004)。许多知识发现系统试图用自然语言技术来识别类似“A作用B,B影响C”的表述,但是这大概只适用于简单的化学作用,在其他领域未必适用。因为大多数科技文献中的隐形信息并不以这种简单的模版存在,而以复杂的命题等形式出现[[37]](Hristovski,2008),特别是一些知识发现是以类比、图片等方式呈现的,比如DNA双螺旋结构的首次发现就是以影印图片形式展示的。同时,这种发现机制也没有关注到关联的细节信息,无论在提取潜在知识发现候选者还是在审查阶段,都不能发现概念间的否定联系,具体联系的机制也无法确定。

另外,现有的知识发现系统尤其医学领域的应用研究越来越趋向于使用MeSH词条进行分析。尽管MeSH具有诸多优点,如大幅降低数据量级、可以构成语义过滤工具等,但它同时存在不可忽视的缺陷。Medline数据库的更新具有时滞,特别新发表的文献无法及时收录,因而就不会在知识发现过程中得到分析。Medline标引的MeSH词条并没有涵盖该文献的全部内容,有的潜在知识发现就会因此被遗漏。

最后,研究者批评Kostoff的四步审查法过于严厉。以该标准进行审查,甚至连Swanson1986年的鱼油案例也不能称为真正的知识发现。例如Pratt和Yildiz2007年在给Kostoff质疑其知识发现结果的回信中称[[38]],对于一个软件系统(LitLinker)要求它发现数据库(Medline)中未收录的文献显然太过勉强。因而他们强调将“已有的关联(a known correlation)”定义在Medline数据库中至少共现一个MeSH词条的文献中。换句话说就是凡在Medline数据库中,使用MeSH词条检索不到共现关系的文献都认为其非相关,也就是他们将核心文献C的边界限定在Medline数据库中,不考虑SCI数据库中关联情况,同时也认为没有必要再去专利数据库中审查是否存在已有关联。

5.2“知识增量”VS“彻底的发现、创新”

Smalheiser认为LBD知识发现是相对于特定领域的研究者而言的。若LBD的结果对目标问题领域的研究人员而言是新颖的,即使该发现对其原来领域的专家或研究群体而言是熟知或常识,那么该LBD系统的知识发现也有价值(N.R Smalheiser,2012)。
他主张不应忽视“创新”一词在公用领域与私有领域的巨大差异。因为科学研究中大多数科学家私下应用的创新通常包括想法、猜想、先导试验及一些建模过程等,
但是在最终公开发表的文献中,这些“创新”统统都被清除遗失了。其原因在于科学家一般不是特别情愿发表其研究的负面结果,很多科学家也认为假说类论文是一
种低层次的文献 [[39]]。在Smalheiser看来,LBD的结果实际上是一些假说(hypothesis),仅仅是一种知识增量,其对科学的价值也有限。这些假说也并不怎么受大多数科学家待见,科学家不情愿相信LBD的结果,医生也拒绝由计算机系统产生的诊断结果,因为即使软件给出了正确的诊断结果,医生还是要仔细的检查其推理过程,这也是LBD发明至今仍发展缓慢的原因之一。

Kostoff提出LRDI概念则强调由LBD/LRDI过
程得到的知识发现是一种新颖、有意义、合理的知识产品。科学发现是对未知的世界的探明,科学创新是现有技术本质的革新,它们有赖于三方面的因素:现存的非
实用知识,即方法论、认识论层面的知识;未知信息的新发现;公开的相互分离的知识碎片的组合综合。人类的科技创新有两条经验,一是来自自发的创造力,比如
爱迪生的反复试验,这具有一定的偶然因素;另一种则是通过对人类知识库进行系统地挖掘而激发灵感创造。LRDI的知识发现就是对人类知识进行系统的挖掘,将相互分离的知识碎片组合综合以激发创新灵感的过程。发现的层次与灵感来源刺激的强弱有关,若目标问题与核心文献的距离越远则发现的层次越根本,这种灵感刺激引起的改变或影响越大,发现的层次也越高级[3]。同时,在Kostoff看来,之前的研究忽视了现有技术(prior art)对潜在知识发现的作用(Kostoff,2012)[[40]]。
当时研究者的考虑是如果科学家意识到了其领域的现有技术确实具有重要价值,那么肯定会进行全方位的研究;反之则说明这些现有技术价值很低。现在看来,这些
现有技术在过去一直被忽视,尤其是一些低技术含量的,比如食品、食品提取物、草本等,它们是已经发表的文献中的潜在治疗方案,但是没有被主流群体认可。之
前研究者追求的是新颖的(no prior art)的知识发现,但事实上这些被忽视的现有技术对很多医学疾病的治疗具有巨大的潜在价值。

总起说来,Smalheiser等认为关联文献的知识发现过程仅仅是知识增量,且价值有限。而Kostoff则强调关联文献的知识发现成果是彻底的知识发现和创新,并且呼吁研究者关注现有技术的价值,主张对现有的技术进行分析以解决目标问题,从而达到技术的创新,强调知识发现与技术创新的结合,这也是他2012年提出LRDI说法的意图所在。

5.3“大海捞针”到需大量筛选的转变

此前,研究者均以Swanson1986年的鱼油案例作为LBDI过程的评价标准,人们都在致力于寻找类似的稀有联系,尽管当时看来这就像“大海捞针”一样,但人们都坚信一旦找到这种类似的关联,那么它将直接导致某种疾病的治疗或者引起科学的重大突破,所以研究者都在极力地复现Swanson的实验结果。但是现在形势的发展走向却恰恰相反,Kostoff等通过LRDI过程发现了大量与Swanson的类似的关联,同时也发现了大量目标领域的已有研究或现有技术,所以真正的挑战则变成了如何将大体量的知识发现结果剔除到有限的可操作的数量。

现在的LRDI技术能够提供足量的潜在知识发现候选者,已有的机制能够提供充足的综合性解决方案,其主要的限制不在技术机制,而在于如何在大规模的潜在知识发现结果中筛选出少量的真正知识发现。通过已有的研究分析发现限制LRDI发
展的主要因素有:已经发表的文献与人们意识中的已发表文献之间的界限不清;文献中已经存在的客观内容及其质量。而现在从大规模的知识发现候选者中筛选真正
知识发现采用的技术主要是人工阅读判断,由于上文述及的界限不明问题,人工判定是否存在已有关联通常具有争议,而且这种方法费时费力,因而就急需一种标准
的自动化的技术来代替。

6.  结论

通过以上的研究分析发现,自Swanson1986年首次采用开放式关联文献的知识发现过程揭示了鱼油与雷诺氏病之间的关联以来,关联文献的知识发现技术经历了两代变迁。从1986年至2000年左右,这一代的关联文献知识发现研究者主要以文献的标题字段和摘要来构建初始文献集和寻找中间集合,采用的过滤技术主要是词频分析,强调了高频度,在评估知识发现的效果或结果时也普遍采用Swanson鱼油案例的结果。

从2000年以来,通过研究者的不懈探索,关联文献知识发现过程不断成熟,并形成了以Kostoff为
代表的关联文献知识发现法的一套系统体系。第二代知识发现过程的研究特点是:文本分析范围从标题和摘要字段扩展到了标准叙词表和医学主题词表,并且不再只
是对单词短语进行分析,而是转向了概念、语义分析;同时知识发现过程采用了语义过滤方法,而不是以词语的频次作为筛选条件;评价过程也不再以复现Swanson当年的结果为目标,而是采取严格的四步审查法。 {nextpage}


一代关联文献的知识发现的研究将主要集中在以下方面:关联文献知识发现结果的评价或审查,即对权威标准或比较基准的研究将会吸引研究者的关注;关于关联文
献知识发现的成果仅仅是知识增量还是彻底的知识发现或创新的讨论,这关系到关联文献知识发现过程的价值及其结果审查时尺度的拿捏。由于技术的改进,潜在知
识发现候选者从最初“大海捞针”般的稀少转变到很容易就产生庞大的潜在知识发现候选者,如今的挑战在于如何在大规模的潜在知识发现结果中筛选出少量的真正
知识发现,因此就产生了对自动化筛选潜在知识发现候选者的技术需求。

7.      
参考文献




[[1]]Swanson D. Fish oil, Raynauds
sumdrome, and undiscovered public knowledge [J]. Perspect Biol Med, 1986,
30(1): 7~18.




[[2]] Gordon M, Lindsay R, Toward discovery support systems: a replication,
re-examination, and extension of Swanson's work on literature-based discovery
of a connection between Raynauds and fish oil [J]. Journal of the American Society for Information
Science 1996,47 (2)
: 116–128.




[[3]]Kostoff RN.
Literature-Related Discovery: Introduction and Background [J]. Technological
Forecasting and Social Change.2008, 75(2): 165-185.




[[4]]马明,武夷山.Don R.Swanson的情报学学术成就的方法论意义与启示[J].情报学报.2003,22(3):259-06-06.




[[5]]Kostoff RN, Systematic
acceleration of radical discovery and innovation in science and technology [J].
Technol. Forecast Soc. Change 2006, 73 (8): 923–936.




[[6]]Kostoff RN, Solka JA,
Rushenberg RL, Wyatt JR. Literature-Related Discovery: Potential Improvements
in Water Purification [J]. Technological Forecasting and Social Change.2008, 75:2.
256-275.




[[7]]Vitavin I, Katsuhide F,
Yuya K, et al. Finding linkage between technology and social issues: A
literature based discovery approach [C]. Technology Management for Emerging
Technologies (PICMET), 2012 Proceedings of PICMET '12: July 29 2012-Aug.



[[8]]曹志杰,冷伏海. 非相关文献知识发现方法在航天科技情报研究中的应用分析[J]. 情报理论与实践,2008,04:569-572.




[[9]]黄水清. 非相关文献知识发现方法及在农业经济学中的应用[D].南京农业大学,2010.




[[10]]黄水清,马俊岭. 汉语社会科学文献非相关文献知识发现的实证研究——以农业经济学文献为例[J]. 中国图书馆学报.2009,04:31-38.




[[11]]张云秋,冷伏海.非相关文献知识发现的关键技术研究[J].情报学报,2008,27(4)




[[12]]张云秋,冷伏海.基于文献内聚度的非相关文献知识发现排序方法研究[J].现代图书情报技术,2009,(6)




[[13]]张云秋,余睿蜚.对非相关文献知识发现中初始文本集结构的试验研究[J].情报学报,2009,28(1)




[[14]]安新颖,冷伏海.基于非相关文献的知识发现原理研究[J].情报学报,2006,25(1)




[[15]]张云秋.基于非相关文献知识发现中的文本挖掘研究[J].情报理论与实践,2007,30(2)




[[16]]郝丽云,郭启煜.主题词分析法进行非相关文献知识发现的探索(Ⅱ)—对2型糖尿病文献进行知识发现的实践[J].情报学报,2007,26(6)




[[17]] 郝丽云,郭启煜.主题词分析法进行非相关文献知识发现的探索(Ⅰ)—模拟Swanson的知识发现过程[J].情报学报,2007,26(5)




[[18]]Swanson D.R, Migraine
and magnesium- 11 neglected connections [J]. Perspectives in Biology and Medicine 1988,31
(4): 526–557.




[[19]]D.R. Swanson,
Somatomedin-C and arginine—implicit connections between mutually isolated
literatures [J]. Perspectives in Biology
and Medicine 1990,33 (2):157–186.




[[20]]Swanson D.R,
Smalheiser N.R, Information discovery from complementary literatures:
categorizing viruses as potential weapons [J]. J. Am. Soc. Inf. Sci. Technol. 2001, 52
(10): 797–812.




[[21]]Gordon M.D, Lindsay
R.K, Toward discovery support systems: a replication, re-examination, and
extension of Swanson's work on literature-based discovery of a connection
between Raynaud's and fish oil [J]. Journal of the
American Society for Information Science, 1996,47 (2): 116–128.




[[22]]Weeber M, Klein H, T.W
L, et al, Using concepts in literature-based discovery: simulating Swanson's
Raynaud-fish oil and migraine–magnesium discoveries [J]. Journal of the
American Society for Information Science and Technology, 2001,52 (7) :548–557.




[[23]]Stegmann J, Grohmann G,
Hypothesis generation guided by co-word clustering [J]. Scientometrics,2003, 56 (1):111–135.




[[24]]Srinivasan P, Text
mining: generating hypotheses from MEDLINE [J]. Journal of the American Society for
Information Science and Technology, 2004,55 (5) : 396–413.




[[25]]Wren J.D, Bekeredjian R,
Stewart J.A, Shohet R.V,et al. Knowledge discovery by automated identification
and ranking of implicit relationships [J]. Bioinformatics, 2004,20 (3) :389–398.




[[26]]Hristovski D,Peterlin B,
Mitchell J.A, Humphrey S.M, Using literature-based discovery to identify
disease candidate genes [J]. International Journal
of Medical Informatics, 2005,74 (2–4):289–298.




[[27]]Yetisgen-Yildiz M,Pratt
W, Using statistical and knowledge-based approaches for literature-based
discovery [J]. Journal of Biomedical
Informatics, 2006,39 (6): 600–611.




[[28]]Kostoff RN.
Literature-Related Discovery: Methodology [J]. Technological Forecasting and Social {nextpage}
Change, 2008, 75(2): 165-185.




[[29]]Kostoff RN, Briggs MB,
Solka JA, Rushenberg RL. Literature-Related Discovery: Methodology [J].Technological
Forecasting and Social Change, 2008, 75(2): 186-202.




[[30]]Kostoff RN, Block JA, Stump JA, Johnson D.
Literature-Related Discovery: Potential Treatments for Raynauds Phenomenon [J]. Technological Forecasting and Social Change, 2008, 75(2):
203-214.




[[31]]Kostoff RN. Literature-Related Discovery: Potential
Treatments for Cataracts [J]. Technological Forecasting and Social Change, 2008, 75(2):
215-225.




[[32]]Kostoff RN,Briggs MB. Literature-Related Discovery: Potential
Treatments for Parkinson’s Disease [J].Technological
Forecasting and Social Change, 2008, 75(2): 226-238.




[[33]]Kostoff RN, Briggs MB, Lyons T. Literature-Related
Discovery: Potential Treatments for Multiple Sclerosis [J].Technological Forecasting and Social Change, 2008, 75(2):239-255.




[[34]]Kostoff RN, Solka JA, Rushenberg RL, Wyatt JR.
Literature-Related Discovery: Potential Improvements inWater Purification [J]. Technological Forecasting and Social Change2008, 75(2):
256-275.




[[35]]Kostoff RN, Block JA, Solka JA, Briggs MB, Rushenberg RL,
Stump JA, Johnson D, Wyatt JR. Literature-Related Discovery: Lessons Learned,
and Future Research Directions [J]. Technological Forecasting and SocialChange2008, 75(2):
276-299. .




[[36]]
Simonton, D.K. Creativity in science: Chance, logic,
genius, and Zeitgeist [M].Cambridge, UK: Cambridge University Press. 2004:301.




[[37]]
Hristovski D, Friedman C,Rindflesch T et al. Literature-based
knowledge discovery using natural language processing [J] . Berlin: Springer-Verlag, 2008, 4(2), 133–152.




[[38]] Wanda Pratt,
Meliha Yetisgen-Yildiz. Reply:Response to ''Validating discovery in
literature-based discovery" [J].Journal of
Biomedical Informatics archive. 2007, 40(4), 450-452.




[[39]]Smalheiser N, Literature-Based Discovery: Beyond the ABCs
[J]. Journal of the American Society for Information Science and
Technology.2012, 63(2):218-224.




[[40]]Kostoff RN. Literature-Related Discovery and Innovation -update
[J].Technological Forecasting and Social Change, 2012, 2(10),
1-16.




版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1285139, encodeId=cee1128513929, content=<a href='/topic/show?id=77903209422' target=_blank style='color:#2F92EE;'>#创新#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=23, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=32094, encryptionId=77903209422, topicName=创新)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=512a199, createdName=lilianxiang, createdTime=Thu Mar 14 12:30:00 CST 2013, time=2013-03-14, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1380374, encodeId=4bcd13803e460, content=<a href='/topic/show?id=9281e34519b' target=_blank style='color:#2F92EE;'>#研究进展#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=29, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=73451, encryptionId=9281e34519b, topicName=研究进展)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=f13d475, createdName=mashirong, createdTime=Thu Mar 14 12:30:00 CST 2013, time=2013-03-14, status=1, ipAttribution=)]
  2. [GetPortalCommentsPageByObjectIdResponse(id=1285139, encodeId=cee1128513929, content=<a href='/topic/show?id=77903209422' target=_blank style='color:#2F92EE;'>#创新#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=23, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=32094, encryptionId=77903209422, topicName=创新)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=512a199, createdName=lilianxiang, createdTime=Thu Mar 14 12:30:00 CST 2013, time=2013-03-14, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1380374, encodeId=4bcd13803e460, content=<a href='/topic/show?id=9281e34519b' target=_blank style='color:#2F92EE;'>#研究进展#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=29, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=73451, encryptionId=9281e34519b, topicName=研究进展)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=f13d475, createdName=mashirong, createdTime=Thu Mar 14 12:30:00 CST 2013, time=2013-03-14, status=1, ipAttribution=)]

相关资讯

三大牛人看国外文献的方法

牛人一   (从Ph.D到现在工作半年,发了12 篇paper, 7 篇first author.)我现在每天还保持读至少2-3 篇的文献的习惯.读文献有不同的读法.但最重要的自己总结概括这篇文献到底说了什么,否则就是白读,读的时候好像什么都明白,一合上就什么都不知道,这是读文献的大忌,既浪费时间,最重要的是,没有养成良好的习惯,导致以后不愿意读文献. 1. 每次读完文献 (不管是细

如何高效的阅读文献?

如何高效的阅读文献.pdf

如何高效阅读文献

如何高效阅读文献.pdf

介绍国外一个免费分析文献的网站

http://www.gopubmed.org/web/gopubmed/ 对pubmed上文献进行全面系统分析,包括学科,地域等,也可以根据关键词进行详细分析。相当好用。对了解某一学科的进展,很有帮助

如何读正确高效医学文献?

医学研究进展飞速,每天都有大量的论文发表。对于同一个命题,不同的研究甚至得出相反的结论。应该如何评价一项研究的好坏,研究结论是信还是不信,可以用以下3步法。 第一步需要了解研究的设计。医学研究大致可以分为两类,观察类和实验类。两者的差别在于是否有人为的干预。观察类又分为描述性和分析型两类,前者包括相关性研究(Correlational study)和横截面研究(Cross-sectional