收藏:文本级别的生物医学文献检索神器LitSense

2020-06-13 网络 网络

文献检索、全文获取以及文献阅读是科研工作者进行前沿追踪应该掌握的三大技能。其中文献检索是一切的基础,能在茫茫文海中找到你最需要的文献可不是一件简单的事儿。那么问题来了,在日常的文献检索中,你除了百度、

文献检索、全文获取以及文献阅读是科研工作者进行前沿追踪应该掌握的三大技能。其中文献检索是一切的基础,能在茫茫文海中找到你最需要的文献可不是一件简单的事儿。那么问题来了,在日常的文献检索中,你除了百度、谷歌、PubMed和WOS之外你还能想到哪些工具呢?特别是希望进行句子级别文本检索的时候。事实上,它更是写作神器!

先上LitSense 官网:https://www.ncbi.nlm.nih.gov/research/litsense/ 

图片来自网络

除了浏览器入口外,大家常用的Pubmed和WOS属于引文数据库,这些数据库中仅包含文献的标题、作者信息、出版物信息、摘要、参考文献以及关键词等,一般不包含文献的全文,这一类数据库常用于文献检索,即从引文数据库中找到我们感兴趣的文献。全文数据库指的是期刊的数据库,通常需要付费获取,科研机构和图书馆会购买文献出版集团的全文数据库,以供自己的用户使用。

引文数据库大都以关键词检索为主,不能进行段落或句子级别的检索。如果你看到一段不错的句子,想知道它的出处有没有办法呢,答案是肯定的。2019年7月发表在《Nucleic Acids Research》的一篇论文就解决了这个问题。基于文本挖掘,LitSense可以进行句子级别的文献搜索。LitSense的一个核心功能是将查询语句与语料库中的5亿个句子进行匹配,且支持双引号引精确匹配。

论文截图

对于给定的查询,LitSense使用两种方法返回最佳匹配的句子:

一种是传统的词汇加权方法(term-weighting approach),它对包含用户查询中更多罕见词汇的句子进行加权;

一种是新的神经嵌入方法(state-of-the-art neural embedding approach),允许检索语义相关的结果,而不需要显式的关键字匹配;

LitSense has two main parts: ‘sentence indexing’ and ‘search

LitSense 官网地址:https://www.ncbi.nlm.nih.gov/research/litsense/,输入给定的一系列关键词或者句子即可进行查询

LitSense 官网 截图

LitSense嵌套的PubTator是用于查看和检索全文生物医学文章中的生物概念注释的在线软件,可以为基因/蛋白质、遗传变异、疾病、化学物质、物种和细胞系等生物学概念提供自动注释并以不同颜色标注。

论文截图

从3月18号发表在NEJM中的一篇新冠论文(SARS-CoV-2 Infection in Children)中选了一句话进行测试:“This report describes a spectrum of illness from SARS-CoV-2 infection in children.”,看看效果如何。尽管是最新的文献,且句式简单,但还是可以检索命中。

检索结果截图

其实,LitSense最大的用途或许还不是检索,应该是AI辅助写作。

LitSense 官网:https://www.ncbi.nlm.nih.gov/research/litsense/ 

参考文献:Alexis Allot, Qingyu Chen, Sun Kim, Roberto Vera Alvarez, Donald C Comeau, W John Wilbur, Zhiyong Lu, LitSense: making sense of biomedical literature at sentence level, Nucleic Acids Research, Volume 47,Issue W1, 02 July 2019, Pages W594–W599, 

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1461497, encodeId=4c52146149ecb, content=<a href='/topic/show?id=06a069243aa' target=_blank style='color:#2F92EE;'>#生物医学#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=45, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=69243, encryptionId=06a069243aa, topicName=生物医学)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=28b96422769, createdName=wolongzxh, createdTime=Mon Jun 15 11:23:41 CST 2020, time=2020-06-15, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=602206, encodeId=10eb60220684, content=可以代替gopubmed了, beContent=null, objectType=article, channel=null, level=null, likeNumber=70, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/20211210/ede9c51184aa4f54ae6c1164cfb8eeac/967dbf3eff2943c7bf3ccfec3a776ab0.JPG, createdBy=a33789389, createdName=lifefamily@163, createdTime=Sat Jun 13 20:27:14 CST 2020, time=2020-06-13, status=1, ipAttribution=)]
  2. [GetPortalCommentsPageByObjectIdResponse(id=1461497, encodeId=4c52146149ecb, content=<a href='/topic/show?id=06a069243aa' target=_blank style='color:#2F92EE;'>#生物医学#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=45, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=69243, encryptionId=06a069243aa, topicName=生物医学)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=28b96422769, createdName=wolongzxh, createdTime=Mon Jun 15 11:23:41 CST 2020, time=2020-06-15, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=602206, encodeId=10eb60220684, content=可以代替gopubmed了, beContent=null, objectType=article, channel=null, level=null, likeNumber=70, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/20211210/ede9c51184aa4f54ae6c1164cfb8eeac/967dbf3eff2943c7bf3ccfec3a776ab0.JPG, createdBy=a33789389, createdName=lifefamily@163, createdTime=Sat Jun 13 20:27:14 CST 2020, time=2020-06-13, status=1, ipAttribution=)]
    2020-06-13 lifefamily@163

    可以代替gopubmed了

    0

相关资讯

从消防中的Burn-down之争学习文献检索

就在大家仍沉浸在天津爆炸事件的悲痛中,为消防员和医务人员感叹,致敬的时候,网络上掀起了一股关于“burn down policy”的消防原则的热议。小编们无意成为传说中的钓鱼党,但想从搜索的角度谈谈,这个“burn down policy”确实是能搜索到,而且很容易。无论是burn down,还是burn down policy,或burn down policy fire都是可以检索到很多文章。

BMJ:文献检索时检索词的错误拼写体也很重要!!!

当进行文献检索时,检索人员也应就检索词的错误拼写体包括在内。

文章有风险,引用须谨慎

一般来说,自己发表的科研文章被人引用终究是件让人高兴的事。但最近同事却因自己的一篇文章被他人引用,有些恼火。事情原来是这样的:同事在文献检索过程中,无意间发现他的一篇将近十年前发表的汉语某期刊(EI)文章被某学校的科研人员引用了。说实话,他的文章是一篇很普通的科研文章,而且文章涉及的研究方向他也早就不做了。起初他还挺高兴,于是到文中去看看。结果一看,他发现了一个重要的问题:该作者在引用他这篇文章时

医学文献检索

文献是记录知识和信息的载体, 文献检索是信息按一定方式组织和存贮起来,并按用户需要找出相关信息的过程。医学文献类型按加工层次可分为: 一次文献, 二次文献, 三次文献和零次文献。(1)一次文献即原始文献,是作者根据自己的工作和研究成果而写成的,也可称原始论文。例如:期刊论文、学位论文、研究报告、专利说明书等。(2)二次文献二次文献是对一次文献进行收集、分析、整理并按照其外部特征或内部特征(如篇名、

在线课堂:强大讲解:医学文献检索总论

虽然现在的研究生们在校都零零散散学习过如何做简单的检索,同时我们做过不少检索培训,如 pubmed使用攻略 、文献检索快准狠:ClinicalTrial & GopubMed 但是介于数据库的局限以及检索能力的差异,小M依然每天都会收到不少M友们在检索上的咨询。 阅读文献是科研人员获取科研信息的重要途径,文献检索理所当然是搞科研的

文献检索快准狠:ClinicalTrial & GopubMed

文献检索的目的是通过合理的检索,能有效梳理临床研究脉络,寻找到新的创新点,为临床研究提供关键基础。检索不仅仅是“查”,更是如何查全,查新和查准。避免漏检,多检。检索虽然简单,但探索无止境。几种主要的数据库总结: 两种常用的检索工具:  1.ClinicalTrials首页(https://www.clinicaltrials.gov/) 输入lung can