浅读检索--《专利检索中的关键词扩展研究》
发布时间:2021.09.13 福建省查看:3735 评论:2
我的公众号原文链接:
https://mp.weixin.qq.com/s/tx7Gu5rz4onsro91CYZTTg
----------------------------------------
本文浅读的对象,为期刊“中国科技信息”2013年第14中的检索相关文章,作者为来自国家知识产权局专利局专利审查协作北京中心的覃冬梅、丁君军。以下浅读、分析等均仅代表本人观点,不代表作者覃冬梅、丁君军观点。如有其他理解欢迎交流。
《专利检索中的关键词扩展研究》主要阐述了关键词扩展的基本操作以及关键词扩展的好处。
本篇文章公开于2013年,彼时国内可学习参考的检索主题文章数量稀少,据我粗浅的检索学习经历所知,2013年左右及以前的检索主题文章内容,都是以检索的基本操作为主,当然这是以目前的眼光来看。如果从当时来看,这些理论、技巧,也许在整个国内都是超前的,不仅仅是基本操作那么简单。毕竟单说《发明专利审查基础教程:检索分册(修订版)》这一本书,它的第一次出现,是2012年,仅仅比本篇文章早一年。据我的一些审查员朋友所说,这本书以及书内的理论、技巧已经在审查班子内用了接近10年。如果大家有印象,会记得某个检索案例“吸管杯”,这个案例据说年头早得多。
这本书虽然有点年头,但仍然称得上是国内检索学习的必备基础用书,我在很多场合都会推荐这一本。虽然有点年头,但更新的还没出现呢。
那么放下该书说本文。我会借着本文,谈谈我对关键词扩展的基础操作的理解,以及我对关键词扩展过程本身的看法。
先谈谈关键词的基础操作。那么什么是关键词扩展的基础操作?作者在文中已有引用:“关键词的扩展可以借用现有工具,如搜索引擎的关键词工具、相关搜索、搜索提示或者专利局专利检索与服务系统(S系统)的关联词查询工具,也可以利用本领域词典、标准和技术术语库等工具书进行扩展,从关键词的同近义词表达形式、上下位概念、音形相近词、外来词及其相关概念等角度进行扩展。[1]”
这篇引用文献如果大家感兴趣的话也可以看看原文。关键词扩展的基础操作,简单说就是对关键词进行相同或等同、近似含义的扩展补充。这样做的一般目的在于减少漏检,因为我们用查准的角度去用关键词,并不能保证扩展完全,查全率会有问题。(有些人会从反义词角度进行扩展,这样当然也可以,但我觉得不属于关键词扩展的基础操作,因此不详细描述)
举个例子,假如有一种袋子的封口工具,我们对“封口”进行扩展,很容易联想到密封、封袋、关闭袋口、封紧袋子等相同或等同、近似含义的扩展。这是基于已有领域知识储备的有限扩展。那么在之后我们也许可以从百度、电商渠道中找到其更多的相同或等同、近似含义的扩展。我们也可以从专利检索、论文或其他文献检索过程中逐渐发现的信息中进行扩展。我们还可以从与技术员、发明人的沟通中获得扩展。我们花费的时间越多,能找到的扩展越多,扩展工作也就越全面。
那像引用文献中提及的若干扩展方向(同近义词表达形式、上下位概念、音形相近词、外来词),需不需要刻意记忆呢?于初学者而言还是建议有一定的记忆操作,可以是记笔记并实时翻看提醒,也可以直接记录在检索要素表同页以提醒扩展。当然熟练之后未必去记,因为一味的按此方式去求全扩展,在正式检索工作中,有时反而影响效率,且对检索式调整也会带来难度。
话题既然到了,我开始谈谈我对关键词扩展过程本身的看法。
首先回到前文,我们说,关键词扩展的一般目的在于减少漏检。为什么会漏?我们需要从检索工作本身去思考。检索者为人,检索工具为数据库,具体的数据库中为专利公开文献。我们将关键词组合成检索式后输入数据库,对专利公开文献进行检索,并产生的漏检。关键词扩展是果,我们要研究因,因此先着重看数据库和专利公开文献两个外在因素。
我们将检索式输入数据库,但我们并不熟知所有专利文献内容,我们并不了解所有专利申请人的技术描述方式,我们用自己的理解去做关键词的有限扩展,即便是事先参考了各个非专利文献渠道的信息,依然可能会漏,甚至有时候漏的明显,因为我们用非专利文献的信息资源整合去应对专利文献的检索,这二者可以有交叉但绝对不会重合。初检可以考虑使用但绝不会依赖这一扩展方式。
简单的说,我们在什么信息资源中检索,主要精力应当放在从对应信息资源中获取扩展补充上。以相似类文献提取的要素本身去检索相似类文献,这是我认为的逻辑合理。
我告诉学员们的关键词扩展的主要实操方式,首先是基于分析后的要素提取(不分析申请人意图,便不进行下一步),然后是基于要素提取后的简单扩展并构建检索式进行初检(这一扩展可以有有限的非专利文献扩展,但效率优先,不应浪费太多时间),之后主要的扩展过程,是在检索过程中进行的。
“在检索过程中进行”,寥寥数字包含太多的思考和工作量,可以说检索式调整,很多都是围绕关键词扩展、调整进行的。以下非穷举部分思考、扩展及调整过程:
1)检索过程中发现了遗漏的相同或等同、近似含义的扩展。这可能是关键词扩展最常见的来源。也没什么好说的,少什么补充什么。来源包括直接的专利公开文件、间接的发散文件如同族、引用、相似、审查信息等。
2)浏览文献越多,对技术方案理解越深刻。这也是比较常见的,但深刻理解后,是要补充,还是说,直接就需要改变检索思路呢。我们对技术方案理解越深刻,越能发现自己对申请人意图理解的偏离,当我们偏离了理解,经常就需要纠正检索思路以得到期望的检索结果。纠正后的要素与原本的提取要素容易出现区别,针对区别可能就需要重新扩展。
3)浏览过程中,分析相同或近似领域文献特征,对目标文件进行假设。“假设”目标文件并非关键词扩展的基础操作,其实是有些难度,他一定是基于对检索对象的深刻理解,进一步需要基于对相同或近似领域文献特征的分析理解。这是剥离表面见实质的工作:我们知道申请人的意图,并且知道怎样的目标文件能影响到他的意图。
这是我当前习惯的关键词扩展的基本操作,以后可能会变,毕竟检索技巧如万事万物,没有一成不变的。
虽然做了这些扩展,但哪些能用,哪些不能用,扩展后该怎么用就是另一方面的问题,我们不能简单的将扩展后的关键词进行组合,因为关键词的扩展极有可能带来很大噪音:“关键词扩展也应准确把握尺度,盲目的扩展会带来检索噪声,影响检索的查准率。[2]”但因为担心噪音问题而弃用某些关键词,似乎也变相带来漏检问题,那该如何呢。
我在教学员们检索式调整时会提到“有大有小”的调整思路。在同一个检索式中,我们把某个范围扩大了,那么为了保证原本的准确度,就需要相应缩小其他范围,可以是部分,可以是剩余全部。
怎么理解这句话。我们以a代表分类号,以b代表关键词1,以c代表关键词2。于是有以下基础的检索式:
a and b and c
1)我们对b进行了扩展,但是扩展后的词实践起来会带来明显噪音,这是属于“某个范围扩大”的情况,此时我们当然可以从噪音文献分析结果中剔除一些,但是这只是一个考虑,且不太稳——如果要剔除,选取时候就应该慎重,我们选取了,一定是因为它是有用的。这部分认为扩大了范围,那么就缩小另一部分范围,通过控制检索结果数量,让整个检索结果可浏览。比如我们可以缩小a,使其下位化,或下位化后更精确,我们也可以根据b和c的关联强度,决定是否要使用同句同段或邻近算符等。
2)我们对b和c进行了扩展,但同时因为查准需要我们扩展的词都是准确度高的,在原本检索结果数量就少的情况下,扩展后的检索结果数量并无明显增加,很难获取更多有用的对比文件,这是属于“某个范围缩小”的情况,此时的处理方式与前文相反。
这里有两个难点,一个是不能过于遵循“有大有小”,这个思路是为检索结果数量服务的,当数量可浏览,这个思路可以灵活改变。另一个是调整过程本身。检索式某部分范围的扩大或缩小,一般至少包括分类号上下位调整、关键词准确度调整、关键词之间/关键词分类号之间算**度调整,怎么用,优先用哪种,是需要结合具体检索情况去选择的。
参考文献:
[1]陈予琳.关键词检索方法在科技查新中的应用研究[J].河南师范大学学报(自然科学版),2011,3:171-173
[2]覃冬梅,丁君军.专利检索中的关键词扩展研究[J].中国科技信息,2013,(14):183
https://mp.weixin.qq.com/s/tx7Gu5rz4onsro91CYZTTg
----------------------------------------
本文浅读的对象,为期刊“中国科技信息”2013年第14中的检索相关文章,作者为来自国家知识产权局专利局专利审查协作北京中心的覃冬梅、丁君军。以下浅读、分析等均仅代表本人观点,不代表作者覃冬梅、丁君军观点。如有其他理解欢迎交流。
《专利检索中的关键词扩展研究》主要阐述了关键词扩展的基本操作以及关键词扩展的好处。
本篇文章公开于2013年,彼时国内可学习参考的检索主题文章数量稀少,据我粗浅的检索学习经历所知,2013年左右及以前的检索主题文章内容,都是以检索的基本操作为主,当然这是以目前的眼光来看。如果从当时来看,这些理论、技巧,也许在整个国内都是超前的,不仅仅是基本操作那么简单。毕竟单说《发明专利审查基础教程:检索分册(修订版)》这一本书,它的第一次出现,是2012年,仅仅比本篇文章早一年。据我的一些审查员朋友所说,这本书以及书内的理论、技巧已经在审查班子内用了接近10年。如果大家有印象,会记得某个检索案例“吸管杯”,这个案例据说年头早得多。
这本书虽然有点年头,但仍然称得上是国内检索学习的必备基础用书,我在很多场合都会推荐这一本。虽然有点年头,但更新的还没出现呢。
那么放下该书说本文。我会借着本文,谈谈我对关键词扩展的基础操作的理解,以及我对关键词扩展过程本身的看法。
先谈谈关键词的基础操作。那么什么是关键词扩展的基础操作?作者在文中已有引用:“关键词的扩展可以借用现有工具,如搜索引擎的关键词工具、相关搜索、搜索提示或者专利局专利检索与服务系统(S系统)的关联词查询工具,也可以利用本领域词典、标准和技术术语库等工具书进行扩展,从关键词的同近义词表达形式、上下位概念、音形相近词、外来词及其相关概念等角度进行扩展。[1]”
这篇引用文献如果大家感兴趣的话也可以看看原文。关键词扩展的基础操作,简单说就是对关键词进行相同或等同、近似含义的扩展补充。这样做的一般目的在于减少漏检,因为我们用查准的角度去用关键词,并不能保证扩展完全,查全率会有问题。(有些人会从反义词角度进行扩展,这样当然也可以,但我觉得不属于关键词扩展的基础操作,因此不详细描述)
举个例子,假如有一种袋子的封口工具,我们对“封口”进行扩展,很容易联想到密封、封袋、关闭袋口、封紧袋子等相同或等同、近似含义的扩展。这是基于已有领域知识储备的有限扩展。那么在之后我们也许可以从百度、电商渠道中找到其更多的相同或等同、近似含义的扩展。我们也可以从专利检索、论文或其他文献检索过程中逐渐发现的信息中进行扩展。我们还可以从与技术员、发明人的沟通中获得扩展。我们花费的时间越多,能找到的扩展越多,扩展工作也就越全面。
那像引用文献中提及的若干扩展方向(同近义词表达形式、上下位概念、音形相近词、外来词),需不需要刻意记忆呢?于初学者而言还是建议有一定的记忆操作,可以是记笔记并实时翻看提醒,也可以直接记录在检索要素表同页以提醒扩展。当然熟练之后未必去记,因为一味的按此方式去求全扩展,在正式检索工作中,有时反而影响效率,且对检索式调整也会带来难度。
话题既然到了,我开始谈谈我对关键词扩展过程本身的看法。
首先回到前文,我们说,关键词扩展的一般目的在于减少漏检。为什么会漏?我们需要从检索工作本身去思考。检索者为人,检索工具为数据库,具体的数据库中为专利公开文献。我们将关键词组合成检索式后输入数据库,对专利公开文献进行检索,并产生的漏检。关键词扩展是果,我们要研究因,因此先着重看数据库和专利公开文献两个外在因素。
我们将检索式输入数据库,但我们并不熟知所有专利文献内容,我们并不了解所有专利申请人的技术描述方式,我们用自己的理解去做关键词的有限扩展,即便是事先参考了各个非专利文献渠道的信息,依然可能会漏,甚至有时候漏的明显,因为我们用非专利文献的信息资源整合去应对专利文献的检索,这二者可以有交叉但绝对不会重合。初检可以考虑使用但绝不会依赖这一扩展方式。
简单的说,我们在什么信息资源中检索,主要精力应当放在从对应信息资源中获取扩展补充上。以相似类文献提取的要素本身去检索相似类文献,这是我认为的逻辑合理。
我告诉学员们的关键词扩展的主要实操方式,首先是基于分析后的要素提取(不分析申请人意图,便不进行下一步),然后是基于要素提取后的简单扩展并构建检索式进行初检(这一扩展可以有有限的非专利文献扩展,但效率优先,不应浪费太多时间),之后主要的扩展过程,是在检索过程中进行的。
“在检索过程中进行”,寥寥数字包含太多的思考和工作量,可以说检索式调整,很多都是围绕关键词扩展、调整进行的。以下非穷举部分思考、扩展及调整过程:
1)检索过程中发现了遗漏的相同或等同、近似含义的扩展。这可能是关键词扩展最常见的来源。也没什么好说的,少什么补充什么。来源包括直接的专利公开文件、间接的发散文件如同族、引用、相似、审查信息等。
2)浏览文献越多,对技术方案理解越深刻。这也是比较常见的,但深刻理解后,是要补充,还是说,直接就需要改变检索思路呢。我们对技术方案理解越深刻,越能发现自己对申请人意图理解的偏离,当我们偏离了理解,经常就需要纠正检索思路以得到期望的检索结果。纠正后的要素与原本的提取要素容易出现区别,针对区别可能就需要重新扩展。
3)浏览过程中,分析相同或近似领域文献特征,对目标文件进行假设。“假设”目标文件并非关键词扩展的基础操作,其实是有些难度,他一定是基于对检索对象的深刻理解,进一步需要基于对相同或近似领域文献特征的分析理解。这是剥离表面见实质的工作:我们知道申请人的意图,并且知道怎样的目标文件能影响到他的意图。
这是我当前习惯的关键词扩展的基本操作,以后可能会变,毕竟检索技巧如万事万物,没有一成不变的。
虽然做了这些扩展,但哪些能用,哪些不能用,扩展后该怎么用就是另一方面的问题,我们不能简单的将扩展后的关键词进行组合,因为关键词的扩展极有可能带来很大噪音:“关键词扩展也应准确把握尺度,盲目的扩展会带来检索噪声,影响检索的查准率。[2]”但因为担心噪音问题而弃用某些关键词,似乎也变相带来漏检问题,那该如何呢。
我在教学员们检索式调整时会提到“有大有小”的调整思路。在同一个检索式中,我们把某个范围扩大了,那么为了保证原本的准确度,就需要相应缩小其他范围,可以是部分,可以是剩余全部。
怎么理解这句话。我们以a代表分类号,以b代表关键词1,以c代表关键词2。于是有以下基础的检索式:
a and b and c
1)我们对b进行了扩展,但是扩展后的词实践起来会带来明显噪音,这是属于“某个范围扩大”的情况,此时我们当然可以从噪音文献分析结果中剔除一些,但是这只是一个考虑,且不太稳——如果要剔除,选取时候就应该慎重,我们选取了,一定是因为它是有用的。这部分认为扩大了范围,那么就缩小另一部分范围,通过控制检索结果数量,让整个检索结果可浏览。比如我们可以缩小a,使其下位化,或下位化后更精确,我们也可以根据b和c的关联强度,决定是否要使用同句同段或邻近算符等。
2)我们对b和c进行了扩展,但同时因为查准需要我们扩展的词都是准确度高的,在原本检索结果数量就少的情况下,扩展后的检索结果数量并无明显增加,很难获取更多有用的对比文件,这是属于“某个范围缩小”的情况,此时的处理方式与前文相反。
这里有两个难点,一个是不能过于遵循“有大有小”,这个思路是为检索结果数量服务的,当数量可浏览,这个思路可以灵活改变。另一个是调整过程本身。检索式某部分范围的扩大或缩小,一般至少包括分类号上下位调整、关键词准确度调整、关键词之间/关键词分类号之间算**度调整,怎么用,优先用哪种,是需要结合具体检索情况去选择的。
参考文献:
[1]陈予琳.关键词检索方法在科技查新中的应用研究[J].河南师范大学学报(自然科学版),2011,3:171-173
[2]覃冬梅,丁君军.专利检索中的关键词扩展研究[J].中国科技信息,2013,(14):183
评论列表
快速回复
黑娃
版主
[福建省]
主题:209 回帖:5271 积分:89642
热帖推荐
鲸小白
2021/09/13 10:45 [来自广东省]
0 举报wdwlbsm001
2022/01/19 17:18 [来自内蒙古自治区]
0 举报