加载中...
推荐位 推荐位

【黑娃聊检索】关于“防漏检”检索式构建的思考

发布时间:2020.11.26 福建省查看:3053 评论:5

关于“防漏检”检索式构建的思考



原创:黑娃
公众号:黑娃聊检索

文章开头先引用一段余祖发、黄桂花等作者(作者简介:余祖发 (1964-) , 男, 江西都昌人。工程师, 本科, 从事专利信息应用研究)在《陶瓷科技创新立项专利侵权预警查新“降低漏检率的专利检索”的技艺》一文中的一段话:

专利检索是一门需要耐心而且细致的技术活, 而且技无止境, 尤其是怎样“尽量”防止专利漏检的检索, 则是实现专利检索结果既准又全的关键。我们常说:“检索谁都会, 结果无对错”, 只存在“准与不准”或者说“全与不全”, 到目前为止, 业界对检索结果还没有一个客观的评价标准。

这段话我太喜欢了,每个字写到我心里,所以决定丢掉自己准备好的开头。大家感兴趣的话可以在知网搜索这篇文献。

漏检一直以来都是个逃不掉,且解决不掉的问题。

为何逃不掉?

造成漏检的可能原因实在太多:1.检索式逻辑或扩展等问题 2.检索要素选择问题 3.审查员分错分类号 4.外译内文献表达习惯问题 5.时间有限导致的未能检全 6.数据库内在逻辑算法问题 7.其他

如此多的原因,在检索时能随着经验的积累而尽善尽美的也就只有前两点,因为前两点主要是检索者自身原因。另外几点,不一定在什么时候就会悄悄的引发漏检。

关于第三点,谁工作没个疏漏呢,而这种疏漏往往是随机的,不确定的,却也非偶然的,实践中,第三点发生的频率也并不算低。第三点对于分类号的选取是个挑战。

关于第四点,翻译水平、翻译习惯及源语言表达都会对外译内最终公开文本的表达产生很大影响,这种影响对要素选取和扩展、检索式构建和邻近算符选取是极大挑战。

关于第五点,时间是没办法的事情,真火烧眉毛了,哪有时间检全呢。

关于第六点,放一张和某个朋友的聊天记录好了:


为何解决不掉?
如上所述,造成漏检的可能原因实在太多,检索者自身以外的原因往往能占一半以上。我们无法确定:自己何时会漏检?在哪个检索式上可能会漏检?在哪个国家/地区范围可能会漏检?漏检起源于自身还是自身以外?怎样的检索式能最大化自己的需求且不难为数据库?
无法得知漏检原因,甚至连是否漏检都很难保证,这就造成得知自己漏检往往是后知后觉的事情。
可能在某个花儿对我笑的下午,喝着茶吸着猫,被客户指着鼻子说,“你说我产品没问题,可我现在被人告了,官司输了赔了钱。”

本文思考如何构建“防漏检”的检索式。
虽说是思考,实际上我已经在逐渐实践,只是不确定效果(没人丢给我看漏掉的对比文件),希望本文能引起检索者们的思考,我们一起研究,降低漏检几率。

1.关于:“1.检索式逻辑或扩展等问题 2.检索要素选择问题”

这实际上是老生常谈的问题。这个问题抛出来,大家会想到关键词上下位、同义近义词扩展、要素表构建、块检索、部分要素组合检索、全要素检索等等日常所学的检索技巧。这里我觉得没什么好说的。技巧大体是这样,只不过每个人对信息的敏感度是不一样的,因此检索的起点、创造性对比文件来源的检索等,灵感都是各不相同的。

这里只是要强调一下信息的敏感度问题。我从学习研究检索到现在,经历了“不按套路--学习官方检索思路--构建自己检索思路--重视信息敏感度”这样一个过程。我深觉信息敏感度的重要性。

有很强的敏感度,很可能在初检阶段,仅凭关键词检索就能找到对比文件(也可能是检索对象本身极度缺乏新创性),即便不能,也会构建好每一步针对来源于“灵感”的未知文件的检索式。此时的检索不会有很强的套路,只是为了更笔直的命中目标而已。

2.关于:“3.审查员分错分类号”

如上所述,谁都有个疏漏的时候,何况审查员这样比较没日没夜的群体。

原谅过后就得想解决办法了。
我目前的做法有二:
1)关键词 NOT 分类号
这里的关键词指的是精准化技术特征或设计特征的关键词,这里的分类号指的是正式检准检全时用的分类号。这种方式我个人认为有比较强的碰运气成分,且噪音大的惊人,因此需要更精准的关键词。
2)语义检索、图像检索
如果玩的好,就不会是碰运气而已,谁用谁知道。

3.关于:“4.外译内文献表达习惯问题”

大多数外语在表达习惯上就和国语有很大差别,而很多涉外翻译人员(我所知的)喜欢偏向直译,也可能存在水平问题,总之我见过的很多翻译总觉得比不上自己用谷歌或者deepl看来的实在。这样的公开文件往往有几种特征(未必同时存在):
1)拗口
2)用十几二十个字表达一个简短的常规词汇
3)要素与要素间距跨度大,可能超过一个句或段

我目前的做法(一直在用,亲测好用):
1)做足涉外检索工作,以针对国家/地区的源语言(主要是英、日或其他检索对象领域的重要国家)进行检索,同时关注国内同族。
2)在1的基础上构建检索式时,关键词选取最简单、根本的单词,减少词组的使用,并积极扩展。(相同检索式,外文数量往往较少。如果数量较多可以进一步降噪处理)有的国家/地区甚至可以直接分类号检索(分类号要选取完全)。
3)在1的基础上构建检索式时,选取的外文关键词来源多多益善,不局限于翻译软件或初检时的外文文献浏览。

4.关于:“5.时间有限导致的未能检全”

引用一点自己此前在incopat平台的讲课课件:

简单的说,时间长短往往不是自己能控制,时间短就将就,时间长就尽善尽美,仅此而已。

5.关于:“6.数据库内在逻辑算法问题”

这个问题不是针对某个数据库,而是针对一种需要警惕的情况。稍微总结一下就是:

你以为的数据库告诉你的检索逻辑未必是你以为的;
你以为的完美检索式都可能是有逻辑漏洞的;
你以为的正常检索式都有可能考验到数据库的小神经。

引用我某不重要的检索式:

我的通常做法:检索式包括三个或以上范围,可重叠,可包含。范围越大,越是因为需要用它检索更广范围的信息,而保留小范围的,是预防大范围检索式可能出现的,未知的,与数据库“不合”的问题。用小范围检索式,保留出与检索主题最可能相关的信息。

- ****我的公众号 -
“SIPO--heiwa”是我个人微信号,欢迎打扰,互相学习
可私聊添加好友进我检索交流群





分享

收藏(12)

点赞(3)

举报

评论列表

  • 第1楼
    学习了

    2020/11/26 08:13 [来自四川省]

    0 举报
  • 第2楼
    漂亮,这一看就是老法师。

    2020/11/27 09:58 [来自上海市]

    0 举报
  • 第3楼
    管好我自己 发表于 2020-11-27 09:58
    漂亮,这一看就是老法师。

    老法师是什么梗。

    2020/11/27 10:15 [来自福建省]

    0 举报
  • 第4楼
    老法师:能呼风唤雨的能人,但是有来去自由,不收管束,也不爱管人的。大神 版主平时不玩游戏,看小说啥的吧~!

    2020/11/27 13:26 [来自上海市]

    0 举报
  • 第5楼
    管好我自己 发表于 2020-11-27 13:26
    老法师:能呼风唤雨的能人,但是有来去自由,不收管束,也不爱管人的。大神 版主平时不玩游戏,看小说啥 ...

    比较少。

    2020/11/27 14:08 [来自福建省]

    0 举报

快速回复