专利“大”数据,真“大”吗??
发布时间:2019.08.01 北京市查看:1264 评论:2
编者按:本文转自 华冰聊专利公众号,作者 华冰,思博经授权转载。
上次我们谈到了什么是专利数据,这一次我们来谈谈专利数据的内容。
相信近几年,“大数据”这个词,没少出现在人们的视野中。专利数据也顺理成章的摇身一变,成了专利“大”数据。当然也有人调侃,做了这么多年的专利数据,一不小心就变“大”了。
其实在笔者看来,专利数据倒还真称得上是货真价实的“大数据”,原因如下:
截止7月底,中国公开的专利数量,超过了2400万件。而世界范围内的专利数据总数则已经达到1.3亿条左右。
这是个什么概念?假设我们把每件专利的扉页印在一张***上,那么如果这些印着专利扉页的A4头尾相接,将恰好能绕地球赤道一圈;而如果把他们叠放起来,他们将接近珠穆朗玛峰高度的两倍。
我们熟悉的大数据,往往是互联网行为数据,例如社交网络聊天或搜索行为数据,它是由一些内容相对简单短小的数据组成的。
而专利的内容则远不止此。
专利的本质,在于要将一项技术的方案基本描述清楚,并约定其法律保护范围。因此,专利中有着大量的技术性描述文字,以及与之对应的权利要求描述内容。
我们来看看一个有趣的例子:申请号为CN200580043604.3的专利
著录项乍一看,画风很正常。看摘要,甚至还有点“言简意赅”的感觉。但接下来,场面就有些失控了…..
这件专利洋洋洒洒写了4091页的说明书,其中2540页的实施例,以及1551页的各类表格,几乎将所有的可能实施例都列上了,申请人为此付出了高达43万的说明书附加费。(不知道审查员是怎么审的)请原谅笔者无法仔细地研读总结这件专利的具体创新内容了,因为这件专利的篇幅,几乎是《辞海》的两倍!
这个例子固然极端了一些,但是通常发明专利都会有近10页左右的技术内容,其内容量基本和期刊文献持平或略多,远远超过了现在常见的互联网媒体型数据的内容含量。
专利由于其特殊的产生过程和目的,其内容非常的丰富,有深入挖掘研究的价值。专利的技术内容,例如实施例,是由行业领域内优秀创新技术人员撰写的,它的技术价值非常的高。它的法律部分,由于是由专利代理人和审查员这一对“矛盾体”长期博弈的共识结果,所以它的法律价值也非常的高。同时,由于推动专利申请的行为背后,是占领市场的经济动机驱动的,所以专利中的很多行为型数据,具有经济研究的价值。
尤其是在技术内容方面。专利数据作为科技信息的载体,包含了世界上90%以上的科技创新信息(更严谨一点的说法应该是工科领域的技术创新)。由于专利特有的“公开换保护”的原理,以及在审查过程中,对于新颖性、创造性和实用性的要求,使得专利数据中包含的技术方案和技术信息,其可参考利用性非常的高。
要知道,俄罗斯人可是在研究专利数据的基础上,创造出了TRIZ这种创新理论的。
专利数据,是一种复合型数据。它的常规著录项信息,包含着大量高度结构化的数据,例如时间、号码、分类、申请人信息等等。同时,专利的大量技术描述内容,又是一个丰富的非结构化数据宝库。长达数十页的文字、公式、图形来描述技术内容,例如说明书全文。更特殊的是专利的权利要求项,它是非结构化文本,但同时具备了一些结构化数据的特点。因此专利的可挖掘深度非常深,所需的技术也相当复杂。同时,专利还包含着大量的说明书附图或者外观专利图形,属于图形数据。
丰富的数据形式,使得各种各样的数据挖掘技术手段都可以在专利数据中寻找到应用场合,甚至可以多种技术联合使用。对于相关研究人员来说,专利数据也是难得的“技术实验场”。
以上就是专利大数据的一些特点,下次我们将围绕着专利数据的更新与滞后聊一些话题。
作者简介:华冰
《华冰聊专利》专著作者 ,从事知识产权服务十余年,有丰富的专利保护、顶层设计经验,致力于为客户定制知识产权整体解决方案!
评论列表
快速回复
木三
[7]思博铁粉
主题:562 回帖:1659 积分:21667
热帖推荐
-
搬砖的
2024-04-09 11:35:05
开了眼了
37评论 2 -
铁扇公主
2024-04-02 11:43:27
没案子写,天天在公司坐着
48评论 0
whlppman
2019/08/01 21:15 [来自上海市]
0 举报木三
2019/08/02 11:22 [来自北京市]
0 举报