大数据让写专利从主观题变成了客观题……
发布时间:2019.10.09 辽宁省查看:1384 评论:3
如题,演示过程如下:
这次采用PYTHON内置的shell进行演示,因为能看到输入法啊
程序只是预加载的时候需要耗费一定时间,处理过程还是挺快的楼主偷了个懒,直接ctrl+c ctrl+v的关键词,
目前只编程到发明内容部分。关于离线模式和在线模式:
离线模式的背景技术中引证的对比文件显示专利号和专利名称。
在线模式的背景技术中引证的对比文件显示专利号、专利名称和从网上实时获取摘要。
现阶段自动撰写的内容比较粗糙,还比不上人工,后期必然需要人工校验才能上报CPC,否则被专利局打回来是必然的。
不过,目前用这个确定技术领域倒是挺效率的……
实现原理:通过筛选300W个专利说明书获得的数据内容,获得如图1和图2所示的数据结构,然后根据输入的主题词和必特,根据权重值分析数据表中出现频率最高的主题词+必特,以获得IPC,然后根据IPC+主题核心词获得可能涉及的技术问题。
后续会在图1数据表的基础上增加现有专利的申请号/公开号,为背景技术提供数据基础。
(因为数据量比较大,数据精度和数据内容优化还需要耗费较多时间)
图1为IPC+主题词+主题词包含的特征
图2为IPC+主题词+主题词可能涉及的技术问题
图3为IPC+主题词+连接关系
图4 从30+G说明书TXT(平均10KB一个专利)中筛选的数据大小
connection为连接关系,effect 为技术效果库,problem为技术问题库,field为IPC分类号库
评论列表
快速回复
阿尔法度
[7]思博铁粉
主题:152 回帖:1114 积分:6004
热帖推荐
星夜月
2020/01/09 16:53 [来自广东省]
0 举报fenrir
https://bbs.mysipo.com/forum.php ... 4&page=1#pid2800091
这儿有试玩儿版,现在生成的内容逻辑关联性差,还在优化中。
开发人员有限,年前在处理搁置的案子,就暂时没弄。
2020/01/14 10:55 [来自辽宁省]
0 举报OctaviaMR
2020/01/19 09:18 [来自山东省]
0 举报