加载中...
推荐位 推荐位

大数据让写专利从主观题变成了客观题……

发布时间:2019.10.09 辽宁省查看:1384 评论:3

本帖最后由 fenrir 于 2019-10-12 10:14 编辑

如题,演示过程如下:
这次采用PYTHON内置的shell进行演示,因为能看到输入法啊





程序只是预加载的时候需要耗费一定时间,处理过程还是挺快的楼主偷了个懒,直接ctrl+c ctrl+v的关键词,
目前只编程到发明内容部分。关于离线模式和在线模式:
离线模式的背景技术中引证的对比文件显示专利号和专利名称。
在线模式的背景技术中引证的对比文件显示专利号、专利名称和从网上实时获取摘要。

现阶段自动撰写的内容比较粗糙,还比不上人工,后期必然需要人工校验才能上报CPC,否则被专利局打回来是必然的。
不过,目前用这个确定技术领域倒是挺效率的……

实现原理:通过筛选300W个专利说明书获得的数据内容,获得如图1和图2所示的数据结构,然后根据输入的主题词和必特,根据权重值分析数据表中出现频率最高的主题词+必特,以获得IPC,然后根据IPC+主题核心词获得可能涉及的技术问题。
后续会在图1数据表的基础上增加现有专利的申请号/公开号,为背景技术提供数据基础。
(因为数据量比较大,数据精度和数据内容优化还需要耗费较多时间)


图1为IPC+主题词+主题词包含的特征


图2为IPC+主题词+主题词可能涉及的技术问题



图3为IPC+主题词+连接关系



图4 从30+G说明书TXT(平均10KB一个专利)中筛选的数据大小
connection为连接关系,effect 为技术效果库,problem为技术问题库,field为IPC分类号库






标签: 专利撰写


分享

收藏(1)

点赞

举报

评论列表

  • 第1楼
    怎么弄的?

    2020/01/09 16:53 [来自广东省]

    0 举报
  • 第2楼

    https://bbs.mysipo.com/forum.php ... 4&page=1#pid2800091
    这儿有试玩儿版,现在生成的内容逻辑关联性差,还在优化中。
    开发人员有限,年前在处理搁置的案子,就暂时没弄。

    2020/01/14 10:55 [来自辽宁省]

    0 举报
  • 第3楼
    先占个楼

    2020/01/19 09:18 [来自山东省]

    0 举报

快速回复