基于Patentics语义检索的探索

(整期优先)网络出版时间:2023-08-17
/ 2

基于Patentics语义检索的探索

李钰

国家知识产权局专利局专利审查协作天津中心   天津   300304

摘要Patentics利用词条相互之间具有的词义上的关系,对词条的集合进行处理,使用者只要输入一个词语、一句话或者一篇文章,系统自动抽取语义,系统自动呈现涵义相同的专利。本文探索了使用Patentics进行语义检索的检索策略。

关键词语义检索;Patentics

一、语义检索概述

 语义检索是指搜索引擎的工作不再拘泥于用户所输入语句的字面本身,而是分析词语之间的词义上的关系,根据词语之间的词义上的关系对检索词进行扩展和推理,让计算机理解用户的检索意图,并以此进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。

Patentics 系统的数据库结构涵盖广泛,数据库中最具特点的是,把中国发明、实用新型全部翻译为英文全文融入英文库,欧洲及世界专利库近1/3 的德、法文全文翻译为英文,更方便了使用者在检索过程中的英文关键词的检索、扩展以及相关英文文本的阅读,降低了使用者的小语种专利阅读的语言障碍。Patentics 系统出了进行最基本的语义检索排序的同时,还提供了多样性的检索字段、过滤字段以及布尔算符,使用者能够进行多元化检索,并提供过滤字段对检索结果进行调整、干预,同时,提供了简单的布尔算符用以进行组合检索[1]。

、针对关键词存在较多扩展的语义检索策略

国内的存在大量的小企业和个人撰写的技术方案,这类技术方案整体相对简单,改进点细节化,同时,撰写所采用的技术术语千差万别。在对这类技术方案进行相关专利文献文献检索时,若采用撰写的词语进行检索,容易造成漏检;若对检索词扩展太多,又造成检索结果噪音太大。Patentics 系统是全文语义检索,能够根据技术方案中词条相互之间词义上的关系,对词条的集合进行处理,自动抽取语义,呈现涵义相同的专利,可见,针对这类技术方案的检索,理论上Patentics 系统的语义检索能够避免中技术用语不规范所带来干扰。

案例1:一种云社交的方法,其特征在于,包括:

获取步骤,获取用户的身体指标的信息,并将所述身体指标的信息发送到云服务器;

分析步骤,所述云服务器根据所述身体指标的信息分析所述用户的身体健康状况,获得所述用户的身体健康状况信息;

发送步骤,所述云服务器将所述身体健康状况信息发送到社交服务器和/或与所述用户的操作关联的终端;

调整及提示步骤,所述社交服务器根据所述身体健康状况信息调整所述用户的社交账户在社交网络上的服务内容;和/或所述终端提示与所述用户的身体健康状况相关的信息。

【检索分析】

本申请技术方案比较容易理解、关键词“身体指标”的扩展比较丰富,直接进行检索可能导致文献量过多、噪声较大,而通过输入公开号“rdi/CN104468753”在patentics进行语义检索,patentics对“身体指标”进行抽语义,检索要素进行扩充,例如健康信息、用户健康、健康管理、体征信息、养老、体征数据、医疗信息等,并通过语义分析即可获取一篇X类文献CN103259857A,可以评价上述权利要求的创造性。

三、 针对专有名词的语义检索策略

申请文件中权利要求存在较多专有名词及其缩略词的情况,并且专有名词及其缩略词与申请的发明点相关,由于专有名词的关键词难以扩展,可扩展的词较少,如果直接使用专有名词进行检索,有可能会导致漏检。对于专有名词,Patentics不仅仅对其进行关键词扩展,Patentics会语义分析各个关键词之间词义上的关系,根据关键词之间的语义关系进行关键词扩展,检索结果能更为全面的覆盖涵义相同的专利。

案例2:一种ARM核心板与平板的远程通信方法,其特征在于,包括步骤:

通过USB线连接ARM核心板与平板;

所述ARM核心板下载ADB源码包,编译出适用于ARM-linux系统下的ADB程序;

所述ARM核心板通过Android系统的调试桥ADB接口,与平板建立Socket连接;

所述平板通过建立的Socket连接,采用所述ADB接口支持的通信协议,利用传输介质USB线与ARM核心板进行通信。

【检索分析】

权利要求中存在大量专有名词,且与发明点相关,在Patentics中输入“rdi/ CN103701874”,检索本申请的申请日以前所公开的文件,找到有效对比文件CN102917095A。根据Patentics中的扩充功能,可查看根据语义分析进行的关键词扩展,例如本申请中的专有名词“USB”,对其进行语义分析,“USB”在本申请中的目的是实现数据的传输,进而根据其语义分析进行关键词扩展:“串口”、“接口”、“网口”、“数据交换”、“数据传输”等,这些扩展词均包含数据传输的含义。

四、人工干预类检索策略

对于包含有自造词或口语化的非规范性用语的申请,Patentics在自动抽取语义时可能发生曲解,导致关键词扩展不准确,容易造成漏检,对于此类案件,采用Patentics系统进行检索,在初步语义检索结果的基础上,进行简单的人工干预,可提高检索的准确性,降低漏检可能性。

Patentics 系统提供关键词位置锚定检索字段B/(全文)、TTL/(标题) 、ABST/(摘要)、ACLM/(权利要求)和AIM/(用途),可以通过分析权利要求和说明书的特点,判定检索关键词的可能出现位置,合理使用系统所提供的检索字段,构建有层次的检索式,进行更准确的人工干预。关于关键词锚定位置的,如果可能出现在摘要、权利要求和全文中,采用ABST/、ACLM/ 字段限定在摘要、权利要求中检索;关于技术细节的关键词,可以采用ACLM/ 字段先在权利要求中检索(可能出现在从属权利要求中),然后使用B/ 字段扩展到全文;技术问题和效果可以使用AIM/ 字段定位在说明书部分申请解决问题和用途的描述段落。

案例3:一种熏肉移动装置,包括若干层篦子筐,篦子筐底部两侧分别置于导轨上,导轨安装于车体顶部两侧,车体下部安装有除渣盒,除渣盒通过铁丝固定于车体四角。

【检索分析】

采用“rdi/ CN2015103760078”进行初步的语义检索,系统推选出相关专利文献文献(公开号CN102717824A),但此该文献没有关于篦子筐和导轨的设置,进一步进行人工干预,增加关于篦子和导轨的限定。采用“rdi/ CN2015103760078 and b/ 篦子 and b/ 导轨”检索,没有发现合适对比文件。

调整检索思路,分析“篦子”属于口语化的非规范性用语,使得系统在自动抽取语义时发生曲解,机械领域中更多地将“篦子”理解为一种过滤装置,考虑采用食品制作工具领域的相关术语“蒸笼”取代“篦子”。采用“rdi/ CN2015103760078 and b/ 蒸笼 and b/ 导轨”检索,检索到合适对比文件(公开号CN2106583A)。

五、总结

Patentics智能化专利搜索和分析系统(简称Patentics系统)采用智能语义搜索,利用词条相互之间具有的词义上的关系,统自动呈现涵义相同的专利。通过构建相应的检索策略可提高Patentics的检出效率。

参考文献

[1] 章文飞. 浅谈Patentics智能语义检索技巧[J]. 科技视界202011):49-50.