合并通常是指将多个相关的专利进行整合或处理,使其成为一个更统一、规范的整体,以便更好地进行管理、分析和应用等操作,以下是关于专利合并的详细说明:
数据层面的专利合并
-
数据清洗
- 去除冗余数据:在合并多个专利数据库时,可能会出现重复的专利记录,这些冗余数据不仅占用存储空间,还会干扰后续的数据分析,不同数据库中可能都存在同一项专利的信息,但格式或表述略有不同,需要通过去重算法检测并删除重复的记录。
- 纠正错误数据:专利信息中可能存在各种错误,如拼写错误、错误的日期格式、不正确的分类等,这些错误数据需要通过自动化工具或人工审查进行纠正,以确保数据的准确性。
- 统一数据格式:不同的数据库可能使用不同的数据格式,例如日期格式、地址格式等,为了便于数据的整合和分析,需要将这些格式统一转换成标准格式。
- 处理缺失数据:某些专利记录可能缺少关键信息,如申请日期、发明人信息等,可以通过插值法、预测算法等方法填补缺失数据,或者根据具体情况决定是否删除这些不完整的记录。
-
数据标准化
- 字段统一:不同数据库中的字段名称和结构可能不同,例如一个数据库使用“专利号”,另一个数据库使用“专利编号”,需要将这些字段统一转换成标准名称,以便于数据的匹配和整合。
- 单位转换:对于涉及计量单位的字段,如重量、长度、温度等,需要将不同的单位转换成统一的标准单位,确保数据的一致性。
- 编码标准化:专利分类编码、国家地区编码等需要按照国际标准进行统一转换,例如专利分类可能使用IPC分类号,要确保所有专利记录都按照这个标准进行编码。
- 日期格式统一:将不同数据库中的日期格式统一成标准格式,如“YYYYMMDD”,以便进行有效的数据分析和处理。
-
数据匹配
- 精确匹配:通过专利号、申请号等唯一标识符进行精确匹配,适用于那些具有明确唯一标识符的专利记录,这种方法能够快速准确地识别出相同的专利。
- 模糊匹配:对于没有唯一标识符的记录,可以通过专利名称、发明人姓名、申请日期等信息进行模糊匹配,需要使用相似度算法计算记录之间的相似度,并设定阈值来判断是否匹配。
- 多字段匹配:综合使用多个字段的信息进行匹配,可以提高匹配的准确性,结合专利名称和发明人姓名进行匹配,能够更准确地识别出相同的专利。
- 人工审查:在自动匹配的基础上,可能需要进行人工审查,以确认自动匹配结果的准确性,特别是对于那些相似度较高但不完全相同的记录,人工审查可以有效避免误匹配。
-
数据合并
- 字段合并:将匹配记录的各个字段进行合并,保留最完整、最准确的字段信息,对于重复的专利记录,可以选择保留信息更全面、更准确的那一条记录的字段信息。
- 数据去重:通过去重算法删除重复记录,确保最终数据库中每条记录都是唯一的,避免数据的冗余和重复。
- 数据补全:在合并过程中,如果某些记录缺少某些字段的信息,可以通过其他记录进行补全,如果一个数据库中缺少专利的申请日期,可以从另一个数据库中补全该信息。
- 数据验证:合并完成后,需要进行数据验证,确保数据的一致性和完整性,可以通过随机抽样、校验和等方法验证数据的准确性。
专利检索结果的合并
-
文献去重
- 单个数据库内部去重:在同一个数据库中,使用不同的检索式进行检索时,可能会得到部分重复的检索结果,可以在检索时执行各检索式之间的逻辑或命令,或者将各检索式的检索结果分别导出后,在EXCEL中执行删除重复项命令来去除重复。
- 不同数据库之间去重:不同数据库之间的检索结果也可能存在重复,首先需要选择用于判定重复的字段,如公开号、申请号等;然后统一判定字段格式,因为不同数据库对于同样字段可能采用不同格式记录;最后利用EXCEL的删除重复项命令等方法删除重复数据。
-
同族合并
- 明确同族定义:业内公认的专利同族一般有简单同族、复杂同族和扩展同族三种,简单同族是拥有完全相同优先权号的专利;复杂同族是有部分优先权号相同的专利;扩展同族是有间接相同关系优先权号的专利。
- 选择同族类型:根据同族数据覆盖范围、同族内不同专利之间的技术关联性等因素挑选适于专利分析的同族类型。
- 合并操作:如果文献去重时锚定的数据库恰好具备所需的同族类型,且其判定字段包含全部同族信息,那么文献去重的同时也完成了部分同族合并,对于未被锚定数据库涵盖的部分,若DWPI的数据涵盖相关文献,可通过PN字段得到DWPI同族信息完成合并;若不涵盖,则需通过其他途径获取同族信息或按无同族文献处理。
专利申请过程中的合并
-
简单叠加合并
- 未公开专利申请:如果是两个未公开的专利申请,并且所述合并指的是简单的叠加,且该合并没有在以前的两个专利申请权利要求书和说明书中提及,不管是否取得意料不到的技术效果,可以在该两个在先专利申请公开之前申请实用新型,因为在先专利申请只能作为抵触申请,而抵触申请不能评价创造性。
- 已授权专利:假设两个专利是已授权的专利,并且所述合并指的是简单的叠加,且该合并没有在以前的两个专利申请权利要求书和说明书中提及,也没有因叠加产生意料不到的技术效果,可以去申请实用新型,但即使形式审查通过拿到授权,也可能因被认为虽有新颖性但缺乏创造性而被无效。
-
复杂结合合并
- 产生新技术效果:如果两个已授权专利的合并是复杂的结合,并且因为该结合产生了意料不到的技术效果,可以去申请实用新型,并且该实用新型申请有可能获得授权。
- 审查考虑因素:在专利申请过程中,审查员可能会根据具体情况要求合并从权等,当对比文件显示多项从权缺乏创造性或存在其他问题时,审查员可能要求申请人合并相关从权,以提高专利申请的质量和授权的可能性。
以下是相关问题与解答的栏目:
问题1:专利合并后的数据如何确保准确性和一致性?
解答:专利合并后,需要通过多种方式确保数据的准确性和一致性,在数据清洗阶段,要仔细去除冗余数据、纠正错误数据、统一数据格式和处理缺失数据,为后续处理打下良好基础,数据标准化过程中,对字段、单位、编码和日期格式等进行统一转换,遵循国际标准和规范,数据匹配时,综合运用精确匹配、模糊匹配、多字段匹配以及人工审查等方法,准确识别相同或相似记录,合并完成后,还需进行数据验证,如随机抽样、校验和等,检查数据的一致性和完整性,在整个过程中,要建立数据质量监控系统,实时监控数据质量,及时发现和纠正问题,并且定期进行数据审计,评估数据质量,提出改进措施。
问题2:在专利检索结果合并中,如何选择适合的同族类型进行合并?
解答:在选择适合的同族类型进行合并时,需要考虑多个因素,首先要明确不同同族类型的定义和特点,简单同族是优先权号完全相同的专利,复杂同族是部分优先权号相同,扩展同族是优先权号有间接相同关系,然后根据具体的分析需求和数据情况来选择,如果需要更全面地了解专利家族的整体情况,包括所有可能的关联专利,扩展同族可能是合适的选择;如果更关注核心的、直接相关的专利,简单同族或复杂同族可能更能满足需求,还要考虑被锚定数据库的判定字段是否包含所需同族类型的全部信息,以及后续分析对同族数据覆盖范围和技术关联性的要求等,若想分析某项技术在不同国家的广泛布局情况,扩展同族能提供更丰富的信息;