IP数据库服务企业怀疑自己数据库被竞争对手爬取,主动投毒后,观察到对手的数据和自己投毒结果完美符合,一审赢了官司,最后却在最高人民法院二审翻盘,为何落得这般结果?
IP数据虽然不具有原创性,但其数据的采集需要付出较大的成本。北京公司怀疑其自家的数据库被竞争对手郑州公司爬取,准备采用投毒+公证的方式,来自证被侵权、不正当竞争。
在北京公司的计划中,其先投毒:污染自家特定记录的数据,随后观察对手公司的相关记录,是否和被投毒效果一样。如和被投毒结果雷同,则代表对手公司在爬取自家数据,否则无法解释雷同现象。
北京公司技术人员选定了13组IP地址(包括8组IPv4和5组IPv6)作为“投毒”目标,并预设了用于替换的真实和虚假地理位置信息。
2020年11月12日,在北京市方圆公证处公证员的监督下,执行了以下系列操作:记录“投毒前”状态;执行“投毒”操作,将部分IP位置改为加拿大、巴西、荷兰等城市的虚构信息;记录“投毒后”状态。
2020年12月15日,执行第二次“投毒”, 将同样的13组IP地址的地理位置信息修改为第二套完全不同的“诱饵”数据;记录新毒点。同样予以公证。
2021年4月9日, 在第二次“投毒”过去近四个月后,启动最终的验证环节:自查确认自家数据显示结果,确保“毒源”稳定;关键比对对手结果;发现“中毒”迹象,对手的数据中,有7组IPv4地址的查询结果与第二次“投毒”设置的“毒点”高度吻合(精确到城市级)。
按理说,对手已经有部分结果开始雷同了,为何二审官司失败呢?
二审法院(最高人民法院)并非简单地比对数据是否相同,而是从数据相同这一现象能否推导出必然非法爬取这一结论。
(一)原告北京公司具有证明责任,且要达到高度盖然性证明标准。其采用的 “数据投毒→数据相同→推定爬取” 是一种间接证明方法,该间接证据链必须完整、严密,能够排除其他合理可能性,才能达到证明标准。
(二)其缺陷如下:
(1) “毒点”不随机。主观选择而非公证员或第三方随机抽取,降低了样本的代表性。
(2)起点不真实。投毒前的真实数据没有公证,投毒前的记录可能是已经被污染的记录。
(3)未能证明同步跟随。原告是4个月后证明被告数据变化,无法证明被告是跟随原告更新,还是被告自身更新频率为4个月(被告自身采集数据导致更新)。
(4)行业数据趋同是常态,数据相同不等于抄袭。
(5)被告合理抗辩,其自身采集、购买了业务数据。
(三)缺乏直接证据,没有被爬的证据:日志、监控、高频访问等。
本案对抗非常精彩,诉讼结果也出现了反转。IP数据库作为行业数据,趋同态势明显,在这个背景下,对竞争对手抄袭、爬虫的诉讼手段就变得非常讲究。
从实践来看,原告公司的诉讼、取证策略缺乏专业指导,其除了从产品经理角度通过投毒、雷同来推测爬虫之外,没有综合运用运维工程师手段,监控和审计爬虫行为,成为本案最大的遗憾。