嘟嘟社区

泄露出来的23T样本数据有假


本帖最后由 御坂 于 2022-7-3 13:00 编辑

个人怀疑数据是部分AI生成的,但是绝对有真实数据打底,因为在里面搜了下,我这边的村子、小区、街道全都有出现,这不是AI瞎写能写出来的
这里只讨论 person_info这个样本文件
此外
搜索1900可以得到
AGE":121,"BIRTHDAY":"1900","BPLACE":"河北省**市**市","IDNO":"13098219000930**3*","IDTYPE":"01","QUERY_STRING":"  河北省**市**市   121(年龄) 00 1900(出生日期) ","RNAME":"张润萌","SEX":"男"},"

在其中搜索马嘉祺可以得到:
AGE":121,"BIRTHDAY":"1900","BPLACE":"河北省**市**市","IDNO":"13098219000425**16","IDTYPE":"01","QUERY_STRING":"  河北省**市**市   121(年龄) 00 1900(出生日期) ","RNAME":"马嘉祺","SEX":"男"},"_type":"a","sort":[6754350]}

上述两人所在的县市,1986年才设立。
18位身份证号码是从2009年10月1日开始实施的。
换句话说,在录入这两位信息的时候,至少已经109岁高龄了
政务上云,是2015年左右开始的
http://www.gov.cn/xinwen/2015-12/14/content_5023340.htm
除非上海GA把历年卷宗全部数字化录入了,否则个人认为这种情况还是很低的

(您可以搜索到多个AGE":121"或是120,1900年或是1901出生的人,但却不能搜索到任何一个1899年出生的人,见图)
如果这些百岁老人的数据是上海GA把历年卷宗数字化录入产生的,为什么1900年的这么多,而1899年的一个没有呢?



当然,这并不能实锤作假,我也不可能去村委会查询某个人是否存在… …

个人见解:部分信息是真实的,不全的信息由AI生成补全,这些1900,1901等百余岁的出生的人,信息只有精确到县(市)的地址,如


无其他信息。而其他的则精确到小区甚至楼牌号
——
有人说会不会是录入不严谨导致的呢?有可能,如果系统里年龄出生日期都是按照身份证号码推算的,那么录入时不慎选成了最早的1900年,那么是有可能的。
但我校验了一些百岁老人的身份证(只根据校验码校验,未对接公安数据库),都是校验通过的
如果录入不谨慎,在不慎输错年龄的同时还能符合校验码的概率又有多少呢?

注:AGE":***"是相对于2021年的年龄,并非录入时的年龄,可以认为该数据导出日期最早为2021年

关于数据保存期限的问题,我看了另一个文件,是报警记录,是2002年-2019左右的,上海GA的确数字化了不少陈年信息

总结一下楼主的意思:

如何解释样本中含有大量1900年出生的人的数据?

不合理之处:

1. 上海公安部15年才开始录入数据,而数据被导出时间在2021年(见age键),这些大量的1900年出生的人的数据肯定不可能在15-21年之间被录入(因为他们肯定已去世了)。唯一的解释是系统有录入之前传统系统/纸质卷宗的数据,但数据量太大了,不太现实

2. 另外一种解释是,这些1900年出生的人根本不是1900年出生;因为各种问题,他们没有申报年龄/系统中没有他们的年龄,所以使用1900年作为默认出生年份。但问题在于,这些人又有合法的1900年出生的身份证号,这些身份证号是哪来的?

750k数据里搜了下老家的县名,找到了小学强迫我帮他做作业那个人,我日!

长留仙 发表于 2022-7-3 11:54
下载不会被查水表?

以前有个假的模拟健康码软件,下了一个玩玩然后就去派出所坐了几个小时

御坂 发表于 2022-7-3 11:59
你说的没错,但是隶属于中华人民共和国中央人民政府的上海公安,的数字化系统中,存有两位121岁老人的报 …

有没有可能录入不严谨,或者说系统内部分资料被刻意修改过。毕竟数据量庞大。

你找存在真人真事的信息去核对一下你这么单纯的搜索我觉得可信性
挺逗的 隐藏的修仙者

5678 发表于 2022-7-3 11:56
可能录入的时候就不严谨

你说的也有可能

我们这一个县早归隔壁市了,大概八九十年代时候就划走了
我刚开始也觉得是假的 ,后面我下载了75w的看了一下,感觉又是真的了!!越看越真
挺真实的,1900年是存在过的真实年份,所以说就是真的泄露
大佬拿到数据了?
真假混着就很离谱了
也许真有啊。
真假对半分个人感觉
进来看看怎么假的