首页
产品中心
因朵服务
部署方案
案例展示
新闻动态
关于我们
新闻动态

NEWS

您的位置 :首页 > 新闻动态

档案数据全生命周期安全风险及 AI 治理研究

时间: 2025-09-27 11:10:19 浏览量:1
字号:
分享到:

AI技术已经渗透档案管理方方面面,然而数据治理“智管”并未实现“善管”,档案数据生命周期中每个阶段具有不同的数据安全风险。AI技术通过数据智能采集、图文识别、敏感数据分析、用户访问控制等技术手段,结合档案数据全生命周期业务流程,可以防控档案数据安全风险,实现档案数据全生命周期智慧治理和智能监管。

引言

“档案数据”是指“数据化的档案信息及具备档案性质的数据”。在档案数据管理中,存在着数据泄露、隐私泄露、数据被恶意篡改、数据未及时保存等问题,维护数据安全,建立健全数据安全治理体系,提高数据安全保障能力,成为档案数据管理急需解决的问题。

AI技术与档案数据安全息息相关。一方面,AI技术广泛应用于档案分类、归档、检索,库房管理,声像档案识别、存储,档案数据深度挖掘等方面。另一方面,AI技术能够实现档案数据安全风险控制,在海量数据中快速、准确地对数据进行分类分级,快速识别用户异常行为,还可以嵌入数据安全治理之中,赋能数字政府治理,有着比较成熟且典型的数据安全管理技术和应用场景。本文以档案数据生命周期为切入点,分析各生命周期阶段安全风险,探讨AI技术风险治理,立足于档案数据全流程管理维护档案数据安全,构建出“智慧治理+智能监管”的档案数据全生命周期安全治理模式。

档案数据全生命周期及安全风险

数据生命周期理论揭示数据从产生到销毁整个生命周期过程,实现了档案数据本质要求,满足了档案法所规定的档案数据要素规定,对档案数据管理具有指导意义。数据具有收集、存储、处理、传输、共享和销毁6个生命周期阶段 ,档案数据各生命周期阶段具有不同的数据安全风险。

2.1 档案数据采集阶段及其安全风险

档案数据采集阶段包括两方面:一是数据信息依据来源可靠、程序规范、要素合规原则归档保存,由数据转变为档案数据。二是纸质、实物、声像等非结构化档案数据,通过数字化加工转化为结构化档案数据。采集阶段档案数据风险在于:一是数据采集齐全、完整,是否实现数据应归尽归,能否实现大数据时代全数据采集。二是数据采集合规,来源渠道及采集过程是否合规,数据是否经过检测达到归档保存要求等等。除此之外,在纸质档案数字化过程中,还会存在数据泄漏风险、数据挂接不准确风险。

2.2 档案数据处理阶段及其安全风险

档案数据处理是指将模拟态、数字态档案信息转化为数据态,包括保存格式转化、数据挖掘、内容语义深化等等,数据处理会导致数据状态变化、数据应用场景改变,数据关联方式深度搭建等。处理阶段档案数据风险在于:一是数据分类标引不准确困境,大数据时代存在着大量噪声数据、冗余数据,数据分类标引不准确会导致机器无法将检索自然语言与机器语言相匹配,导致数据无法被找到,不能发挥作用。二是数据真实性风险,数据易修改,在档案数据处理中如果缺乏相应监管措施,数据修改就会变得非常容易,对数据安全造成损害。三是数据处理中失泄密问题,数据处理需要借助特定软件系统,木马、后门、黑客等使软件系统变得异常脆弱,数据丢失、缺失甚至是被直接窃取擦除风险很大。

2.3 档案数据保管阶段及其安全风险

档案数据保管相当于档案实体保管,是将档案数据妥善保存,维持其安全稳定、长久可用的过程,它包括将非版式数据转化为版式档案数据,并采取相应加密措施进行封装,保证其在保管过程中不被篡改。保管阶段档案数据风险在于:一是数据存储中不可读,没有使用通用保存格式,没有保存相应识别软件,导致数据不可读;软件更新换代,无法兼容格式,导致数据不可读;没有及时更换存储介质,存储介质损坏,导致数据不可读;没有进行多介质异地保存备份,不可抗力损坏导致数据不可读。二是存储过程中数据外泄,没有采取与数据保密等级相对应的保密措施,导致数据被窃取泄露。

2.4 档案数据利用阶段及其安全风险

档案数据利用是其价值实现的重要阶段,它既包括不同利用端口对同一存储端数据调用,也包括数据分布式存储时利用端对本地存储数据调用。利用阶段档案数据风险在于:一是数据利用失泄密风险,档案数据属于高密度信息价值数据,容易成为不法之徒窃取目标。二是数据利用社会伦理风险,档案数据是重要资源,是单位资产重要组成部分,档案数据也存在使用权和收益权问题,能否将共享来的数据再提供给第三方使用,或者如何采取技术措施限制第三方不可用,当发现未授权使用时如何追查泄露方,这都是数据安全需要考虑的问题。三是数据利用中格式转化或系统对接的匹配风险和不可读风险。

2.5 档案数据传输阶段及其安全风险

档案数据传输不是一个单一阶段,而是多段存在的,它贯穿档案数据生命周期整个历程。数据分布式存储、远程化利用意味着数据需要传输,包括从存储端到利用端传输和从采集端到存储端传输。传输阶段档案数据风险在于:一是数据外泄风险,未加密传输,加密算法比较简单,或者使用不恰当方式进行传输,数据在传输过程中容易被非法窃取;传输带有敏感字段的信息容易被网信部门屏蔽。二是数据交换风险,传输端与接收端处理系统不统一,会导致接收数据无法读取,或者数据传输中衰减导致数据丢包、语义不完整等问题;档案数据从存储端向利用端传输中,还会由于中枢处理能力影响数据利用速率、查全率和查准率。

2.6 档案数据销毁阶段及其安全风险

档案数据销毁是数据生命终结,与档案实物销毁相同,档案数据销毁也需要进行数据鉴定,履行销毁手续,而不同的是,数据销毁还包括数据清洗、更新等,这些意味着原数据生命终结。销毁阶段档案数据风险在于:一是数据清洗、更新不及时,导致旧数据对数据利用准确性产生干扰,让利用者分辨不清准确性,导致错误利用;还会对数据利用速率产生干扰,影响检索准确性和反应速度。二是数据价值判断不准确,进行不恰当的数据清洗,或者清洗销毁比较随意,不符合程序。

AI技术档案数据安全风险治理

AI技术通过数据智能采集、图文识别、敏感信息分析、用户访问控制等方式,结合档案数据全生命周期业务流程,可以大大降低各生命周期阶段安全风险。

3.1 AI技术丰富档案资源体系,控制采集风险

应对数据采集风险:首先,强化采集程序,依循来源原则,从特定系统、特定机构进行数据采集,保证采集过程稳定且全程可追溯,对于采集来的数据还要经过鉴别,符合归档要求。其次,加强采集监督,对纸质档案数字化操作过程监督,以制度或技术手段防止出现数据泄露情况,还包括对智能化采集过程监督,比如爬虫采集数据资源只能在限定范围内进行抓取,不能越界,ChatGPT建模语音输出、卷积神经网络采集照片不能出现意识形态方面问题,实物数据采集要尊重原始原貌等等。再次,建立大语言模型,档案数据智能化采集依赖机器自主学习能力,机器学习能力越强,对数据辨识度越高,数据采集就会越全面、准确。而机器自主学习能力是对已有数据模型学习,通过对前期采集数据的学习和反复训练,才能提高机器能力,使已经建立的语言模型颗粒度更加精确,神经网更加严密。这就需要对各种类型档案数据加以整合,以大语言模型作为档案数据底层基础,让机器得到更加充分地训练,才能使档案数据采集更加智能全面,保证档案数据齐全完整。

3.2 AI技术提高档案数据准确率,控制处理风险

在数据处理过程中,AI技术可以提高档案数据分类标引准确性,利用文字识别和语言识别自动采集学术研究档案数据,再利用文本分类技术,通过相关算法自动归档保存,同时建设电子档案目录。这种自动分类标注技术能够从一定程度上解决档案数据分类不准确问题。使用AI技术进行档案智能化整理,运用词库匹配算法和AI模型实现档案智能化鉴定等,能够大大提高工作效率,降低档案数据不能被识别的风险。

AI技术还能提供智能化监管,确保档案数据真实和不被泄露,通过机器深度学习监控系统掌握数据处理者语言习惯、行为操作方式等,进而对系统操作异常行为发出警报。利用AI技术算法更精确、灵敏度和反应度更快的特性,迅速感知黑客不法侵入、木马后门植入,大大降低系统从内部被攻入风险。在档案数据开放审核中,先通过OCR识别构建出训练数据集,为开放审核中敏感数据识别奠定基础;再进行模型算法测试,并用新增数据进行模型调整和迭代升级,经过多轮数据训练测试,最终形成适用于档案文本领域的审核开放、控制分类模型。这极大提高档案数据处理速率和智能化水平,降低数据泄漏风险。

3.3 AI技术辅助实现档案数据长期保存,控制保管风险

应对档案数据保管风险,需要通过建立相应的体制保障。一是建立健全档案数据长期保存的标准、规范体系,并在档案执法检查中确保标准规范落地。二是健全保管监管责任制,将档案数据格式转换、软件系统元数据保存、保存介质定期转换、智能化备份存储纳入责任制范畴,有专人负责,有定期检查监管。三是完善档案数据安全相关法律制度,将非法利用、窃取档案数据纳入违法处置范围,明确量刑标准,用法律强制力来保证档案数据安全。

AI技术可以作为技术辅助措施,比如对数据的转化和加密,加入超级算法进行数据加密,利用算法和算力优势,使黑客破解数据变得不可能。对数据进行管理控制,推行智能备份、云存储备份和区块链备份,将备份落在实时,落在数据全链条,降低被非法篡改风险;推行智能库房管理,使用指纹、人脸、虹膜等方式进行库房门禁验证,对非法进入实时报警;使用超级算法加持档案数据防火墙,将未经授权登录拦截在防火墙之外,实时报警进行追踪。

3.4 AI技术识别监测档案数据利用范围,控制利用风险

AI技术应对档案数据利用风险主要体现在人员控制、数据控制和渠道控制三个方面。

人员控制在于:一是利用AI生物特征识别手段对用户合法性进行验证,通过政务服务平台中预先采集的用户生物特征进行身份验证,验证通过才能提供档案查询利用。二是利用密钥等权限识别手段对用户合规性进行验证,用户通过验证后还要获取身份相应的档案数据密钥,才能读取档案信息,避免档案数据被窃取,或者追踪数据超范围使用源头。

数据控制可以体现在:第一,对数据信息进行脱敏处理,不合法信息不提供利用,根据预先设定的语言模型,AI技术可以识别出敏感信息,或者将数据进行脱敏拆分、屏蔽等,进而向用户提供脱敏数据,或是作出拒绝提供利用的判断,使档案数据利用没有后顾之忧。第二,对数据进行技术处理,加入密钥、水印等,使得档案数据利用必须经过授权,只能在特定物理空间或机器、平台上进行读取,任何复制、翻拍都没有效果,这样数据没有经过授权就无法利用,限制数据超范围利用。

渠道控制可以通过搭建档案共享大平台实现,数据授权审批、使用流向全流程在平台上清晰可见,便于追责,同时将平台作为档案数据利用的渠道,经过特殊处理的数据在脱离平台之后就会成为乱码,无法再被读取,也降低数据被窃取风险。

3.5 AI技术进行档案数据加密,控制传输风险

针对档案数据不恰当方式传输问题,通过量子加密技术,对档案数据传输过程中进行加密或授权解密,极大程度上降低档案数据在传输过程中失泄密风险。还可以使用数字签名技术和时间戳技术,保证档案数据在传输过程中未被添加非法、虚假数据,以免影响档案数据真实性,同时数据接收端还应当对档案数据进行完整程度检验,查验其在传输过程中是否被修改过。免疫墙也是数据传输拦截控制的有效措施,它由网关、服务器、电脑终端和协议一整套软硬件组成,可以拒绝一切不符合规则的数据进出,进而有效防止网络内部攻击。AI技术可以提供有效的数据加密算法,以及数据识别模型,使数据加密识别更加智能便捷;还能够对接收到的数据包进行智能检测和过滤,并结合传输场景调整检测策略,分析数据包中是否包括恶意代码等。

针对数据传输中交换风险,需要对档案数据进行底层设计,使数据存储层和利用层保持框架结构统一,语言格式一致,保证档案数据传输过程中不会出现格式不统一导致无法读取问题。利用AI超级算法,实现分布式读取、处理,与集中式统一处理相比,这将大大提高数据传输速度,降低数据传输对计算中枢影响,提高数据读取率,避免数据丢失。

3.6 AI技术鉴别档案数据及时更新程度,控制销毁风险

保持档案数据权威性和及时性,才能使其更具有利用价值,数据净化对于信息社会而言具有非常重要的意义。使用AI技术对数据内容与来源进行匹配性鉴别,依据预先设定的数据归档范围,将同一种数据最具有合法性、科学性的来源鉴别出来,作为利用的权威数据,而其他机构数据则作为补充数据或者是噪声数据加以剔除;依据数据形成时间、更新情况,将最新数据作为利用权威数据,而之前形成的数据作为历史参考或者噪声数据。对于噪声数据剔除也能够借助AI技术,尤其是用来判断数据更新修改痕迹,比人工甄别更加简单便捷可靠,机器先作出初步判断,或是删除噪声数据,或是隔离出利用读取空间,在利用时不再检索此条数据,之后再由人工进一步处理,可以大幅提升工作效率。最后,数据清洗、更新还要履行相应批准程序,经过授权,避免随意清洗对数据真实性产生影响。

来源:浙江档案作者张媛媛,如有侵权请联系删除