大数据背景下档案管理数据化转型

2021-04-25 14:38:37

大数据背景下档案管理数据化转型探析


         互联网时代,大数据正在引领各领域和各行业的变革与转型。被誉为“大数据之父”的美国数据科学家维克托·迈尔·舍恩伯格将大数据概括为“一场生活、工作与思维的大变革”。2014年3月,大数据被首次写入政府工作报告;2015年8月,国务院发布《促进大数据发展行动纲要》;2015年10月,党的十八届五中全会正式提出“实施国家大数据战略,推进数据资源开放共享”,这表明中国已将大数据视作战略资源并上升为国家战略。在大数据浪潮汹涌而至的时代,档案部门应顺势而为,推进大数据时代档案管理事业转型升级。

         2019年4月,国家档案局与财政部、国家税务总局联合开展电子发票电子化报销、入账、归档管理试点工作并确定了7家试点企业,此次试点的成功意味着未来大量原生数据态的档案资源将成为档案部门的主要管理对象。“万物皆数”的思维潜移默化地使得过去以传统载体形式存在的事物在未来将会以数据的形式存在,这也预示着未来档案与数据之间的边界会日益模糊。狭义来看,档案管理数据化大致包括传统纸质档案和电子档案的数据化处理和原生数据态档案管理。广义来看,档案管理数据化是档案管理数字化的深化与升级,是未来档案信息化建设的发展方向。

         档案管理工作正在经历从数字化到数据化的转变,是对纸质档案数字化工作的推进,也是对档案利用的深层次开发,更是推动档案服务升级的新契机。本文认为,大数据背景下档案管理数据化的转型主要体现在以下方面:


面向未来,大数据引领档案管理数据化思维转变


         在档案管理从数字化向数据化转变的过程中,面临管理对象变化带来的诸多问题与挑战,思维创新是引领档案管理数据化转型的关键要素。档案管理数据化思维转变首先要理清档案和数据的关系,大数据时代对于档案的定义将进一步巩固大档案观,档案的内涵和外延都将有所扩展。从大数据的视角看,档案是蕴含丰富数据资源的宝库,可以将档案转变成便于计算机处理的数据,也可以将档案变成用户利用的数据;数据也是档案,数据承载着信息社会人类记录的印记。面对纷繁复杂的数据,档案部门应加强数据归档意识,及时转变传统档案思维,树立以数据为导向的档案思维,把握档案管理数据化发展方向,并能够积极应对档案管理数据化带来的一系列挑战。

         舍恩伯格认为,大数据对人的思维变革主要体现在3个方面:开启全数据模式、包容混杂性、注重相关关系。事实上,这些思维可以映射到档案管理数据化的思维转变。首先,树立全数据思维有助于利用海量档案数据,这个利用是指从开发到使用档案资源。当前,档案数字化全文开发利用工作刚刚步入正轨。2020年6月,上海市档案馆数字档案公共查阅平台可实现在线查阅馆藏开放档案的案卷级目录93万余条并可以提出部分档案原件的预约调档申请,同时也可浏览2.3万余件档案及部分史料编研成果的数字化全文。然而,查询数字化全文只到档案文件级层面,尚未深入到档案的内容层面,因此,还未脱离将文件作为整体的管理思维。大数据技术不断革新,海量档案数据将形成庞大的档案数据库,档案信息资源的开发利用将更加多元。其次,包容混杂性并不表明档案数据的质量和真实性会有所下降,而是意味着对于不同格式的档案数据的兼容度的提高,纷繁复杂的档案数据虽然对档案管理工作形成了挑战,但不同格式的档案数据却能超越传统档案管理的思维局限,开启纵观档案全貌的新视角。最后,注重相关关系可视为档案管理数据化的最终目标,档案数据化后可随着粒度减小而变得分散,注重档案数据间的相关关系是将零散的档案数据通过关联而进行聚合联结,不再仅仅以案卷和全宗为开发单位,而是在更细小的粒度层面挖掘出更广泛的档案利用价值。

         电子发票是践行数据化思维的典型案例。电子发票应用的是类似于关系数据库的文件结构,这类文件只需要定义其关键元数据,定义好打印的版式,所有的发票元数据信息都以数据库形式存储和管理,用户购买商品的发票数据自动写入数据库中,成为关系数据库表文件中的一条数据记录,当用户需要下载并打印发票时,数据库表中的这条数据记录可以转换为PDF或者JPG发票文档。以京东集团为例,消费者购物后填写单位名称、手机号码、邮件地址等电子发票相关信息,收货确认后申请开具电子发票,经过一系列上传审核程序,电子发票服务平台按电子发票机制和要求生成带开票方签章的电子发票及其版式文件,消费者可以自行下载。数据时代,很多电子文件的生成、存储、保管、利用等生命周期内的管理环节不适合再遵从数字时代的思维模式,而须在数据思维框架下重新构建。

         数据的广泛应用不仅改变了人们的记录方式,更革新着人们看待世界的思维和视角。传统档案思维也需面向未来进行变革,即在重新审视档案与数据关系的基础上,树立以数据为导向的档案思维,站在数据管理视角思考档案管理问题。思维先行是档案部门应对大数据挑战的首要准备。


面向发展,需求倒逼和现实瓶颈驱动档案资源数据化


         推动档案管理数字化向数据化转变的原因不仅仅是现代科技的迭代更新,更主要的原因是来自信息化时代档案信息资源利用的现实瓶颈,即现有的数字化档案资源已无法满足档案用户的多元现实需求。我国档案数字化工作方兴未艾,虽摆脱了纸质档案远程在线利用的困境,但还未实现计算机可读、可理解的数据粒度(指数据仓库中数据的细化和综合程度。根据数据粒度细化标准,细化程度越高,粒度越小;细化程度越低,粒度越大)层级的管理与开发,尤其研究型用户全面多元的利用需求仍无法满足。任越等学者在对黑龙江省地市级综合档案馆进行深入调研的基础上,总结出档案信息资源开发利用过程中存在的数据化处理深度不够、档案机构数据意识不强、档案数据关联度不高等现实问题。青岛市档案馆副馆长杨来青同样立足于档案工作实践,提出针对档案内容的细粒度管理与开发,即档案“再信息化”战略的重要内容之一。

         利用需求和现有数字化档案开发成果的不匹配促使档案开发向数据层级转向,这使得档案管理数据化成了大数据时代档案事业发展的新方向。档案数据化的主要任务是档案内容的数据化,将档案内容智能地碎片化分解成计算机可读可处理的数据形式,通过碎片化的数据与数据集合实现数据之间的关系建构与重组,最后对档案数据进行语义加工处理并进行可视化展示。档案内容数据化具体表现为:档案管理层级的递进、档案开发粒度的细化、档案内容语义关联的加强。首先,档案管理从数字化到数据化的转变带来最显著的变化是档案管理层级的递进和档案管理对象的转变,即从传统的管理文件到管理数据,数据化处理后的档案与原生数据态的电子档案对传统以“案卷”为管理单位的档案管理系统形成了挑战。其次,相比于传统纸质档案与电子档案的开发,数据化后档案资源的开发单位将从文件细化到内容,将内容语义化为数据,档案开发的颗粒度不断细化,分散在海量文件中的档案数据通过本体、语义分析等技术,更大限度地实现档案价值的深度开发。最后,档案内容数据化的最终目的是利用档案数据实现海量档案间跨文件、跨卷宗的相关内容关联,利于用户检索并最终提供更优更全的档案服务。碎片化后的档案数据需借助语义处理等技术对零散的档案数据基于语义进行分类、合并,旨在突显出档案数据间的语义相关关系,进而在优化档案检索结果的同时可以发掘隐含在档案间的深层联系。

         档案内容数据化可视为档案管理数据化转变的核心内容,不仅是档案部门在大数据时代立足实践所作出的适应性战略转变,更是信息时代档案用户利用需求的倒逼和档案部门突破工作瓶颈实现自我升级的完美契合点。目前,真正实现档案内容数据化的典型例子是各个国家或地区的数字人文项目,在数据化的基础上,对档案内容文本进行分类、聚合、关联等处理,利用GIS、VR、AR等技术展示档案内容。例如,1993年美国弗吉尼亚大学数字历史研究中心启动的以美国南北战争时期平民生活档案为主题的“影谷项目”,将众多平民在南北战争期间的信件、日记、报表、公告、报纸、演讲稿等原始记录进行数据化并加以展示,“影谷项目”的网页所展示内容都是档案资源内容数据化的成果。


面向用户,数据赋能升级档案服务多样化


        档案管理数据化最终受益于档案用户,数据态的档案资源、数据处理技术以及可视化技术等多方因素的碰撞都将使未来的档案服务体验迥然区别于传统的档案利用服务,数据是升级档案服务的关键因素。

         第一,数据赋能档案服务知识化。数据态的档案资源为档案服务知识化提供了源源不断的原料和坚实的数据基础,档案管理数据化则是推动这一发展的强大动力。近几年,我国相关领域学者开始尝试从理论层面探索历史文献等档案资料的数据化工作。比如王开队在借鉴CDBD和CHGIS技术思路的基础上,将徽州族谱中人物和地理信息数据化。档案服务知识化的实现需借助语义、本体、知识图谱等技术对档案内容进行语义拆分、清洗、合并、可视化处理,最终呈现出丰富全面的档案知识成果。随着技术的不断发展,档案资源数据化程度也将不断提升,档案服务在满足档案用户日常查阅需求的同时,必将在数据的驱动下不断迈向知识化。

         第二,数据驱动档案部门跨领域合作。在这个“数据为王”的时代,数据是组织间相互竞争的重要资源,但数据同样也是实现不同组织机构间战略合作的基础。2017年,《文化部“十三五”时期文化科技创新规划》提出:“依托数字文化资源元数据仓储建设,汇集数据并进行组织与关联。研究用户数据采集标准,促进全国图书馆、博物馆、文化馆、美术馆采集与共享用户数据。与社会力量共同开发利用文化资源数据,选择优质社会数据与文化资源数据融合”。档案部门保管着大量历史文化资源,然而,此规划并没有明确提到档案部门应如何参与其中,我国目前尚未有国家层面的档案部门跨领域合作的战略规划,这说明我国档案部门的跨领域合作还有很大的发展空间。在2020年新修订的《中华人民共和国档案法》中明确提出:“国家推进档案信息资源共享服务平台建设,推动档案数字资源跨区域、跨部门共享利用”。利用档案数据促进档案部门跨机构、跨领域合作并通过不同领域海量数据的关联聚合,积极借鉴国外图档博等领域合作联盟的相关经验,持续推进与图书馆、博物馆、美术馆、文化馆等文化遗产机构间的合作并不断扩充档案数据资源库,是档案部门实现档案资源信息化建设发展的必经之路。可以预见的是,图档博等机构间的数据共享以及数字人文项目等领域合作在新技术的支撑下将会给档案用户带来更加立体化的利用体验。

         第三,档案用户数据收集及利用优化档案服务。除了前文提到的档案内容数据化之外,以往不被留意的档案用户数据的收集与利用也是档案管理数据化表现之一。在保护隐私和保障安全的前提下,借助用户利用所产生的大数据可提供更个性化、更精准的档案服务。档案学界有学者提出,利用用户个体所形成的“小数据”,实现档案信息资源的精准化服务。换句话说,就是利用用户个体形成的用户习惯、资源需求等数据勾勒“用户画像”,实现档案用户的靶向服务,这与开发用户利用所累积形成的大数据并不矛盾。档案用户个体所形成的“小数据”是形成档案用户大数据的数据基础,海量的档案用户数据有益于把握大多数用户利用档案的总体情况、档案资源的利用率以及档案用户的满意度及反馈等。对档案用户数据的利用,可采用“小数据”与大数据相结合的方式,在对档案用户利用情况有总体把握的前提下,进一步突出个性化服务。

         总的来说,档案管理从数字化到数据化的跨越是大数据时代档案部门信息化发展的题中之义,档案管理数据化也是在大数据时代档案部门面向未来、面向自身发展以及面向用户的重要发展战略转型。档案管理数据化的未来不仅要实现档案数字化到内容数据化的知识组织转型,更应实现数字资源从内容数据化到数据智能化的价值开发和智慧洞见。随着大数据的不断发展,智能数据将会是未来影响档案管理数据化的又一变革因素,随着档案管理数据化工作逐步推进,智能数据将会在海量档案数据的基础上完成原始数据积累,未来的档案信息化建设将在数据化时代迈上新台阶。