当前位置:首页 >> 人物|观点 >> 正文
魏大威:国家数字图书馆分布式多活存储体系研究
发布时间:2018/4/11 16:43:00 点击数:240 

   摘要:作为世界上最大的中文数字信息保存基地、服务基地的国家数字图书馆,逐步建设了分布式多活存储体系,并实现了两地三中心的存储、保存和灾备。本文在对国家数字图书馆的存储体系、存储架构以及存储策略进行分析的基础上,详细介绍了存储体系的技术实现,并提出存储体系未来的发展思路。

  关键词:国家数字图书馆,分布式,多活,存储体系

  背景

  党的十九大报告中提到“文化是一个国家、一个民族的灵魂。文化兴国运兴,文化强民族强。”中华民族有整理典籍的优良传统,用文字记载历史,用典籍传承中华文化,维系着中华文明的薪火相传。在信息化迅猛发展的时代,我国文献信息服务正全面进入数字化网络化环境,各行业文献信息系统已经采购和生产了大量数字资源,科研和教育领域用户也日益依赖数字化资源和网络化服务。

  在新的时代,国家数字图书馆一如既往站在信息技术应用的前沿,发挥传递文明、传播知识的不可或缺的作用,充分利用网络技术和信息技术,进行了大规模的数字资源馆藏建设和技术研究。一方面,通过数字图书馆的建设,建成世界上最大的中文数字信息保存、服务基地。截至2016 年底,国家数字图书馆形成了包括电子图书、电子期刊、电子报纸、数据库、音视频资源、网络资源在内的海量数字资源,总量达1 323.35TB;另一方面,深入技术研究和实践,重视数字资源的合理存储和有效保存,逐步建设了“分布式多活”资源存储体系,以“保护为主、安全第一、藏用结合、传承发展”为基本原则,实现了海量数字资源的高效服务、有效存储和长期可用,有重点地保存馆藏特色文献数字资源,全面保存国家优秀文化数字资源。

1 海量数字资源的存储和服务为存储体系的构建提出挑战

  国家数字图书馆针对数字资源秉承“公益为主、突出特色、遵循标准、自建外购并举、边建设边服务”等原则,不断丰富资源总量、扩充资源类型、创新服务模式。如何保障海量数字资源的安全存储和长期可用,如何支持业务系统的统一、高速、稳定存储,是国家数字图书馆存储体系设计与构建要考虑的重要因素。

  1.1 数字资源来源广泛、存储要求不同

  自20 世纪80年代起,国家数字图书馆针对馆藏特色文献,以自主建设方式为主进行数字资源建设。近年来,为了满足数字图书馆建设与数字资源服务和保存的迫切需要,除了保留自主建设方式外,又增加了外购、征集、网络采集等建设方式,使国家图书馆数字资源总量迅速提升。

  国家数字图书馆馆藏特色数字资源以自主建设、合作建设为主要建设方式,采用实体文献数字化、数字资源征集、海外数字化文献回归、数字资源交换等方式建设具有保存功能和使用价值的数字资源。截至2016 年底特色数字化资源全文超过2.8亿页。这类数字资源在中文信息资源保存、珍贵典籍保护、读者服务与社会教育、资源共享和国际合作以及新媒体服务等领域发挥了重要作用,不但有在线资源服务的存储需要,而且更有长期保存、长久可用的保存需要。

  国家数字图书馆的资源库建设在自主建设的基础上,还面向国内外的出版社采购了250余个外购资源库,以远程服务和本地镜像相结合的方式为读者提供服务,本地镜像服务的资源总量达到101TB。这类外购资源库不但对存储体系有巨大的持续增长的资源存储需求,而且对存储体系的存储性能、数据读取速度以及存储数据安全性均有较高依赖性。

  国家数字图书馆的网络资源包括网络导航资源和网络采集资源两种。其中,网络导航资源主要包括国内外图书馆导航、电子报刊导航、新农村建设专题导航、农林导航等,总计18604项, 在服务方式上采取“建设即发布”的方式,并保持定期更新,100% 实现了所有采集资源的互联网服务。网络采集资源则是面向国内外的网站进行广泛的采集和保存,采用“整理后及时发布”的策略进行服务,截至2016 年底,已保存了我国5万余个政府网站、373 个人大网站、907 个国内网站、3972 个国外网站、315 种中文电子报纸以及奥运会、航空航天等207个专题信息,并实现了采集量40.1%的发布和服务。因此,此类资源的保存和服务对存储体系的存储容量、存储性能、存储稳定性及安全性有较高的要求和依赖性。

  国家数字图书馆面向全国副省级以上公共图书馆、国家数字图书馆分馆、部分少年儿童图书馆、部分社会机构等机构广泛征集数字资源,并且在确保数字资源质量和版权情况符合征集工作要求条件下,已经将99.9% 的资源通过互联网、新媒体等范围内向国家数字图书馆注册用户和合法授权用户提供免费阅览服务。这类资源不但从种类上、来源上体现全国多个省市、地区的特色资源,而且具有独特性、珍贵性和传承性,它的及时服务和长期保存非常重要。因此,此类资源的保存和服务对存储体系的存储空间支持、数据读取性能、长期保存有较高的要求和依赖性。

  以上介绍的不同来源的数字资源,由于其来源不同、版权归属不同、资源建设的意义不同,它们对存储体系的存储服务和资源保存的要求也不尽相同,因此国家数字图书馆的存储体系构建中要充分考虑资源的保存方法、存储策略、存储架构以及灾备架构。

  1.2 数字资源数据规模大、服务模式多

  经过多年的积累,通过建设方式的丰富、技术手段的提升、网络采集范围的扩大等使得国家数字图书馆的各类型数字资源的数据规模均较大,尤其在模转数技术、高清摄像技术发展下,数字资源的单体文件越来越大,总量逐年提升。与此同时,国家数字图书馆通过合作共建、数据交换、海外回归等方式与全球图书馆界共享文化资源,汇聚各地精粹;还通过手机移动端、数字电视、触摸屏等新媒体应用创新了数字资源服务的模式和途径。

  正是由于国家数字图书馆的数字资源具有获取渠道多、服务模式多、资源规模大、数据量持续增长并且增长速度快等特点,国家数字图书馆的存储体系构建要充分考虑选择什么样的存储设备和架构来满足海量数据的逐年递增,使用什么存储技术和验证技术来验证和保障存储数据的可用性。

2 国家数字图书馆分布式多活存储体系的设计

  为了应对和支持海量数字资源的存储和服务,国家数字图书馆从2005 年开始建设存储系统,经过近十年的建设和实践,已经由单台存储设备单点存储发展为多套存储系统集中管理和统一服务,由单一的存储结构发展为融合高可用的复合存储架构,由单数据中心存储发展为两地三中心灾备存储,由单数据中心存储架构发展为多数据中心协同工作的分布式多活存储体系。在国家数字图书馆存储体系建设发展过程中,始终坚持“统筹规划、集中管理、藏用结合、传承发展”的基本原则,从整体上规划和建设存储体系,分步骤、有重点、促发展地建设了“分布式多活”的完整资源存储体系。

  2.1 分布式多活存储体系的完整架构

  国家数字图书馆的分布式多活存储体系将分布于三个地点的生产数据中心、灾备数据中心以及储备库数据中心整合起来,基于全局的管理实现跨域的多数据中心的资源存储、共享与调度,实现多个数据中心之间的“物理分布,逻辑统一”。在生产数据中心统一控制和管理下,三个数据中心协同工作,并行为数字图书馆的业务系统运行、用户服务以及数字资源保存提供存储支持,保障业务系统的数据安全和作业持续性(参见图1)。

  

 

  图1 国家数字图书馆分布式多活存储体系

  生产数据中心作为国家数字图书馆的数据生产加工中心、保存中心和服务中心,直接面向用户提供海量数字资源的服务。生产数据中心统一管理三个数据中心的数据和存储业务,实现跨越多个数据中心的资源调度,进而形成一个全局性的大数据中心、完整业务中心。

  灾备数据中心为生产数据中心提供数据级灾难备份保障,确保生产数据中心的核心业务系统的业务连续性和数据的完整性。同时,在生产数据中心的统一管理下,不但实现灾备数据中心与生产数据中心之间的跨域数据同步和跨域数据可用,而且实现生产数据中心发生故障或者灾难的时候,灾备数据中心可以正常运行并且可以保障核心业务系统数据可用。

  目前正在建设中的国家文献战略储备库的储备库数据中心,也是在生产数据中心的全局管理下,实现数字资源跨域异地保存以及重要业务系统的系统级灾难备份,从而对生产数据中心形成重要的、安全的、完备的保障。储备库数据中心将与生产数据中心之间实现跨域数据同步和可用,储备库数据中心可以正常运行并且可以对部分重要业务实现接管。

  2.2 多级混合存储架构为存储体系提供合理的存储保障

  在存储体系的空间管理中,采取“统一规划,统一建设,集中管理”的原则。数字资源存储采取“在线、近线、离线相结合的三级存储”的策略,统一使用存储系统进行存储管理。

  根据在线服务的系统特点、数据存储策略等因素,生产数据中心的数据存储采用在线核心存储、在线非核心存储、近线存储、离线存储策略,为国家数字图书馆海量数字资源的保存提供了安全稳定的存储环境和保存管理,为来源丰富、服务多样的数字资源提供了合理的存储策略、高效的存储支持。在存储体系的实际应用中,需要实时在线生产的数据、提供数字资源实时服务的业务数据采用“在线”存储服务;不需要实时在线服务的数据,包括互联网采集到的资源、作为中间数据临时保存的数字资源等,采用“近线”存储服务;需要进行永久保存的数字资源、备份的近线/离线的资源,采用“离线”的存储服务。在生产数据中心的存储系统中,根据不同的存储服务策略,匹配不同的存储设备来支持“在线、近线、离线”的三种存储服务模式。采用高转速高性能的硬盘(SAS、FC 硬盘)或者固态硬盘支持“在线”数据存储,采用性价比高的低转速硬盘(SATA 硬盘)支持“近线”数据存储,采用磁带库、磁盘等离线存储介质来保存“离线”数据存储,从而达到资源服务的合理和高效。

  2.3 跨域多份的保存策略实现PB 级数据的永久保存

  国家数字图书馆生产数据中心作为数字资源生命周期的重要载体,实现数字资源的永久保存。同时,为了保障数字资源的安全、稳定、长期的永久保存,还在灾备数据中心和储备库数据中心均进行数字资源的长期保存,利用“跨域、多份”的模式,构建国家数字图书馆完整的永久保存体系;在生产数据中心统一调度和管理下,实现多数据中心的长期保存数据安全保存、合理调用、任意读取,进而实现了多数据中心的数据多活。

  国家数字图书馆生产数据中心的数字资源保存采取“集中保存,统一管理”的原则,采取“不同介质,多个备份”的方式进行保存,利用光盘、硬盘、磁带、缩微胶片等存储介质保存多个备份,确保数字资源保存的安全性和可靠性。按照“中文为主、外文为辅,特色馆藏为主、引进资源为辅”的原则,重点对特色馆藏数字资源、原生数字资源、网络采集数字资源及合作建设特色文化资源等数字资源进行长期保存。按照数字资源的原生性、独一性、重要性进行长期保存操作的优先级的安排。

  为满足数字资源当前与长期利用的需要,根据图书馆数字资源保存和利用的不同特点,将数字资源保存划分为永久保存级和归档保存级。永久保存级数据在保存系统中永久保存,原则上不再变动。该级别的数据要在生产数据中心、灾难数据中心和储备库数据中心通过统一的跨域管理,保存相同的三份,并且这三份数据均为可读取的“活数据”。

  用于在线服务的数字资源和元数据对象数据不完整尚不满足永久保存级条件的数字资源,在长期保存系统中为归档保存级数据。归档保存级的数据可在补充了缺失数据,符合长期保存条件后可转为永久保存级数据,也可在失去保存价值后从系统中删除。该级别的数据只在生产数据中心保存一份。

3 国家数字图书馆分布式多活存储体系的技术实现

  国家数字图书馆利用存储虚拟化、跨域数据复制、多层次数据验证等技术将混合异构的存储系统集中管理,动态化控制;实现多数据中心的数据跨域保存和同步,并且保障了多数据中心的数据可用和多活。不同数据中心之间抛弃传统的以太网络通信架构,改用高速的光纤链路实现业务数据跨数据中心多副本冗余存储、快速读取、传输、同步及多活。

  3.1 存储虚拟化技术实现混合异构存储系统

  集中管理和高效利用国家数字图书馆的存储体系中的三个数据中心由不同品牌、不同类型的存储系统组成,如何集中管理这些存储系统、如何有效地分配存储空间以及如何有效地实现三个数据中心的数据可用都是存储体系需要解决的问题。

  在国家数字图书馆的存储体系中,采用了存储虚拟化技术,将不同数据中心的混合异构的存储系统集中在一起,以SAN+NAS 融合架构,通过虚拟化方式集中管理多个存储介质模块,以协调的方式在其支持的应用之间实现更有效的共享。在软件层面,通过存储管理软件,对整个架构中虚拟存储池进行动态资源池管理,进而实现了存储空间的高效利用(参见图2)。

  

 

  图2 国家数字图书馆存储系统虚拟化整合

  在实践应用中,通过存储虚拟化技术,将生产数据中心以及灾备数据中心的不同时期、不同品牌的磁盘阵列、磁带库、控制器和存储网络等存储部件进行整合化管理,形成了一套逻辑上的存储池;在存储管理软件的统一管理下,实现了不同数据中心之间的存储系统的统一管理以及多数据中心之间、异构存储设备之间的数据传输和同步。该技术很好地解决了国家数字图书馆存储系统发展中需要面对的新旧存储设备更替的问题,将国家数字图书馆原有不同时期、不同品牌的磁盘阵列进行虚拟化整合后,形成一套逻辑上的存储设备,同时结合磁盘阵列系统的卷迁移技术,将旧存储设备所对应的逻辑卷上的数据迁移到新存储设备所对应的逻辑卷上。所有的数据迁移均可以在不影响主机服务的情况下,后台自动实现,提升了数据迁移的效率和安全性。此外,在存储虚拟化技术的支持下,所有存储设备形成一个统一存储池后,可以更加合理地设置存储策略、分配存储空间,不但提升生产中心存储系统的老旧设备的使用价值,而且达到多数据中心的空间合理分配、有效利用。

  另一方面,借助存储虚拟化技术能够实现多数据中心、异构存储设备之间的数据传输和同步。由于基于存储的远距离数据复制技术受存储厂商的技术限制,无法实现异构存储之间的数据复制,因而采用存储虚拟化技术之后能够很好地解决生产数据中心与灾备数据中心的异构存储设备之间的数据复制和传输问题。在具体实践中,国家数字图书馆生产数据中心选择了自带虚拟化功能的磁盘阵列作为存储虚拟化整合的前端控制节点,将原有存储系统上需要灾难备份的数据通过虚拟化的方式映射到这台磁盘阵列上,从而实现两个数据中心之间的数据远距离灾难备份和数据同步。

  此外,国家数字图书馆存储体系中,在不同数据中心之间,采用了高速的光纤链路实现数据跨数据中心的传输,不但实现了数据多副本保存,而且链路也为多中心数据的实时同步、快速读取、数据多活提供了保障和支持。

  3.2 跨域数据复制技术实现资源的永久保存

  国家数字图书馆的存储体系要利用“跨域、多份”的模式,实现国家数字图书馆数字资源的永久保存,而如何将PB 级数据有效地保存在三个数据中心,如何保障PB 级数据在三个数据中心间保持同步和可用,也是存储体系需要解决的问题。

  为解决以上问题,国家数字图书馆存储体系通过跨域统一管理管理、多份分布存储的方式以“多份、跨域、异地”的模式在三个数据中心之间应用。生产数据中心的长期保存系统负责统一管理,在调度管理、数据传输和同步等方面对数据中心的数据进行管理,使“跨域”模式安全实施。多个数据中心实现数据的分布存储,相互配合,通过“多份”来保障数据的可恢复和可用。

  考虑到跨域复制、长距离数据传输以及数据量巨大等因素,生产数据中心采用跨域数据复制技术,通过生产数据中心的长期保存管理系统的统一管理,进行跨域数据调度管理、跨域数据传输管理、跨域数据恢复管理、跨域数据同步管理以及跨域数据可用性管理等,最终实现数字资源的“跨域、多份、异地”保存。

  在实施“跨域、多份”模式的基础上,通过长期保存管理系统的跨域统一管理,实现了多个数据中心保存的数据可以同步和可用,保障无论哪个数据中心发生灾难,其他数据中心的数据均为完整和可用的,并在重建中心后,可及时将数据进行复制传输,保障该中心数据恢复后的完整和可用,实现存储体系的多活,从而实现资源永久保存。

  “跨域、多份、异地”的模式对于实现国家数字图书馆PB 级数据的永久保存是一种有效的模式,保障了多中心结构存储体系的数据完整和安全,对于多地存储中心管理给出了有效的解决方案。国家数字图书馆对跨域复制、长距离传输和数据多份多活等方面正在进行实践,将为未来的存储体系发展提供重要的指引和支撑。

  3.3 多层次数据验证技术实现多中心数据灾备的一致性管理

  国家数字图书馆的存储体系要实现多数据中心数据可用,尤其是灾备数据中心要实现生产数据中心的业务数据、长期保存数据的异地灾备,采用何种有效技术方法,及时发现灾备数据是否可用、是否完整、是否可信,是存储体系需要解决的问题。

  充分考虑了灾难备份技术、对生产系统的影响、灾备数据的特点以及实施成本等因素,灾备数据中心采用了多层次的数据验证技术。

  针对结构化数据采用“基于存储的实时远程复制”的灾难备份策略,在数据备份的过程中,生产数据中心的平台每次在存储系统中执行的一个I/O 操作,均会实时传输到灾备数据中心的存储系统中。在数据传输完成后,灾备数据中心存储系统立刻给生产数据中心存储系统发送一个回执表示校验确认,生产数据中心存储系统给平台发送I/O 完成的信息,至此一整套数据传输流程结束。因此,在数据传输过程中,采用“基于存储的实时远程复制”的灾难备份技术对传输的数据进行了全流程的校验,保障了数据传输过程中的完整、安全、可用。对于海量的非结构化数据采用了“基于文件级的远程复制”的灾难备份策略,采用了传输完成性校验、数据完整性校验、数据可用性校验相结合的多重校验技术协同技术,保障和实现数据的完整性。

  通过数据传输完成性校验,保障了生产数据中心与灾备数据中心之间数据传输过程的安全、传输的完整和无误。通过数据完整性校验,集合数据封装技术、唯一标识符标识技术、可信性核查技术,保障了数据在生产数据中心和灾备数据中心之间的完整性和一致性。通过数据封装技术,将大量的散碎性非结构化数据形成最小封装的个体单位,进而有利于数据信息的完整保存,便于数据传输,也更便于完整性校验的操作。通过唯一标识符标识技术,将与封装包相关的重要信息记录到唯一标识符系统中,形成完整的数据灾备信息标识,不但可以将对象数据的标识信息、保存信息、灾备信息完整、详细记录,还可以通过唯一标识符系统的快速查询、准确定位技术,实现非结构化数据灾备数据的快速恢复和准确访问,明显提升了灾备数据的响应效率。通过可信性核查技术,利用MD5 数字验证技术给数据信息加上一个数字“指纹”,比较传输前和传输完成后的“指纹”来验证数据的完整性,进而达到数据的可信性校验。通过数据可用性校验技术,利用唯一标识符定位技术,采用灾备数据中心到生产数据中心的可用性校验以及生产数据中心到灾备数据中心的可用性校验两种技术实现可用性校验。

  在国家数字图书馆的存储体系中,已经采用了多层次数据验证技术保障了生产数据中心与灾备数据中心之间的数据备份的一致性、完整性、可用性、可信性,该技术的成功应用也将为未来整个存储体系中的多中心之间的灾备数据的可用性提供技术支持和保障。

4 国家数字图书馆分布式多活存储体系的发展思路

  4.1 以国家文献战略储库建设为契机,为国家文献战略储备体系奠定基础

  目前正在建设中的国家文献战略储备库是国家数字图书馆存储体系中重要的一个数据中心,储备库数据中心将与生产数据中心之间实现跨域数据同步和可用,也可以正常运行并且可以对部分重要业务实现接管。

  国家数字图书馆要通过该数据中心的建设,不断总结和实践存储系统建设的经验,要在建设过程中提升存储体系的合理性和完善性,进而更好地发挥三个数据中心的作用和效率。在储备库数据中心建设中,还要根据《“十三五”时期全国公共图书馆事业发展规划》的要求同步研究并建立相应的标准规范和工作机制。

  国家数字图书馆愿意以此为契机,分享自己的经验,提供自己的技术,支持其他机构建设本地文献储备设施;国家数字图书馆也愿意以分布式多活存储体系为基础,继续研究、扩充和完善存储体系,为建成分级分布、共建共享的国家文献战略储备体系奠定基础。

  4.2 依托数字图书馆推广工程,实现资源的分级分布保存与共享

  国家数字图书馆愿意依托数字图书馆推广工程的建设成效,充分利用已经建设并使用的数字图书馆专网,在全国范围内,选择条件成熟的区域建立数字资源建设与保存利用中心,分级、分布地完成全国范围内数字资源保存体系建设工作。

  在分级分布的国家数字资源保存体系的建设中,以“共知、共建、共享”为基本原则;制定统一标准、普遍适用的标准规范,实现各图书馆和机构间的数字资源共享和保存;充分利用云存储、大数据、物联网、区块链等技术,利用区块链技术让各数字图书馆各分中心在区块链网络里实现数据的共享,保障数据的安全性和完整性;搭建分布共享的云存储平台,使得一些没有能力建立自身容灾和数据备份系统的图书馆,实现数据的远程备份和数据容灾,从而保证数字资源的安全。

5 结语

  2018 年1月1日正式实施的《中华人民共和国公共图书馆法》明确规定国家设立国家图书馆,主要承担国家文献信息战略保存等职责。作为保存人类文化遗产、传播知识信息、提供公共信息服务的国家数字图书馆,要以高度的责任感和紧迫感,顺应时代发展要求,充分了解国际进展、学习先进经验、开拓业界合作,积极推动我国数字文献的保存和管理。国家数字图书馆也将继续在实际工作中,突出数字文献保存与管理工作的实践性、合理性、适用性,进而不断促进数字资源保存与管理工作的健康、持续发展。

  同时,依托“数字图书馆推广工程”,构建覆盖全国的分级分布的国家数字资源保存体系,实现全国文化机构的优秀文化数字资源集中保存和长期可用,保障并促进中华优秀文化的广泛、久远传播,全面提升我国在信息环境下的文化软实力。

  原文链接:https://mp.weixin.qq.com/s/OvWTwf2_82e8kN3Nrhjqmg


(文章来自南京航空航天大学图书馆魏翠娟)