关于下一代DNA数据库构建的思考
李盛
1.公安部物证鉴定中心,北京 100038
摘要
关键词: DNA数据库; 构建; 思考
中图分类号:DF795.2 文献标志码:B 文章编号:1008-3650(2013)01-0049-03

我国公安机关DNA数据库自2001年依托国家“ 十五” 科技攻关课题启动研究, 2003年作为“ 金盾工程” 一期项目开始进行建设, 目前已建成了三级架构、实时传输、自动比对的构建模式, 研发了集数据库比对系统、实验室管理系统和信息发布系统于一体的H型架构的DNA数据库系统, 形成了以部级DNA数据库为中心, 多点应用的“ 部-省-地市(县)” 三级DNA数据库网络结构[1]。十余年的建设历程和规模化应用, DNA数据库已成为实现跨时空多元化应用、精确打击犯罪的利器。近年来, 随着社会的不断发展, 公安工作业务需要的不断拓展、DNA检验技术、信息化技术的不断进步以及DNA数据的爆发式增长, 现有DNA数据库在顶层架构, 数据库功能、数据处理能力、关键技术应用、信息安全水平及信息综合利用等诸多方面已不能满足现实需求, DNA数据库的升级改造势在必行, 本文对下一代DNA数据库的设计及构建模式进行探索思考并提出建议。

1 我国公安机关DNA数据库系统现状及存在问题

目前, 我国DNA数据库呈“ 部-省-地市(县)” 三级建库模式, 其中公安部统一建库形成公安部DNA数据库(以下简称“ 部级库” ), 各地分别建库形成地方DNA数据库, 近400个地方DNA数据库与公安部DNA数据库联网同步运行, 数据库根据数据类别分为5个大类、11小类, 主要存储与现场物证相关的案件基本信息, 与入库人员相关的自然信息, 以及DNA数据分型[2], 数据按照层级进行数据存储与常染色体STR的数据比对, 并逐级上报到部级库, 部级库对跨省的DNA数据进行数据比对并将比对结果逐级下发到各地方DNA数据库。2012年底我国部级库数据量已超过1800万条, 成为世界第一大法庭科学DNA数据库, 但随着社会的不断发展, 技术的不断进步, 公安工作业务需求的不断拓展, 现有的DNA数据库系统显现出诸多方面的不适应:

(1)数据处理能力与工作需求增长的不适应。现有DNA数据库在建设初期按照150万条数据通量进行设计, 应用软件按照相应技术指标进行研发, 而目前数据库数据量已超出设计目标的10余倍, 在数据存储、数据查询、比对等方面的问题已凸现, 研发千万级以上大规模数据容量的数据库已迫在眉睫。

(2)数据库现有结构与业务多元化的不适应。现有DNA数据库数据结构繁杂, 数据冗余量大, 各子库设置已不能满足当前业务多元化的需要, 很难实现与其他公安业务系统的对接, 且应用软件不支持多服务器并行处理, 数据入口单一, 不能实现数据的分类调度处理, 容易造成数据积压等诸多问题。

(3)数据库功能设置与DNA技术发展的不适应。现有DNA数据库的比对检索采用较为成熟的常染色体STR基因座, 不支持ABO、Y-STR、miniSTR、mtDNA及SNP等其他遗传标记[3]。Y-STR、mtDNA、SNP等在DNA数据库中的缺失, 导致亲缘关系检索比对缺少数据比对平台, 无法提供父系、母系亲缘追索, 难以对DNA信息进行综合研判。

(4)数据库管理功能与DNA实验室规范化要求的不适应。在管理上, 现有DNA数据库已不能满足精细化管理的需求, 不能及时、高效的为管理、决策部门提供数据统计、数据监控, 数据溯源等信息, DNA实验室质控功能设计过于简单, 数据关键信息项缺乏, 大量数据只有一个编号和STR分型, 尤其是违法犯罪人员身份证信息缺失, 很大程度上制约了数据库信息的高效、综合应用。应用软件升级、数据字典更新流程等操作复杂, 缺乏自动升级、故障智能化提示等诸多功能。

(5)数据库整体安全水平与数据量急剧增长的不适应。目前DNA数据库正处于数据快速增长期, 每天近2万条DNA数据进入数据库, 并传输到上级DNA数据库。由于DNA数据库建设时公安部公共数据交换平台(FMQ)尚未建立, DNA数据库在数据传输上采用WebService方式进行, 以实现数据的实时传输, 这种传输机制一方面依赖于数据传输双方网络的通畅性, 另一方面依赖于双方系统中间件软件、应用软件本身良好的运行性能, 容易出现数据无法正常发送与接收, 数据传输过程中数据的完整性很难得到保障。同时, 现有DNA数据库缺乏完善的数据备份策略, 数据库的硬件故障、磁盘故障、数据库文件损坏等都会引起数据的致命性丢失。

2 未来DNA数据库设计的思考与建议

公安工作的整体发展对DNA数据库提出了更高的发展预期, DNA数据库的调整、完善、加强、提高十分重要且势在必行。本文从以下方面对下一代DNA数据库的设计与构建进行探索性思考。

2.1 设计原则

一个好的应用软件系统在设计时必须充分结合用户需求, 遵循一定设计原则来进行。针对现有DNA数据库系统存在的主要问题, 下一代DNA数据库系统在设计上应遵循以下原则:一是先进性原则, 系统在设计和实施上应体现先进, 并采用成熟的设计思路, 采用适合大型项目可跨平台的体系架构, 以实现公安各警种综合应用DNA检验及数据库技术, 满足信息应用效益最大化的迫切需要; 二是可扩展性原则, 数据库系统应具备结构化、模块化的特点, 应支持通过模块组合的方式进行不同规模的集成, 以满足今后系统的升级和功能扩充的需求; 三是规范性原则, 系统必须严格按照各项业务规范要求, 包括国家、行业有关标准, 公安部信息化建设相关规范性、指导性文件等的要求, 同时建立我国DNA数据库的相关技术标准、规范体系; 四是安全性原则, 系统应提供多种数据备份和传输手段, 确保数据的安全完整; 五是易操作性原则, 系统应具有良好的人性化设计, 采用规范的行业用语, 提供明确而且友好的错误提示等智能化用户帮助。

2.2 系统架构

从系统架构来看, 下一代DNA数据库在物理架构上, 按照管理方式仍应分为部级数据库、省级数据库和地市级数据库三个层级, 其中, 部级数据库应侧重于DNA数据的高速比对和跨省比中结果的发布, 着重于各省级数据库的管理以及数据应用及统计; 省级数据库的重心在于保证数据中转(包括数据上报和比中结果下发)的流畅、高效、精准, 管理本省各地市级数据库; 地市级系统作为主要实战单位, 应以数据管理作为系统应用的重心, 其目标是保证基因数据的正确性、可靠性。

在逻辑结构上, 按照系统功能与模块划分, 应包含综合管理信息系统(以下简称:MIS)、实验室信息管理系统(以下简称:LIMS)、DNA数据检索比对系统(以下简称:DIS)、查重系统和灾难性事故遇难人员身份识别系统(以下简称:DVI)等子系统。

2.3 数据库结构设计

数据库是各类信息系统的核心与基础, 是信息系统的各个部分能否紧密结合在一起以及如何结合的关键所在, 数据库数据结构的合理性及优劣性将直接影响应用系统开发的难易和良莠。数据库设计作为信息系统开发和建设的重要组成部分, 就是指对于一个给定的应用环境, 构造最优的数据库模式, 建立数据库及其应用系统, 使之能够有效地存储数据, 满足各种用户的应用需求, 即信息要求和处理要求。可以说, 一个数据库系统的建设是硬件、软件及干件(技术与管理的界面即为“ 干件” )的结合。

DNA数据库以DNA基因分型数据为基础, 以DNA数据比对为核心应用, 因此DNA数据库的设计应以DNA基因分型数据为主线信息, 相关自然信息如案件、现场物证、各类人员信息作为关联、补充信息, 用于DNA数据库的综合、深度化应用。在设计上, 应在现有常染色体STR数据库基础上, 建立Y-STR DNA数据库、mtDNA数据库。在数据分类上, 应以数据字典方式体现, 在最大程度上减少数据冗余。

2.4 功能模块设置

模块是计算机应用系统结构的基础, 一个计算机应用系统结构的好坏完全由模块的属性体现出来, 把系统模块化的目的是为了降低软件复杂性, 使软件设计、调试、测试、维护等工作变得简易。

下一代DNA数据库的各个子系统应以单独模块设计, 可实现系统的独立部署, 以便于系统在不同层级的部署和系统的自动升级更新。其中MIS系统应以门户网站的形式面向用户, 用于实现案件、物证、人员等自然信息的关联、存储和管理功能; 提供DNA数据信息比中结果的查询功能和审核功能; 提供信息发布平台; 提供信息交换平台、交流平台, 以方便联系和及时反馈信息。

LIMS系统用于实现DNA实验室从检材/样本受理、检材/样本管理、实验室检验流程控制到DNA数据信息上报、鉴定文书管理出具中间的一系列管理的自动化、信息化和规范化; 实现与实验室设备相连接并能自动化的进行数据转移、传递和存储; 提供覆盖DNA实验室人员、设备、材料、方法、环境等“ 五要素” 的管理手段。

DIS系统提供针对DNA数据信息比对需求的一套整体解决方案, 它可以完成DNA数据信息检索比对、为DNA实验室提供统一的基础遗传学数据、质控数据。DIS系统的核心是DNA数据库比对引擎, 应支持个体识别、亲缘关系两类比对模式, 其中亲缘关系模式应支持常染色体、Y染色体STR及线粒体DNA序列分析。在数据比对上, 比对引擎应摒弃现有的数据库(硬盘)比对模式, 采用最新的内存数据库技术与共享内存技术相结合的方式, 以实现高效、精准的数据比对, 并可实现比对结果的自动分析以及规则排序[3]。在实现上, 比对引擎应支持服务器集群方式, 对各类比对任务(同一个体、亲缘关系、Y-STR比对、mtDNA比对等)可以进行选择、调度分配, 可以根据技术发展及业务需要实时扩展新的比对方法。

DVI系统主要用于大型自然灾害以及群死群伤事故中的人员识别, 应由国家库管理机关管理使用。

查重系统应建立在部级数据库上, 可以通过姓名、性别、身份证号码、户籍地、出生日期等信息项进行信息查重。

在以上系统建立基础上, 建议逐步建立DNA信息研判平台, 实现DNA数据库应用的最大化、科学化。

2.5 数据接口及数据传输

实现公安机关各信息系统之间资源整合、信息共享是公安信息化建设发展的必然趋势。下一代DNA数据库应建立统一、规范的数据接口, 通过数据接口可以实现与各警种有查询比对需求的公安业务系统间的数据连接和数据交换。如可以向“ 全国公安机关现场勘验信息管理系统” 、各地警综系统等提供DNA数据库现场物证的DNA样本编号、相关人员样本编号以及数据比中情况等信息, 同时可以请求获取DNA数据库中现场物证、人员在这些系统中的详细信息, 实现人员信息、案件信息、样品信息、委托信息、比中结果信息的交互, 达到数据共享、综合应用, 减少重复录入等无效工作的目的。

在数据传输上, 目前公安机关各类信息系统均采用公安部公共数据交换平台(FMQ)实现。下一代DNA数据库设计时在系统各层级间的数据信息传输应采用FMQ方式并遵循相关数据标准, 通过对数据的打包、解包方式来实现数据的上报、下发。

2.6 数据安全性

下一代DNA数据库在数据安全上应从以下方面考虑, 一是信息的加密传输, 对于敏感数据, 需要利用公开密钥体系和对称加密体系以及基于二者的加密协议来保障数据的安全; 二是用户管理, 应使用PKI技术和用户名/密码身份认证机制, 实现用户实名制管理; 三是数据传输, 应建立完备的数据监控功能, 确保数据传输的及时、完整、安全和正确, 并保障不受各类原因造成的传输中断的影响; 四是数据变更, 对于修改、删除等数据操作, 应采用作业队列方式, 进行备案和记录, 并可对数据的相关操作进行溯源; 五是应建立完备的日志功能, 对用户任务的申请、审批、上报、审核、比对、查询、反馈、撤销、修改、删除等操作进行身份、时间、地址和工作内容的日志记录, 并提供日志记录的查询、审计和管理功能; 六是应建立完善的数据备份机制, 在支持数据库全库备份、增量备份的基础上, 应提供定时自动备份、手工备份、分类备份等功能。

2.7 相关标准与规范

目前我国DNA数据库虽然安装并使用了统一的DNA数据库系统软件, 公安部也先后制定下发了《全国公安机关2009-2013年DNA数据库建设规范》等4个规范性文件和《法庭科学DNA数据库建设规范》(GA/T418-2003)等7个技术标准, 但尚未形成与DNA数据库发展相适应的技术标准体系, 未形成严格的数据准入和质量监控制度。因此, 下一代DNA数据库的构建, 首先要科学设计、规范DNA数据库建设的内容、方法、步骤、程序, 建立规范化、制约化建设的标准与规范, 来规范数据库建设工作, 通过这些标准与规范对数据库的日常管理、运行规定、数据格式, 入库信息的采集范围、入库信息的项目、检验内容的标准、信息录入条件、入库时限、比对要求、结果发布、案件复核及时限、案件通报等内容进行统筹管理。

The authors have declared that no competing interests exist.

参考文献
[1] 葛百川, 刘冰. 我国DNA数据库建设应用现状及推动其科学发展的思考[C]. DNA数据库建设应用成果与展望[A]. 北京: 中国人民公安大学出版社, 2010: 1-5. [本文引用:1]
[2] 姜先华. 中国法庭科学DNA数据库[J]. 中国法医学杂志, 2006, 21(5): 95-96. [本文引用:1]
[3] 李盛, 谢群. DNA数据库信息综合应用及亲缘关系比对方法研究[C]. DNA数据库建设应用成果与展望II[A]. 北京: 中国人民公安大学出版社, 2011: 57-59. [本文引用:2]