以某档案馆需数字化的内容,计算器存储容量计划,服务器以RAID5以上双份存储,单位为B.内容:1000万页A4

以某档案馆需数字化的内容,计算器存储容量计划,服务器以RAID5以上双份存储,单位为B.内容:1000万页A4,第1张

你的意思是指要存:1000万张A4页纸,1W张照片,50小时音频,200小时视频?
A4纸纯文本文档,就4kb左右。照片你估计是要扫描上来,但照片大小有大有小。50小时音频,不知道音频格式多大,这里面差别很大。200小时视频,差别也很大。没法精确计算。
往大的方向粗略估计。1000W按4K算,就39G左右。1W张照片,我按你一张10M算,就98GB左右。50小时音频,我按MP3格式,192kpbs的高保真计算,也就4G,就算5G好了。200小时视频?这个真不好算,好了我就算它1小时10G好了,那就2000G,所以,加起来就是2142G。
RAID模式的话,按最小比例,4颗同样大小的硬盘,那就是2856G的总容量了,也就是说你去买4个,每个硬盘1TB的硬盘足够你了
如果要买企业级的硬盘,也就8000左右的事了

(A)纸质文件的数字化处理纸质文件的数字化处理方法主要有两种:直接扫描法和缩微法。1直接扫描方法所谓直接扫描法,就是用扫描仪对原始纸质文件进行光学扫描,将图像信息传输到光电转换器中变成模拟电信号,再将模拟电信号转换成数字电信号,再通过计算机接口传输到计算机存储器中。直接扫描可以分为两种方式:(1)对纸质文件进行扫描后,使用字符识别(OCR)软件进行识别,最终生成文本文件。这种数字文件的优点是:占用空间小,便于计算机全文检索,文件使用时易于提取和编辑。其缺点是:不能保留原文件的排版格式,以及签名、印章等原始信息;有时候OCR字符识别的准确率低,检查修改困难,数字化效率很低,实际上已经破坏了原始文件的真实性。(2)扫描纸质文件,形成数字图像文件。这种图像文件的优点是:能保持文件内容和排版的原貌,数字化速度快。缺点是:无法进行全文检索,无法编辑文本内容,占用存储空间大。以上两种方法的优缺点正好互补。现在有一种方法可以把两种方法的优点结合到一个文件里,就是做一个双层PDF。制作方法是:将原来的纸质文件扫描成数字图像文件再转换成文本文件,然后将两个内容相同的文件放在同一个PDF文件中,图像文件放在文本文件的上层,文本文件隐藏在图像文件的下层。在查询这个文件时,我们不仅可以看到上层的原始图像文件,还可以全文搜索隐藏的文本文件。2缩微方法所谓缩微胶片转换方法,就是对已经缩微的文件,使用专用的扫描设备(即缩微胶片扫描仪),将缩微胶片上的模拟图像转换成数字图像的方法。与直接扫描法相比,显微扫描法更经济、简单、高效。但是,这种方法必须建立在纸质文件的微细加工基础上。值得注意的是,扫描微缩胶片后,原微缩胶片应与纸质档案一起保存,不得擅自销毁。这样,文件就形成了“三集”的存储状态。尽管缩微胶片不如数字文件易于保存、复制、查询和传播,但作为模拟信息,缩微胶片文件具有数字文件所不具备的优点,如人类可读、稳定性好、体积小等,是纸质文件所不具备的,应成为档案信息资源的重要补充形式。(B)纸质文件的数字化工作流程纸质档案数字化是一个复杂的过程,其基本环节主要包括:档案整理、档案扫描、图像处理、图像存储、编目建库、数据挂钩、数据验收、数据备份、成果管理。文件整理纸质档案扫描前,根据档案管理情况,按照以下步骤对档案进行适当整理,并根据需要进行标记,以保证档案的数字化质量。(1)文件出库一般来说,对大量纸质档案进行数字化处理,首先要将待数字化的档案从档案仓库搬到临时周转仓库;然后,数字处理人员从周转仓库接收文件进行数字化。无论前者或后者,数字化处理人员都必须按预定计划提出申请,经审批后,向双方移交档案,登记并完成交接手续。(2)目录数据准备根据《档案著录规则》(DA/T18-1999)的要求,规范档案的内容,包括确定档案的著录项目、字段长度和内容要求。然后,建立一个用于数字文件检索的目录数据库。数据库建设可以利用原有纸质档案的编目基础。如果原始纸质文件目录存在错误或不规范,如标题、文件名、负责人、起止页码和页数等。,应该修改。纸质档案未建立机读目录数据库的,应按档案著录规则重新录入。(3)解除捆绑文件可以在去除绑定前逐一贴上条形码,以便在后续流程中通过识别条形码对扫描的文件进行准确高效的控制。条形码还可以为今后档案借阅和利用的管理提供方便。然后,工作人员一卷一卷、一页一页地检查档案。对缺失内容、遗漏内容、颠倒页码、珍贵破损档案进行登记,交档案保管机构妥善处理。对于不解除绑定会影响扫描工作的文件,应解除绑定。拆除装订时,应注意保护文件不受损坏。拆除装订后,应将原文件按顺序排列,并用夹子夹住,以防散落。对于历史悠久,纸质条件差,不方便拆封的,可以使用零页边距扫描仪进行扫描。(4)区分扫描件和非扫描件。根据要求,将同一案卷中的扫描件和非扫描件分开,剔除无关和重复件。(5)页面修剪纸张的质量与扫描仪的选择和扫描效果有关。因此,对于破损严重、褶皱不平、字迹模糊的档案,必须分别登记处理。比如折叠的文件可以熨烫;对于被污染的纸张,可以在通风的环境下用软刷轻轻刷掉漂浮的灰尘、污垢或霉菌;必须修复损坏和不完整的文档。(六)备案登记将整理后的原始文件移交给扫描人员,制作并填写纸质文件数字化处理交接登记表,详细记录整理后每个文件的起始页码和页码。(七)装订、修复和归还扫描工作完成后,已拆除的档案应按档案保管要求重新装订。恢复装订时,要注意保持文件的排列顺序不变,做到安全、准确、不遗漏。更换严重损坏的辊和箱。装订人员会在装订好的文件上加盖专用印章和专用数码印章。文件的数字处理和重新装订完成后,应进行清点。清点无误后,交回档案管理部门,办理档案归还手续。2文件扫描(1)扫描设备的选择根据文件格式的大小(A4、A3、A0等。),选择相应规格的扫描仪。大幅面文件可以用宽幅扫描仪扫描,缩微后用胶片数字转换设备扫描,小幅面扫描后用图像拼接。纸张状况不好、太薄、太软或太厚的文件,以及多色页面的文件,都可以用普通平板扫描仪扫描。纸张条件好的A4、A3文件可以用高速扫描仪扫描,提高工作效率。不适合拆包的文件可以用零页边距扫描仪扫描。(2)扫描颜色模式的选择通常,有两种扫描颜色模式:一种是扫描形成黑白二值图像。这种图像只有黑白两级,没有过渡灰度。其特点是黑白分明,字迹清晰,文件容量小。它适用于扫描笔迹清晰、线条清晰的文本或图形文件。二是扫描形成连续色调的静态图像。这类图像分为灰度图像和彩色图像。灰度图像由从最暗的黑色到最亮的白色的不同灰度组成。灰度表示一幅图像从亮部到暗部的层次,也叫色阶。灰度越高,层次越丰富,文件容量越大。灰色模式适合扫描黑白照片和图像文件,色阶的选择要适中,只要不影响画质即可。颜色模式中的颜色数量表示颜色的范围。颜色越多,图像越生动真实,文件容量越大。同样,色号的选择也要适度,不是越多越好。彩色模式适用于扫描文件或页面上带有红色抬头和印章的彩色照片文件。需要永久保存或长期保存,或移交国家档案馆的档案,一般应采用彩色模式扫描。(3)扫描分辨率扫描分辨率参数的选择原则上是基于扫描图像的清晰度和完整性,不会影响图像的利用效果。黑白二进制、灰度、彩色模式扫描文件时,分辨率一般建议大于等于200dpi。特殊情况下,如文字小、文字密、清晰度差等。,分辨率可以适当提高。对于需要OCR汉字识别的文件,扫描分辨率建议选择300dpi。(4)光学字符识别处理目前OCR技术已经相当成熟,一般扫描仪都有自己的OCR软件,使用起来也非常方便。但是OCR的识别准确率往往不尽如人意,影响检索效果。手动修改稿件中的错别字很麻烦。因此,提高OCR识别率是档案数字化中的一个重要问题。其实只要注意以下几点,就可以明显提高OCR识别率:一是选择合适的扫描分辨率。过低的扫描分辨率往往会导致OCR识别率下降,过高的分辨率则会使图像文件过大,降低识别速度。在实际 *** 作中, *** 作者可以通过查看OCR识别后生成的文本中红色错别字的数量(如小于3%)来判断可接受性,决定是否以此分辨率扫描,进行OCR识别。二是尽量黑白二进制模式扫描。用扫描仪扫描文档时,OCR通常接受灰色或黑白二进制模式,不接受彩色模式。如果稿件的印刷质量好,可以采用灰色模式,否则应采用黑白二进制模式。扫描时,您可以手动调整黑白阈值的大小。如果黑白二值图像上的文字轮廓不完整,适当增加阈值。如果文本的轮廓太粗,说明信息冗余较多,可以适当降低阈值。这样调整后形成的黑白二值扫描图像可以达到更好的OCR识别效果。第三,在进行OCR识别时注意字符的倾斜校正。OCR识别允许文档轻微倾斜,但过度倾斜会影响识别率。校正方法是在扫描软件上点击倾斜校正按钮,识别软件会在OCR识别前自动校正图像。四是稿件识别前的预处理。去除稿件中的杂物和,因为杂物会干扰文字识别,无法识别,会影响OCR的文字分割。针对稿件中的栏目,建议手动设置栏目区域,即用多个方框选择要识别的文字,然后进行OCR识别。五是采取适当的识别方法。简体和繁体稿件混杂,中英文稿件识别率往往较低。如果简体和繁体中英文分块分布,可以用图像处理软件将不同的文本块编辑成文本块相似的文件,然后分别用OCR识别不同的字符。(5)扫描注册认真填写纸质文件数字化转换流程交接登记表,登记扫描页数,核对每份文件实际扫描页数与归档时填写的文件页数是否一致。如不一致,应注明具体原因和处理方法。3图像处理扫描完成后,获得的图像必须按要求进行技术处理,以纠正扫描文件与原始文件之间的偏差,使扫描文件更清晰、更规范。图像处理一般包括以下内容:(1)影像数据质量检查检查图像的偏斜、清晰度和失真。如果发现不符合质量要求,应对图像进行重新处理。当扫描的图像文件不完整或因 *** 作不当无法清晰识别时,应重新扫描;如有漏扫描文件,及时补扫描,正确插入图像;当发现扫描图像的排列顺序与原始文件不一致时,应及时调整。认真填写相关表格,记录质量检查结果和处理意见。(2)整改应该校正偏转图像,以便在视觉上感觉不到偏转。方向不正确的要旋转还原,符合阅读习惯。(3)去污影响图像质量的杂质,如黑点、黑线、黑框和黑边,应该去除。在处理过程中,应注意不要破坏文件的原始信息。(4)图像拼接扫描不同区域的大幅面文件形成的多幅图像应拼接合并成一幅完整的图像,以保证文件数字图像的完整性。(5)修剪彩色模式下扫描的图像应进行修剪,去除多余的白边,以有效减少图像文件的容量,节省存储空间。以上的整改、去污、修整等处理都可以根据肉眼手动完成。也可以使用专门设计的软件,预先进行一定的设置,然后由计算机自动处理。计算机处理当然效率高,但不如手工处理灵活。比如,一旦污渍的大小被设计得太小,电脑会自动把一些标点符号作为污渍去掉。因此,扫描图像的处理也需要采用手动和自动相结合的处理方式。4图像存储(1)存储格式以黑白二进制模式扫描的图像文件通常以TIFF(G4)格式存储。以灰色模式和彩色模式扫描的图像文件通常以JPEG格式存储。存储时压缩比的选择应以保证扫描图像易读性的前提下最小化存储容量为基础。提供网络查询的扫描图像,也可以存储为CEB,PDF或其他格式的文件。(2)图像文件的命名数字档案资源应以档案号或唯一标识符命名。用档案号命名数字档案资源的,按卷排序的,应按《档案号编制规则》(DA/T 13-1994)编制档案号,建议增加档案类别码作为类别号的子项;若按件排序,案卷号可采用“全宗号-案卷类别码年份-保管期限-机构(问题)码-件号-分件号”的结构。5目录数据库建设(1)数据格式选择目录数据库建设应选择通用数据格式,所选数据格式应能通过XML文档直接或间接交换数据。这个数据库的建立可以通过专门的档案管理系统或者扫描处理管理软件录入,也可以通过EXCEL专门设计的档案目录表录入,然后将数据导入档案管理系统。(2)档案描述根据《档案著录规则》(DA/T18-1999)的要求,建立档案目录数据库,录入档案目录数据。(3)目录数据的质量检查为保证数据的准确性,可采用“单机录入-人工校对”或“双机录入-计算机自动校对”的方法。无论是人工校对还是计算机校对,都要检查描述项目是否齐全,描述内容是否规范准确,如发现不合格数据,应进行修改或重新记录。6数据挂钩(1)汇总挂钩档案数字化转换过程中形成的编目数据库和影像文件,经质量检查合格后,通过网络及时加载到数据服务器进行汇总。目录数据库和镜像文件要避免慢且容易出错的手动挂接,尽量批量使用电脑自动挂接。只要将扫描的数字文件按照纸质文件的文件号进行命名,就可以通过编制挂钩程序或借助相应的软件,实现相关数字图像的自动搜索和相应电子地址信息的添加,从而实现批量、快速挂钩。(2)数据关联基于纸质文件目录数据库,从每个纸质文件扫描的一个或多个图像被存储为图像文件。将图像文件存储在相应的文件夹中时,需要仔细检查每个图像文件的名称是否与归档目录数据库中的文件号相同,图像文件的页数是否与归档目录数据库中的文件页数相同,图像文件的总数是否与归档目录数据库中的文件数相同。利用每个图像文件的文件名与该文件在归档目录数据库中的文件号建立一一对应的关系,为归档目录数据库与图像文件的自动批量连接提供了条件。(3)交接登记认真填写纸质文件数字化转换过程交接登记表,记录数据关联后的页数,检查每次文件关联后的页数与文件整理扫描时填写的页数是否一致。如不一致,应注明具体原因和处理方法。7数据接受检查所有已经采样数字化的数据,包括目录数据库、图像文件和数据挂钩的整体质量。当目录数据库和图像文件链接出现错误,或者目录数据库和图像文件中有一个不完整、不清晰、有错误时,抽检将标记为“不合格”。一个全宗文件,当数字转换质量抽检合格率达到95%以上(含95%)时,将被验收为“通过”。合格率=通过抽样检查的文件数/通过抽样检查的文件总数×100%。认真填写纸质档案数字化验收登记表。验收“通过”的结论必须经过审核签字才能生效。8数据备份完整、合格的数据应及时备份。为保证数据安全,备份载体的选择应多样化,可采用线上线下相结合的方式实现多套备份,并注意远程存储。还应该检查备份数据。备份数据的检查内容主要包括备份数据是否可以打开,数据信息是否完整,文件数量是否准确。数据备份后,应在相应的备份介质上做好标记,以便于查找和管理。填写纸质文件数字备份管理登记表。9数字结果管理应加强纸质档案数字化成果的管理,确保其安全性、完整性和长期可用性。提供纸质档案数字化成果在线检索利用时,应当有制作单位的电子标识,并根据具体情况采用可下载或不可下载的数据格式。

最符合数字档案室建设要求的国家标准是档案馆建设标准。

随着电子信息技术的广泛应用和数字档案馆建设的蓬勃开展,基层数字档案室建设这个问题便提上了档案行政管理部门和基层单位的议事日程。

基层数字档案室建设就是指机关企事业单位和社会组织综合运用计算机、信息网络等技术,对室藏档案进行数字化加工、信息化管理和网络化运用的工作工程。基层档案是同级国家档案馆的“基石”,基层档案的数字化又是同级国家档案馆数字化的“基础”。

通过基层数字档案室的建设实践证明,这项工作既能有效保护纸质档案原件,又能为利用者提供快速准确便捷的查档服务,实现档案资源利用的最大化。

基层数字档案室建设的硬件、软件要求

1、硬件要求。

主要包括:用于对室藏纸质档案进行数字化加工的专门办公场地;用于信息系统数据存储、管理和应用系统运行的服务器;用于各类用户访问的终端设备、身份z读取器、打印机、复印机等输入、输出设备。

用于纸质、照片等传统载体档案数字化加工的扫描仪、数码相机、数码摄像机等;用于数据备份和归档移交的光盘刻录机、磁带机等,确保数字档案的大量储存、查询、利用。

2、软件要求。

选购或根据自身情况开发与硬件配套的安全性高、稳定性好的主流 *** 作系统;选择与单位档案信息管理实际标准相符的数据库管理系统;选择配套的扫描软件、图像处理软件等,实现档案资料管理系统与办公自动化系统的无缝衔接。

3、数字化标准要求。

依据国家档案局DA/T46-2009《文书类电子文件元数据方案》、DA/T47-2009《版式电子文件长期保存格式需求》和DA/T48-2009《基于XML的电子文件封装规范》等相关标准进行科学化的整理加工和管理。

你好,请问你是要管理各类档案文档吗,我知道普大公司有一套专门的专题文档管理系统软件,有单机版和服务器网络版,很不错的,在网上可以免费下载试用,在百度输入:普大软件,就能找到他们公司的网站,你不妨下载试用一下。
我把这个软件的介绍发给你参考一下:
DM8C专题(文件)管理系统可轻易的将数据文件分类建文件。强大的搜寻功能,依分类搜寻标题或内容。针对每一主题,将相关附属档案储存。档案格式包含影音档、设计稿、或图档等。
本系统的两大特色:
一 可将已建立的文档利用主旨与内容搜寻,快速的找到所需要的数据。
二 可将该文所附属的文件,如Word, Excel, PDF, BMP,等各种不限制档案类型的数据,拷贝到该专题目录中。
※ 安装与维护容易,不需要外挂数据库;若必需将数据拷备到其它台计算机,可到其它台计算机安装DM80 程序后,再将原计算机的整个数据夹(预设目录在C:\DM80)拷贝后到新计算机相同位置贴上

(A)纸质文件的数字化处理纸质文件的数字化处理方法主要有两种:直接扫描法和缩微法。1直接扫描方法所谓直接扫描法,就是用扫描仪对原始纸质文件进行光学扫描,将图像信息传输到光电转换器中变成模拟电信号,再将模拟电信号转换成数字电信号,再通过计算机接口传输到计算机存储器中。直接扫描可以分为两种方式:(1)对纸质文件进行扫描后,使用字符识别(OCR)软件进行识别,最终生成文本文件。这种数字文件的优点是:占用空间小,便于计算机全文检索,文件使用时易于提取和编辑。其缺点是:不能保留原文件的排版格式,以及签名、印章等原始信息;有时候OCR字符识别的准确率低,检查修改困难,数字化效率很低,实际上已经破坏了原始文件的真实性。(2)扫描纸质文件,形成数字图像文件。这种图像文件的优点是:能保持文件内容和排版的原貌,数字化速度快。缺点是:无法进行全文检索,无法编辑文本内容,占用存储空间大。以上两种方法的优缺点正好互补。现在有一种方法可以把两种方法的优点结合到一个文件里,就是做一个双层PDF。制作方法是:将原来的纸质文件扫描成数字图像文件再转换成文本文件,然后将两个内容相同的文件放在同一个PDF文件中,图像文件放在文本文件的上层,文本文件隐藏在图像文件的下层。在查询这个文件时,我们不仅可以看到上层的原始图像文件,还可以全文搜索隐藏的文本文件。2缩微方法所谓缩微胶片转换方法,就是对已经缩微的文件,使用专用的扫描设备(即缩微胶片扫描仪),将缩微胶片上的模拟图像转换成数字图像的方法。与直接扫描法相比,显微扫描法更经济、简单、高效。但是,这种方法必须建立在纸质文件的微细加工基础上。值得注意的是,扫描微缩胶片后,原微缩胶片应与纸质档案一起保存,不得擅自销毁。这样,文件就形成了“三集”的存储状态。尽管缩微胶片不如数字文件易于保存、复制、查询和传播,但作为模拟信息,缩微胶片文件具有数字文件所不具备的优点,如人类可读、稳定性好、体积小等,是纸质文件所不具备的,应成为档案信息资源的重要补充形式。(B)纸质文件的数字化工作流程纸质档案数字化是一个复杂的过程,其基本环节主要包括:档案整理、档案扫描、图像处理、图像存储、编目建库、数据挂钩、数据验收、数据备份、成果管理。文件整理纸质档案扫描前,根据档案管理情况,按照以下步骤对档案进行适当整理,并根据需要进行标记,以保证档案的数字化质量。(1)文件出库一般来说,对大量纸质档案进行数字化处理,首先要将待数字化的档案从档案仓库搬到临时周转仓库;然后,数字处理人员从周转仓库接收文件进行数字化。无论前者或后者,数字化处理人员都必须按预定计划提出申请,经审批后,向双方移交档案,登记并完成交接手续。(2)目录数据准备根据《档案著录规则》(DA/T18-1999)的要求,规范档案的内容,包括确定档案的著录项目、字段长度和内容要求。然后,建立一个用于数字文件检索的目录数据库。数据库建设可以利用原有纸质档案的编目基础。如果原始纸质文件目录存在错误或不规范,如标题、文件名、负责人、起止页码和页数等。,应该修改。纸质档案未建立机读目录数据库的,应按档案著录规则重新录入。(3)解除捆绑文件可以在去除绑定前逐一贴上条形码,以便在后续流程中通过识别条形码对扫描的文件进行准确高效的控制。条形码还可以为今后档案借阅和利用的管理提供方便。然后,工作人员一卷一卷、一页一页地检查档案。对缺失内容、遗漏内容、颠倒页码、珍贵破损档案进行登记,交档案保管机构妥善处理。对于不解除绑定会影响扫描工作的文件,应解除绑定。拆除装订时,应注意保护文件不受损坏。拆除装订后,应将原文件按顺序排列,并用夹子夹住,以防散落。对于历史悠久,纸质条件差,不方便拆封的,可以使用零页边距扫描仪进行扫描。(4)区分扫描件和非扫描件。根据要求,将同一案卷中的扫描件和非扫描件分开,剔除无关和重复件。(5)页面修剪纸张的质量与扫描仪的选择和扫描效果有关。因此,对于破损严重、褶皱不平、字迹模糊的档案,必须分别登记处理。比如折叠的文件可以熨烫;对于被污染的纸张,可以在通风的环境下用软刷轻轻刷掉漂浮的灰尘、污垢或霉菌;必须修复损坏和不完整的文档。(六)备案登记将整理后的原始文件移交给扫描人员,制作并填写纸质文件数字化处理交接登记表,详细记录整理后每个文件的起始页码和页码。(七)装订、修复和归还扫描工作完成后,已拆除的档案应按档案保管要求重新装订。恢复装订时,要注意保持文件的排列顺序不变,做到安全、准确、不遗漏。更换严重损坏的辊和箱。装订人员会在装订好的文件上加盖专用印章和专用数码印章。文件的数字处理和重新装订完成后,应进行清点。清点无误后,交回档案管理部门,办理档案归还手续。2文件扫描(1)扫描设备的选择根据文件格式的大小(A4、A3、A0等。),选择相应规格的扫描仪。大幅面文件可以用宽幅扫描仪扫描,缩微后用胶片数字转换设备扫描,小幅面扫描后用图像拼接。纸张状况不好、太薄、太软或太厚的文件,以及多色页面的文件,都可以用普通平板扫描仪扫描。纸张条件好的A4、A3文件可以用高速扫描仪扫描,提高工作效率。不适合拆包的文件可以用零页边距扫描仪扫描。(2)扫描颜色模式的选择通常,有两种扫描颜色模式:一种是扫描形成黑白二值图像。这种图像只有黑白两级,没有过渡灰度。其特点是黑白分明,字迹清晰,文件容量小。它适用于扫描笔迹清晰、线条清晰的文本或图形文件。二是扫描形成连续色调的静态图像。这类图像分为灰度图像和彩色图像。灰度图像由从最暗的黑色到最亮的白色的不同灰度组成。灰度表示一幅图像从亮部到暗部的层次,也叫色阶。灰度越高,层次越丰富,文件容量越大。灰色模式适合扫描黑白照片和图像文件,色阶的选择要适中,只要不影响画质即可。颜色模式中的颜色数量表示颜色的范围。颜色越多,图像越生动真实,文件容量越大。同样,色号的选择也要适度,不是越多越好。彩色模式适用于扫描文件或页面上带有红色抬头和印章的彩色照片文件。需要永久保存或长期保存,或移交国家档案馆的档案,一般应采用彩色模式扫描。(3)扫描分辨率扫描分辨率参数的选择原则上是基于扫描图像的清晰度和完整性,不会影响图像的利用效果。黑白二进制、灰度、彩色模式扫描文件时,分辨率一般建议大于等于200dpi。特殊情况下,如文字小、文字密、清晰度差等。,分辨率可以适当提高。对于需要OCR汉字识别的文件,扫描分辨率建议选择300dpi。(4)光学字符识别处理目前OCR技术已经相当成熟,一般扫描仪都有自己的OCR软件,使用起来也非常方便。但是OCR的识别准确率往往不尽如人意,影响检索效果。手动修改稿件中的错别字很麻烦。因此,提高OCR识别率是档案数字化中的一个重要问题。其实只要注意以下几点,就可以明显提高OCR识别率:一是选择合适的扫描分辨率。过低的扫描分辨率往往会导致OCR识别率下降,过高的分辨率则会使图像文件过大,降低识别速度。在实际 *** 作中, *** 作者可以通过查看OCR识别后生成的文本中红色错别字的数量(如小于3%)来判断可接受性,决定是否以此分辨率扫描,进行OCR识别。二是尽量黑白二进制模式扫描。用扫描仪扫描文档时,OCR通常接受灰色或黑白二进制模式,不接受彩色模式。如果稿件的印刷质量好,可以采用灰色模式,否则应采用黑白二进制模式。扫描时,您可以手动调整黑白阈值的大小。如果黑白二值图像上的文字轮廓不完整,适当增加阈值。如果文本的轮廓太粗,说明信息冗余较多,可以适当降低阈值。这样调整后形成的黑白二值扫描图像可以达到更好的OCR识别效果。第三,在进行OCR识别时注意字符的倾斜校正。OCR识别允许文档轻微倾斜,但过度倾斜会影响识别率。校正方法是在扫描软件上点击倾斜校正按钮,识别软件会在OCR识别前自动校正图像。四是稿件识别前的预处理。去除稿件中的杂物和,因为杂物会干扰文字识别,无法识别,会影响OCR的文字分割。针对稿件中的栏目,建议手动设置栏目区域,即用多个方框选择要识别的文字,然后进行OCR识别。五是采取适当的识别方法。简体和繁体稿件混杂,中英文稿件识别率往往较低。如果简体和繁体中英文分块分布,可以用图像处理软件将不同的文本块编辑成文本块相似的文件,然后分别用OCR识别不同的字符。(5)扫描注册认真填写纸质文件数字化转换流程交接登记表,登记扫描页数,核对每份文件实际扫描页数与归档时填写的文件页数是否一致。如不一致,应注明具体原因和处理方法。3图像处理扫描完成后,获得的图像必须按要求进行技术处理,以纠正扫描文件与原始文件之间的偏差,使扫描文件更清晰、更规范。图像处理一般包括以下内容:(1)影像数据质量检查检查图像的偏斜、清晰度和失真。如果发现不符合质量要求,应对图像进行重新处理。当扫描的图像文件不完整或因 *** 作不当无法清晰识别时,应重新扫描;如有漏扫描文件,及时补扫描,正确插入图像;当发现扫描图像的排列顺序与原始文件不一致时,应及时调整。认真填写相关表格,记录质量检查结果和处理意见。(2)整改应该校正偏转图像,以便在视觉上感觉不到偏转。方向不正确的要旋转还原,符合阅读习惯。(3)去污影响图像质量的杂质,如黑点、黑线、黑框和黑边,应该去除。在处理过程中,应注意不要破坏文件的原始信息。(4)图像拼接扫描不同区域的大幅面文件形成的多幅图像应拼接合并成一幅完整的图像,以保证文件数字图像的完整性。(5)修剪彩色模式下扫描的图像应进行修剪,去除多余的白边,以有效减少图像文件的容量,节省存储空间。以上的整改、去污、修整等处理都可以根据肉眼手动完成。也可以使用专门设计的软件,预先进行一定的设置,然后由计算机自动处理。计算机处理当然效率高,但不如手工处理灵活。比如,一旦污渍的大小被设计得太小,电脑会自动把一些标点符号作为污渍去掉。因此,扫描图像的处理也需要采用手动和自动相结合的处理方式。4图像存储(1)存储格式以黑白二进制模式扫描的图像文件通常以TIFF(G4)格式存储。以灰色模式和彩色模式扫描的图像文件通常以JPEG格式存储。存储时压缩比的选择应以保证扫描图像易读性的前提下最小化存储容量为基础。提供网络查询的扫描图像,也可以存储为CEB,PDF或其他格式的文件。(2)图像文件的命名数字档案资源应以档案号或唯一标识符命名。用档案号命名数字档案资源的,按卷排序的,应按《档案号编制规则》(DA/T 13-1994)编制档案号,建议增加档案类别码作为类别号的子项;若按件排序,案卷号可采用“全宗号-案卷类别码年份-保管期限-机构(问题)码-件号-分件号”的结构。5目录数据库建设(1)数据格式选择目录数据库建设应选择通用数据格式,所选数据格式应能通过XML文档直接或间接交换数据。这个数据库的建立可以通过专门的档案管理系统或者扫描处理管理软件录入,也可以通过EXCEL专门设计的档案目录表录入,然后将数据导入档案管理系统。(2)档案描述根据《档案著录规则》(DA/T18-1999)的要求,建立档案目录数据库,录入档案目录数据。(3)目录数据的质量检查为保证数据的准确性,可采用“单机录入-人工校对”或“双机录入-计算机自动校对”的方法。无论是人工校对还是计算机校对,都要检查描述项目是否齐全,描述内容是否规范准确,如发现不合格数据,应进行修改或重新记录。6数据挂钩(1)汇总挂钩档案数字化转换过程中形成的编目数据库和影像文件,经质量检查合格后,通过网络及时加载到数据服务器进行汇总。目录数据库和镜像文件要避免慢且容易出错的手动挂接,尽量批量使用电脑自动挂接。只要将扫描的数字文件按照纸质文件的文件号进行命名,就可以通过编制挂钩程序或借助相应的软件,实现相关数字图像的自动搜索和相应电子地址信息的添加,从而实现批量、快速挂钩。(2)数据关联基于纸质文件目录数据库,从每个纸质文件扫描的一个或多个图像被存储为图像文件。将图像文件存储在相应的文件夹中时,需要仔细检查每个图像文件的名称是否与归档目录数据库中的文件号相同,图像文件的页数是否与归档目录数据库中的文件页数相同,图像文件的总数是否与归档目录数据库中的文件数相同。利用每个图像文件的文件名与该文件在归档目录数据库中的文件号建立一一对应的关系,为归档目录数据库与图像文件的自动批量连接提供了条件。(3)交接登记认真填写纸质文件数字化转换过程交接登记表,记录数据关联后的页数,检查每次文件关联后的页数与文件整理扫描时填写的页数是否一致。如不一致,应注明具体原因和处理方法。7数据接受检查所有已经采样数字化的数据,包括目录数据库、图像文件和数据挂钩的整体质量。当目录数据库和图像文件链接出现错误,或者目录数据库和图像文件中有一个不完整、不清晰、有错误时,抽检将标记为“不合格”。一个全宗文件,当数字转换质量抽检合格率达到95%以上(含95%)时,将被验收为“通过”。合格率=通过抽样检查的文件数/通过抽样检查的文件总数×100%。认真填写纸质档案数字化验收登记表。验收“通过”的结论必须经过审核签字才能生效。8数据备份完整、合格的数据应及时备份。为保证数据安全,备份载体的选择应多样化,可采用线上线下相结合的方式实现多套备份,并注意远程存储。还应该检查备份数据。备份数据的检查内容主要包括备份数据是否可以打开,数据信息是否完整,文件数量是否准确。数据备份后,应在相应的备份介质上做好标记,以便于查找和管理。填写纸质文件数字备份管理登记表。9数字结果管理应加强纸质档案数字化成果的管理,确保其安全性、完整性和长期可用性。提供纸质档案数字化成果在线检索利用时,应当有制作单位的电子标识,并根据具体情况采用可下载或不可下载的数据格式。

具体工作要求:

1、档案资料、图纸的扫描及后期整理 。

2、档案资料录入、校验和数据挂接。

3、对扫描后的数据按照应用要求进行整理 。

4、数字化加工过程管理工作 。

以组织系统专用资源网为网络基础,采用B/S(浏览器/服务器)模式架构,在组织系统内部实现了本地及远程查档、阅档功能。系统在安全方面进行了方考虑。

可按日期、时间或长期有效等多种方式,完成阅档授权;阅档过程进行详细的日志记录;信息采用加密信道传输等多种方式,使系统运行更加安全可靠。

档案数字化较之传统档案管理有不可替代的先进性:

提高经济效益过去一直使用粗放型模式即以增加办公人员和办公费用为解决这一难题的唯一手段,致使管理成本大幅上涨。

而数字化管理档案使传统的以纸质为载体的档案信息对象转为机读档案,不仅节约了保管费用,节省了占地空间,而且查阅起来极为方便迅速,从而避免了反复印制资料而造成的纸张和人员的浪费。

百度百科-档案数字化

(A)纸质文件的数字化处理纸质文件的数字化处理方法主要有两种:直接扫描法和缩微法。1直接扫描方法所谓直接扫描法,就是用扫描仪对原始纸质文件进行光学扫描,将图像信息传输到光电转换器中变成模拟电信号,再将模拟电信号转换成数字电信号,再通过计算机接口传输到计算机存储器中。直接扫描可以分为两种方式:(1)对纸质文件进行扫描后,使用字符识别(OCR)软件进行识别,最终生成文本文件。这种数字文件的优点是:占用空间小,便于计算机全文检索,文件使用时易于提取和编辑。其缺点是:不能保留原文件的排版格式,以及签名、印章等原始信息;有时候OCR字符识别的准确率低,检查修改困难,数字化效率很低,实际上已经破坏了原始文件的真实性。(2)扫描纸质文件,形成数字图像文件。这种图像文件的优点是:能保持文件内容和排版的原貌,数字化速度快。缺点是:无法进行全文检索,无法编辑文本内容,占用存储空间大。以上两种方法的优缺点正好互补。现在有一种方法可以把两种方法的优点结合到一个文件里,就是做一个双层PDF。制作方法是:将原来的纸质文件扫描成数字图像文件再转换成文本文件,然后将两个内容相同的文件放在同一个PDF文件中,图像文件放在文本文件的上层,文本文件隐藏在图像文件的下层。在查询这个文件时,我们不仅可以看到上层的原始图像文件,还可以全文搜索隐藏的文本文件。2缩微方法所谓缩微胶片转换方法,就是对已经缩微的文件,使用专用的扫描设备(即缩微胶片扫描仪),将缩微胶片上的模拟图像转换成数字图像的方法。与直接扫描法相比,显微扫描法更经济、简单、高效。但是,这种方法必须建立在纸质文件的微细加工基础上。值得注意的是,扫描微缩胶片后,原微缩胶片应与纸质档案一起保存,不得擅自销毁。这样,文件就形成了“三集”的存储状态。尽管缩微胶片不如数字文件易于保存、复制、查询和传播,但作为模拟信息,缩微胶片文件具有数字文件所不具备的优点,如人类可读、稳定性好、体积小等,是纸质文件所不具备的,应成为档案信息资源的重要补充形式。(B)纸质文件的数字化工作流程纸质档案数字化是一个复杂的过程,其基本环节主要包括:档案整理、档案扫描、图像处理、图像存储、编目建库、数据挂钩、数据验收、数据备份、成果管理。文件整理纸质档案扫描前,根据档案管理情况,按照以下步骤对档案进行适当整理,并根据需要进行标记,以保证档案的数字化质量。(1)文件出库一般来说,对大量纸质档案进行数字化处理,首先要将待数字化的档案从档案仓库搬到临时周转仓库;然后,数字处理人员从周转仓库接收文件进行数字化。无论前者或后者,数字化处理人员都必须按预定计划提出申请,经审批后,向双方移交档案,登记并完成交接手续。(2)目录数据准备根据《档案著录规则》(DA/T18-1999)的要求,规范档案的内容,包括确定档案的著录项目、字段长度和内容要求。然后,建立一个用于数字文件检索的目录数据库。数据库建设可以利用原有纸质档案的编目基础。如果原始纸质文件目录存在错误或不规范,如标题、文件名、负责人、起止页码和页数等。,应该修改。纸质档案未建立机读目录数据库的,应按档案著录规则重新录入。(3)解除捆绑文件可以在去除绑定前逐一贴上条形码,以便在后续流程中通过识别条形码对扫描的文件进行准确高效的控制。条形码还可以为今后档案借阅和利用的管理提供方便。然后,工作人员一卷一卷、一页一页地检查档案。对缺失内容、遗漏内容、颠倒页码、珍贵破损档案进行登记,交档案保管机构妥善处理。对于不解除绑定会影响扫描工作的文件,应解除绑定。拆除装订时,应注意保护文件不受损坏。拆除装订后,应将原文件按顺序排列,并用夹子夹住,以防散落。对于历史悠久,纸质条件差,不方便拆封的,可以使用零页边距扫描仪进行扫描。(4)区分扫描件和非扫描件。根据要求,将同一案卷中的扫描件和非扫描件分开,剔除无关和重复件。(5)页面修剪纸张的质量与扫描仪的选择和扫描效果有关。因此,对于破损严重、褶皱不平、字迹模糊的档案,必须分别登记处理。比如折叠的文件可以熨烫;对于被污染的纸张,可以在通风的环境下用软刷轻轻刷掉漂浮的灰尘、污垢或霉菌;必须修复损坏和不完整的文档。(六)备案登记将整理后的原始文件移交给扫描人员,制作并填写纸质文件数字化处理交接登记表,详细记录整理后每个文件的起始页码和页码。(七)装订、修复和归还扫描工作完成后,已拆除的档案应按档案保管要求重新装订。恢复装订时,要注意保持文件的排列顺序不变,做到安全、准确、不遗漏。更换严重损坏的辊和箱。装订人员会在装订好的文件上加盖专用印章和专用数码印章。文件的数字处理和重新装订完成后,应进行清点。清点无误后,交回档案管理部门,办理档案归还手续。2文件扫描(1)扫描设备的选择根据文件格式的大小(A4、A3、A0等。),选择相应规格的扫描仪。大幅面文件可以用宽幅扫描仪扫描,缩微后用胶片数字转换设备扫描,小幅面扫描后用图像拼接。纸张状况不好、太薄、太软或太厚的文件,以及多色页面的文件,都可以用普通平板扫描仪扫描。纸张条件好的A4、A3文件可以用高速扫描仪扫描,提高工作效率。不适合拆包的文件可以用零页边距扫描仪扫描。(2)扫描颜色模式的选择通常,有两种扫描颜色模式:一种是扫描形成黑白二值图像。这种图像只有黑白两级,没有过渡灰度。其特点是黑白分明,字迹清晰,文件容量小。它适用于扫描笔迹清晰、线条清晰的文本或图形文件。二是扫描形成连续色调的静态图像。这类图像分为灰度图像和彩色图像。灰度图像由从最暗的黑色到最亮的白色的不同灰度组成。灰度表示一幅图像从亮部到暗部的层次,也叫色阶。灰度越高,层次越丰富,文件容量越大。灰色模式适合扫描黑白照片和图像文件,色阶的选择要适中,只要不影响画质即可。颜色模式中的颜色数量表示颜色的范围。颜色越多,图像越生动真实,文件容量越大。同样,色号的选择也要适度,不是越多越好。彩色模式适用于扫描文件或页面上带有红色抬头和印章的彩色照片文件。需要永久保存或长期保存,或移交国家档案馆的档案,一般应采用彩色模式扫描。(3)扫描分辨率扫描分辨率参数的选择原则上是基于扫描图像的清晰度和完整性,不会影响图像的利用效果。黑白二进制、灰度、彩色模式扫描文件时,分辨率一般建议大于等于200dpi。特殊情况下,如文字小、文字密、清晰度差等。,分辨率可以适当提高。对于需要OCR汉字识别的文件,扫描分辨率建议选择300dpi。(4)光学字符识别处理目前OCR技术已经相当成熟,一般扫描仪都有自己的OCR软件,使用起来也非常方便。但是OCR的识别准确率往往不尽如人意,影响检索效果。手动修改稿件中的错别字很麻烦。因此,提高OCR识别率是档案数字化中的一个重要问题。其实只要注意以下几点,就可以明显提高OCR识别率:一是选择合适的扫描分辨率。过低的扫描分辨率往往会导致OCR识别率下降,过高的分辨率则会使图像文件过大,降低识别速度。在实际 *** 作中, *** 作者可以通过查看OCR识别后生成的文本中红色错别字的数量(如小于3%)来判断可接受性,决定是否以此分辨率扫描,进行OCR识别。二是尽量黑白二进制模式扫描。用扫描仪扫描文档时,OCR通常接受灰色或黑白二进制模式,不接受彩色模式。如果稿件的印刷质量好,可以采用灰色模式,否则应采用黑白二进制模式。扫描时,您可以手动调整黑白阈值的大小。如果黑白二值图像上的文字轮廓不完整,适当增加阈值。如果文本的轮廓太粗,说明信息冗余较多,可以适当降低阈值。这样调整后形成的黑白二值扫描图像可以达到更好的OCR识别效果。第三,在进行OCR识别时注意字符的倾斜校正。OCR识别允许文档轻微倾斜,但过度倾斜会影响识别率。校正方法是在扫描软件上点击倾斜校正按钮,识别软件会在OCR识别前自动校正图像。四是稿件识别前的预处理。去除稿件中的杂物和,因为杂物会干扰文字识别,无法识别,会影响OCR的文字分割。针对稿件中的栏目,建议手动设置栏目区域,即用多个方框选择要识别的文字,然后进行OCR识别。五是采取适当的识别方法。简体和繁体稿件混杂,中英文稿件识别率往往较低。如果简体和繁体中英文分块分布,可以用图像处理软件将不同的文本块编辑成文本块相似的文件,然后分别用OCR识别不同的字符。(5)扫描注册认真填写纸质文件数字化转换流程交接登记表,登记扫描页数,核对每份文件实际扫描页数与归档时填写的文件页数是否一致。如不一致,应注明具体原因和处理方法。3图像处理扫描完成后,获得的图像必须按要求进行技术处理,以纠正扫描文件与原始文件之间的偏差,使扫描文件更清晰、更规范。图像处理一般包括以下内容:(1)影像数据质量检查检查图像的偏斜、清晰度和失真。如果发现不符合质量要求,应对图像进行重新处理。当扫描的图像文件不完整或因 *** 作不当无法清晰识别时,应重新扫描;如有漏扫描文件,及时补扫描,正确插入图像;当发现扫描图像的排列顺序与原始文件不一致时,应及时调整。认真填写相关表格,记录质量检查结果和处理意见。(2)整改应该校正偏转图像,以便在视觉上感觉不到偏转。方向不正确的要旋转还原,符合阅读习惯。(3)去污影响图像质量的杂质,如黑点、黑线、黑框和黑边,应该去除。在处理过程中,应注意不要破坏文件的原始信息。(4)图像拼接扫描不同区域的大幅面文件形成的多幅图像应拼接合并成一幅完整的图像,以保证文件数字图像的完整性。(5)修剪彩色模式下扫描的图像应进行修剪,去除多余的白边,以有效减少图像文件的容量,节省存储空间。以上的整改、去污、修整等处理都可以根据肉眼手动完成。也可以使用专门设计的软件,预先进行一定的设置,然后由计算机自动处理。计算机处理当然效率高,但不如手工处理灵活。比如,一旦污渍的大小被设计得太小,电脑会自动把一些标点符号作为污渍去掉。因此,扫描图像的处理也需要采用手动和自动相结合的处理方式。4图像存储(1)存储格式以黑白二进制模式扫描的图像文件通常以TIFF(G4)格式存储。以灰色模式和彩色模式扫描的图像文件通常以JPEG格式存储。存储时压缩比的选择应以保证扫描图像易读性的前提下最小化存储容量为基础。提供网络查询的扫描图像,也可以存储为CEB,PDF或其他格式的文件。(2)图像文件的命名数字档案资源应以档案号或唯一标识符命名。用档案号命名数字档案资源的,按卷排序的,应按《档案号编制规则》(DA/T 13-1994)编制档案号,建议增加档案类别码作为类别号的子项;若按件排序,案卷号可采用“全宗号-案卷类别码年份-保管期限-机构(问题)码-件号-分件号”的结构。5目录数据库建设(1)数据格式选择目录数据库建设应选择通用数据格式,所选数据格式应能通过XML文档直接或间接交换数据。这个数据库的建立可以通过专门的档案管理系统或者扫描处理管理软件录入,也可以通过EXCEL专门设计的档案目录表录入,然后将数据导入档案管理系统。(2)档案描述根据《档案著录规则》(DA/T18-1999)的要求,建立档案目录数据库,录入档案目录数据。(3)目录数据的质量检查为保证数据的准确性,可采用“单机录入-人工校对”或“双机录入-计算机自动校对”的方法。无论是人工校对还是计算机校对,都要检查描述项目是否齐全,描述内容是否规范准确,如发现不合格数据,应进行修改或重新记录。6数据挂钩(1)汇总挂钩档案数字化转换过程中形成的编目数据库和影像文件,经质量检查合格后,通过网络及时加载到数据服务器进行汇总。目录数据库和镜像文件要避免慢且容易出错的手动挂接,尽量批量使用电脑自动挂接。只要将扫描的数字文件按照纸质文件的文件号进行命名,就可以通过编制挂钩程序或借助相应的软件,实现相关数字图像的自动搜索和相应电子地址信息的添加,从而实现批量、快速挂钩。(2)数据关联基于纸质文件目录数据库,从每个纸质文件扫描的一个或多个图像被存储为图像文件。将图像文件存储在相应的文件夹中时,需要仔细检查每个图像文件的名称是否与归档目录数据库中的文件号相同,图像文件的页数是否与归档目录数据库中的文件页数相同,图像文件的总数是否与归档目录数据库中的文件数相同。利用每个图像文件的文件名与该文件在归档目录数据库中的文件号建立一一对应的关系,为归档目录数据库与图像文件的自动批量连接提供了条件。(3)交接登记认真填写纸质文件数字化转换过程交接登记表,记录数据关联后的页数,检查每次文件关联后的页数与文件整理扫描时填写的页数是否一致。如不一致,应注明具体原因和处理方法。7数据接受检查所有已经采样数字化的数据,包括目录数据库、图像文件和数据挂钩的整体质量。当目录数据库和图像文件链接出现错误,或者目录数据库和图像文件中有一个不完整、不清晰、有错误时,抽检将标记为“不合格”。一个全宗文件,当数字转换质量抽检合格率达到95%以上(含95%)时,将被验收为“通过”。合格率=通过抽样检查的文件数/通过抽样检查的文件总数×100%。认真填写纸质档案数字化验收登记表。验收“通过”的结论必须经过审核签字才能生效。8数据备份完整、合格的数据应及时备份。为保证数据安全,备份载体的选择应多样化,可采用线上线下相结合的方式实现多套备份,并注意远程存储。还应该检查备份数据。备份数据的检查内容主要包括备份数据是否可以打开,数据信息是否完整,文件数量是否准确。数据备份后,应在相应的备份介质上做好标记,以便于查找和管理。填写纸质文件数字备份管理登记表。9数字结果管理应加强纸质档案数字化成果的管理,确保其安全性、完整性和长期可用性。提供纸质档案数字化成果在线检索利用时,应当有制作单位的电子标识,并根据具体情况采用可下载或不可下载的数据格式。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/12617960.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-26
下一篇 2023-05-26

发表评论

登录后才能评论

评论列表(0条)

保存