紙質檔案數字化的基本流程及技術要求

發布時間:2017-05-24 16:44:08
一、概述

檔案是人類社會實踐活動的真實記錄,是國家寶貴的曆史文化財富。這些具有查考憑證作用、依據作用和參考作用的檔案,為社會發展中的管理、科研、生產等各項工作提供了重要支持和有力工具。對於各個企事業單位,檔案是其長期經營管理中形成的重要知識財富,是極其珍貴的原始資料和重要的信息資源。準確、係統、完整的檔案是單位工作的重要參考資料,是需要永久保存的珍貴材料。 隨著計算機應用技術、掃描技術、OCR技術、數字攝影技術(錄音、錄像)、數據庫技術、多媒體技術、存儲技術等信息科學技術的快速發展,產生了一種新型檔案信息化形態——檔案數字化加工。通過數字化加工各個環節的工作最終實現把各種傳統載體的檔案資源轉化為數字化的檔案信息,以數字化的形式存儲,網絡化的形式互相連接,利用計算機係統進行管理,形成一個有序結構的檔案信息庫,提升利用效率,實現資源共享。檔案數字化是數字檔案建設最根本的環節,傳統載體的檔案經高科技技術加工成數字檔案形式,利用計算機通過局域網、政務網、互聯網實現電子檔案的借閱、使用等功能,為迎接檔案信息服務新環境的挑戰,提高管理水平,提高檔案工作效率,增強檔案業務部門的服務水平,為檔案內部管理及麵向客戶服務提供高效率的全麵服務。檔案作為一項寶貴的信息資源,其重要性正日益凸顯出來,逐步提升信息科技為檔案工作提供技術支持,為社會主義經濟建設服務,助力社會主義精神文明建設。

二、基本原則

紙質檔案數字化的基本原則是實現檔案信息資源準確、高效、快捷地利用,使可以公開的檔案信息資源實現共享,不斷提升檔案社會利用價值。屬於歸檔範圍且應永久或長期保存的、社會利用價值高的檔案可列入數字化加工的範圍,並按照《中華人民共和國行業標準(DA/T 31—2005)紙質檔案數字化技術規範》對紙質檔案進行數字化加工。根據檔案幅麵的大小(如A4、A3、A0等)選擇相應規格的掃描儀等專業設備, 如工程圖紙采用0號圖紙掃描儀進行掃描;如遇紙張情況較差,紙質過薄、過軟或超厚的檔案,應采用平板掃描方式;紙張狀況好的檔案可采用高速掃描方式以提高工作效率。掃描加工過程中,應保證檔案原件的完好性,避免對檔案原件造成破壞,應保證檔案掃描圖像與原件一致、整潔、清晰。加強對紙質檔案數字化各環節的安全保密管理機製,確保檔案原件和數字化檔案信息的保密性和安全性。

三、基本流程及技術要求

綠巨人視頻app擁有多年從事檔案管理軟件研發以及檔案數字化加工服務的行業經驗,依照數字化加工實踐工作整理了紙質檔案數字化加工的基本流程和技術要求。紙質檔案數字化的基本環節主要包括:檔案整理、檔案掃描、圖像處理、質檢、圖像存儲、目錄建庫、數據掛接、雙層PDF輸出、數據備份、成果管理等。具體加工流程和技術要求如下:

(一)、檔案整理

在檔案掃描之前,根據檔案保管情況,應首先依照下述步驟對檔案進行適當的前期整理,並視需要做出標識,確保後續檔案數字化質量。

1、目錄數據準備

按照《檔案著錄規則》(DA/T18)等行業標準的要求,規範檔案中的目錄內容。包括確定檔案目錄的著錄項、字段長度和內容要求等。如發現錯誤或不規範的案卷題名、文件名、責任者、起止頁號和頁數等,應及時進行修改。

2、拆除裝訂

為順利進行掃描,應先拆除文件中的裝訂物。拆除裝訂物時應注意保護檔案完好性,避免損害檔案原件。

3、頁麵修整

對破損嚴重、無法直接進行掃描的檔案,應先進行修補、裱糊等技術修複工作;對折皺不平影響掃描質量的原件應先進行相應處理(壓平或燙平等)後再進行掃描。

4、檔案整理登記

製作並填寫紙質檔案數字化加工過程交接登記表單,詳細記錄檔案整理後每份文件的起始頁號和頁數。

(二)、檔案掃描
1、掃描方式

①根據檔案幅麵的大小(如A4、A3、AO等)選擇相應規格的掃描儀等專業設備,例如工程圖紙應采用0號圖紙掃描儀進行掃描; 
②普通A4紙質文件,采用高速掃描儀的自動進紙方式掃描; 
③紙質過薄、透明紙質文件(如信紙、便簽紙)采用平板掃描; 
④紙質過厚、照片等檔案采用平板掃描; 
⑤對文件頁麵貼有附屬小頁麵、紙張時,將大小頁麵單獨在平板中掃描。

2、掃描模式(紙質檔案掃描一般采用黑白、灰度和彩色三種模式)

①頁麵為黑白兩色,字跡清晰、不帶圖片的檔案材料,采選用黑白模式; 
②頁麵為黑白兩色,清晰度較差或者帶有圖片的檔案材料,以及頁麵多為彩色文字的檔案,采用彩色或灰度模式(視情況而定); 
③頁麵中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,采用彩色模式掃描。

3、分辨率選擇

①采用黑白、灰度模式掃描的文件,其分辨率建議選擇為150DPI; 
②采用24位為彩色模式掃描的文件,其分辨率建議選擇為200DPI;
③以上模式分辨率的設定以A4紙張為標準,其他規格紙張視情況調整; 
④掃描的線數、閥值、亮度、灰度、對比度等值可根據所掃描文件材料的清晰度進行適當的調整; 
⑤需要時可根據原件的清晰度適當調整掃描分辨率。如原件質量較差且尺寸較小,可適當提高分辨率;反之也可相應減少分辨率,增減的多少以掃描後圖像按原尺寸顯示後是否清晰為準; 
⑥粘貼折頁與表格的掃描要求:對於粘貼折頁,可用大幅麵掃描儀進行掃描,或先部分掃描之後再拚接;如有部分字體很小、字跡密集的情況,可適當提高掃描分辨率,選擇灰度掃描或彩色掃描,采用局部深化技術解決;對字跡與表格顏色深度不同的,采用局部淡化技術解決。

(三)、圖像處理

將掃描後的文檔保存為JPG/TIFF/PDF格式,再針對每份影像頁麵進行處理,以獲得最好的圖像質量,應確保圖像完整、端正、無扭曲、版麵無暗影、無幹擾信息,主要完成影像深處理,處理細節包括:去黑邊、去汙點、糾偏等,處理好的圖像保存格式為JPG、TIFF/PDF。

①糾偏:對掃描過程中出現的偏斜圖像進行整體糾正,包括自校和手校,保證數字圖像的偏斜角度小於1度(圖像偏斜不超過頁麵內半個文字); 
②旋轉:按方字方向將圖片旋轉至正確方向,沒有文字的圖片,判斷其方向後進行左旋、右旋、翻轉、旋轉等調整; 
③去汙:對圖像頁麵中出現的影響圖像質量的雜質,去除數字圖像中影響可識別度的雜質,如去除黑邊、多餘邊、汙點,文字中的黑點不用考慮; 
④刪除空白頁:將掃描後頁麵之間的多餘空白頁刪除; 
⑤拚接:對大幅麵檔案進行分區掃描形成的多幅圖像,應進行拚接處理,合並為一個完整的圖像,以保證檔案數字化圖像的整體性。

(四)、質檢

圖像質檢工作主要是對已完成圖像處理的檢查,對不合要求圖像須返回上一環節重新處理,出現以下情況應及時處理:

①由於操作不當,造成掃描的圖像文件不完整或無法清晰識別時,應重新掃描; 
②對圖像偏斜度、清晰度、失真度等進行檢查。發現不符合圖像質量要求時,應重新進行圖像的處理; 
③檢查圖像處理是否得當,有嚴重問題的應重掃,處理不當的應重新處理; 
④檢查掃描圖像頁碼順序是否與原文件一致,有無漏掃、多掃(重複)、紙張倒置等情況,如發現問題應視情況進行及時更正處理; 
⑤順序:如果頁碼不連續,與原文不一致,需對頁麵進行排序; 
⑥漏掃:將漏掃的頁麵重新掃描,並插入到正確的位置; 
⑦多掃:將多掃頁麵刪除; 
⑧倒置:不符合要求的需進行調整,保持與原文一致。

(五)、圖像存儲

圖像存儲工作中應特別注意圖像文件命名規則:紙質檔案目錄數據庫中的每一份文件,都有一個與之相對應的唯一檔號,以該檔號為這份文件掃描後的圖像文件命名。如遇多頁文件應使用該檔號建立相應文件夾,按頁碼順序對圖像文件命名。文件的保存格式為TIFF/PDF,圖片的保存格式為JPG,保存到指定的路徑,便於後期準確掛接入庫,與檔案管理軟件中的目錄建立一一對應的關係。之後再對數字化後的文檔進行批量處理,處理完將保存為PDF格式;最後將所有文檔批量轉換為可以複製、檢索利用的雙層PDF格式,然後進行光盤刻錄,確保刻錄好的光盤能正確地讀出,並做好標識標簽。

(六)、目錄建庫

按照《檔案著錄規則》(DA/T18)的要求進行著錄,建立檔案目錄數據庫。目錄建庫應選擇通用的數據格式。

(七)、數據掛接

檔案數字化轉換過程中形成的目錄數據庫與圖像數據庫,通過質檢環節確認為"合格"後,通過網絡及時加載到數據服務器端匯總。通過綠巨人app免費破解無限觀看數字檔案管理平台軟件,可實現目錄數據對相關聯的數字圖像的自動搜索、加入對應的電子地址信息等,實現批量且快速掛接。

(八)、雙層PDF輸出、數據備份
1、雙層PDF輸出

對驗收合格後的文件應進行雙層PDF格式輸出。PDF格式具有雙層結構,即圖層和文字層,可以100%保留原始版麵效果,又可以通過下層的文字信息支持選擇、複製、全文檢索等功能。

2、數據備份

經驗收合格的完整數據應及時進行備份。進行一式兩份DVD光盤刻錄提交到客戶單位,著錄條目和全文數據向客戶單位數據庫遷移。移交前檢測光盤讀取性能,抽查刻錄好的光盤影像質量,主要包括備份數據能否打開、數據信息是否完整、文件數量是否準確等。不合格的需重新刻錄。數據備份後應在備份介質上標注好盤內文件內容、類別、存入日期及光盤編號等,以便後期的查找和管理工作,對保密的文件應標明密級。

(九)、數字化成果管理

①前述工作完成後可選用在線和離線方式,配合相應的軟件對數字化成果進行管理; 
②應加強對紙質檔案數字化成果的管理,確保其安全、完整和長期可用; 
③紙質檔案數字化成果提供網上檢索利用時,應有製作單位的電子標識,並根據具體情況分別采用可下載或不可下載的數據格式。