發(fā)布時(shí)間:2024-01-24閱讀(13)
大家好,今天兌觀科技小編又為大家分享檔案管理干貨了,本篇分享主要內(nèi)容為——紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范篇一。

本標(biāo)準(zhǔn)規(guī)定了紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作的組織、實(shí)施和管理。本標(biāo)準(zhǔn)適用于字跡清晰、文本規(guī)范的紙質(zhì)檔案數(shù)字復(fù)制件的光學(xué)字符識(shí)別(OCR)工作。
2.規(guī)范性引用文件下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
DA/T13-1994檔號(hào)編制規(guī)則
DA/T22-2015歸檔文件整理規(guī)則
DA/T31-2017紙質(zhì)檔案數(shù)字化規(guī)范
3.術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。
3.1 字符 character
供組織、控制或表示數(shù)據(jù)用的元素集合中的一個(gè)元素。[GB18030-2005,定義4.1]
3.2 字符集 character set
多個(gè)字符的集合。
注:常見(jiàn)字符集有ASCL字符集、GB2312字符集、BIG5字符集、GB18030字符集、 Unicode字符集等。
3.3 光學(xué)字符識(shí)別 optical character recognition;OCR
通過(guò)信息技術(shù)對(duì)圖像文件中的字符形狀進(jìn)行識(shí)別、文字轉(zhuǎn)換和文本輸出、呈現(xiàn)的過(guò)程。
3.4 紙質(zhì)檔案數(shù)字復(fù)制件 digital copy of paper-based record
紙質(zhì)檔案經(jīng)過(guò)數(shù)字化加工過(guò)程后形成的,存儲(chǔ)在磁帶、磁盤、光盤等載體上并能被計(jì)算機(jī)等電子設(shè)備識(shí)別的數(shù)字圖像。
3.5 檔案OCR成果 OCR outcome of record
記錄通過(guò)OCR技術(shù)獲取的紙質(zhì)檔案數(shù)字復(fù)制件文字內(nèi)容的文件。
3.6 識(shí)別準(zhǔn)確率 recognition accuracy
通過(guò)OCR技術(shù)識(shí)別正確字符的比率。
注:識(shí)別準(zhǔn)確率=(識(shí)別正確字符數(shù)/應(yīng)識(shí)別字符總數(shù))×100%
3.7 識(shí)別速度 recognition speed
單位時(shí)間內(nèi)通過(guò)OCR技術(shù)識(shí)別字符的數(shù)量。
4.總則4.1 檔案OCR應(yīng)當(dāng)納入數(shù)字檔案館(室)資源建設(shè)范疇,統(tǒng)籌規(guī)劃,有序?qū)嵤鸩綄?shí)現(xiàn)常態(tài)化。
4.2 檔案OCR應(yīng)當(dāng)科學(xué)開展,以有利于實(shí)現(xiàn)檔案信息檢索和計(jì)算機(jī)輔助目、研開發(fā)、數(shù)據(jù)挖掘?yàn)樵瓌t。
4.3 檔案OCR應(yīng)當(dāng)基于檔案數(shù)字化工作,檔案OCR成果與紙質(zhì)檔案數(shù)字復(fù)制件之間應(yīng)建立準(zhǔn)確、可靠的關(guān)聯(lián)關(guān)系。
4.4 應(yīng)當(dāng)采取有效的管理和技術(shù)手段,加強(qiáng)檔案OCR的過(guò)程管理和質(zhì)量控制,確保檔案OCR過(guò)程規(guī)范、成果可靠、數(shù)據(jù)安全。
4.5 涉密紙質(zhì)檔案數(shù)字復(fù)制件的OCR工作,應(yīng)符合涉密檔案相關(guān)的管理和技術(shù)要求。
若想了解更多關(guān)于檔案管理最新動(dòng)態(tài),請(qǐng)參考兌觀科技官網(wǎng)。
歡迎分享轉(zhuǎn)載→http://m.avcorse.com/read-221312.html
Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號(hào)-5 TXT地圖HTML地圖XML地圖