【字元辨識】 CharacterRecognition
【辭書名稱】圖書館學與資訊科學大辭典
字元辨識係將印刷數字、字母、標記等予以檢查與辨識,並藉閱讀機(ReaderMachine)轉換成機器可讀之語言。
閱讀機可自動將印刷或手寫字元直接轉換成電子代碼。
現代閱讀機常用作資料輸入設備以供科學與商業電腦使用,並提供通訊時訊息輸入使用。
運用在通訊(Communication)時,閱讀機可轉換印刷訊息或代碼,以供直接輸入通訊系統(CommunicationSystems)。
但這些代碼資訊僅暫時儲存,以便更有效地轉換輸入通訊系統。
字元辨識閱讀機設計各有不同,有些設計專門讀取模版印刷字元(StenciledCharacters),有些讀取浮雕字元如盲人點字,有些讀取字元以供製成導電黑印,有些專讀取磁帶墨印字元。
但後來均由光學字元辨識(OCR:OpticalCharacterRecognition)與光學閱讀機(OCRReaders)取代。
今日光學閱讀機主要可分成下列幾部分,如下圖:首先藉傳輸器(Transport)將印刷紙送至閱讀站,經光學掃描器(OpticalScanner)依據印刷字元,提供視訊(VideoData),資料處理器(DataProcessor)是一種聯結工作,提供視訊之處理與闡釋,決策站(DecisionSection)決定被掃描字元之本體與電子控制,譯碼器(Encorder)將決策結果轉換成機器語言。
一般而言,大多數現代閱讀機操作如下:文件上每一字元之影像經由閱讀台投射進入掃描器,掃描器依據每一字元及其背景,提供視訊。
為使機器易於控制,這些視訊必須特加處理,並且藉由電子信號相關或分析方式,將其與標準字元作比較。
最後決定每一字元之本體,並進行譯碼。
機器之功能與週邊設備隨各種廠牌不同差異很大,且機器之設計目的與績效也大不相同。
例如,有些機器僅能以低於1秒100字元之速度閱讀單一字體字元。
有些商用機器可以每1秒2,000字元速度讀取多種字體。
有一公司甚至可以每秒超過14,000字元之平均速度閱讀5種字體。
有些機器可閱讀一種文件之一行或兩行文字,有些可以無限長度閱讀每一文件每一行文字,而有些可閱讀全頁所有字元或選取其中片段閱讀。
轉自:http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary
|