加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • Part 01、?什么是OCR?
    • Part 02、?OCR技術(shù)原理?
    • Part 03、OCR常用評(píng)估指標(biāo)?
    • Part 04、應(yīng)用和展望?
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

五分鐘技術(shù)趣談 | ocr識(shí)別原理和場(chǎng)景應(yīng)用淺析

2023/12/26
5997
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:溫少雄,單位:中國(guó)移動(dòng)智慧家庭運(yùn)營(yíng)中心成都業(yè)務(wù)支持中心

日常生活的截圖提取、拍照搜題,都用到了文字識(shí)別領(lǐng)域占據(jù)重要地位的OCR(光學(xué)字符識(shí)別)技術(shù)。近些年來得益于AI技術(shù)的井噴式發(fā)展,OCR進(jìn)入新的發(fā)展紀(jì)元,本篇主要介紹目前OCR的主流實(shí)現(xiàn)方案和評(píng)估指標(biāo)。

Part 01、?什么是OCR?

OCR(光學(xué)字符識(shí)別)是計(jì)算機(jī)文字識(shí)別的一種方法,利用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)將印刷或手寫在紙張等介質(zhì)的文字影像轉(zhuǎn)換成準(zhǔn)確可讀的文本格式,供計(jì)算機(jī)識(shí)別和應(yīng)用。OCR識(shí)別是實(shí)現(xiàn)文字內(nèi)容快速錄入計(jì)算機(jī)的關(guān)鍵技術(shù),在現(xiàn)代生活各行各業(yè)中得到越來越廣泛的應(yīng)用。

Part 02、?OCR技術(shù)原理?

OCR技術(shù)主要分為傳統(tǒng)OCR和深度學(xué)習(xí)OCR兩個(gè)流派。

在OCR技術(shù)發(fā)展早期,技術(shù)人員使用如二值化、連通域分析和投影分析等圖像處理技術(shù),結(jié)合統(tǒng)計(jì)機(jī)器學(xué)習(xí)(如Adaboost和SVM)來提取圖像文本內(nèi)容,我們將其統(tǒng)一歸類為傳統(tǒng)型OCR,其主要特征在于依賴繁雜的數(shù)據(jù)預(yù)處理操作來對(duì)圖像進(jìn)行矯正和降噪,面對(duì)復(fù)雜場(chǎng)景適應(yīng)性較差,準(zhǔn)確率和響應(yīng)速度也不盡如人意。

得益于AI技術(shù)不斷發(fā)展,基于端到端深度學(xué)習(xí)OCR技術(shù)逐漸成熟,該方法優(yōu)勢(shì)在于無需明確地引入圖像預(yù)處理階段中的文字切割環(huán)節(jié),而是將文字識(shí)別轉(zhuǎn)化為序列學(xué)習(xí)問題,使文字分割融入深度學(xué)習(xí)中,對(duì)OCR技術(shù)完善和未來發(fā)展方向具有重要意義。

2.1 傳統(tǒng)OCR識(shí)別流程

傳統(tǒng)OCR技術(shù)處理流程圖如下:

圖像預(yù)處理:文本影像經(jīng)過設(shè)備掃描之后進(jìn)入預(yù)處理階段,由于各種文本介質(zhì)存在干擾因素,如紙張的光潔度和印刷質(zhì)量,屏幕的光線明暗等都會(huì)造成文字畸變,因此需要對(duì)圖像進(jìn)行亮度調(diào)整、圖像增強(qiáng)和噪聲濾波等預(yù)處理手段。

文本區(qū)域定位:對(duì)于文本區(qū)域進(jìn)行定位提取,方法主要包括連通域檢測(cè)和MSER檢測(cè)。

文本圖像矯正:對(duì)于傾斜文本進(jìn)行矯正,確保水平,矯正的辦法主要包括水平矯正和透視矯正。

行列單字切分:傳統(tǒng)的文本識(shí)別都是基于單字符的識(shí)別,分割方法主要利用連通域輪廓和垂直投影切割。

分類器字符識(shí)別:運(yùn)用HOG、Sift等特征提取算法對(duì)字符進(jìn)行向量信息提取,使用SVM算法、邏輯回歸、支持向量機(jī)等進(jìn)行訓(xùn)練。

后處理:由于分類器的分類不一定完全正確,或者在字符切割過程當(dāng)中存在失誤,所以需要基于統(tǒng)計(jì)語言模型(如隱馬爾科夫鏈,HMM)或者人為提取規(guī)則設(shè)計(jì)語言規(guī)則模型對(duì)文本結(jié)果進(jìn)行語義糾錯(cuò)。

2.2 深度學(xué)習(xí)OCR

當(dāng)前主流的深度學(xué)習(xí)OCR算法將文本檢測(cè)和文本識(shí)別兩個(gè)階段分別建模。

文本檢測(cè)分為基于回歸的文本檢測(cè)法和基于分割的檢測(cè)方法,回歸檢測(cè)法主要有CTPN、Textbox和EAST等算法,能檢測(cè)圖像中帶方向的文字,但是會(huì)受到文本區(qū)域不規(guī)則的影響;基于分割的檢測(cè)法如PSENet算法,能處理各種形狀和大小的文本,但是距離較近的文本容易出現(xiàn)粘行,不同方法各有優(yōu)略。

文本識(shí)別階段主要使用CRNN、ATTENTION兩大類技術(shù),將文字識(shí)別轉(zhuǎn)化為序列學(xué)習(xí)問題,兩種技術(shù)在其特征學(xué)習(xí)階段都采用了 CNN+RNN 的網(wǎng)絡(luò)結(jié)構(gòu),不同之處在于最后的輸出層(翻譯層),即如何把網(wǎng)絡(luò)學(xué)習(xí)到的序列特征信息轉(zhuǎn)化為最終的識(shí)別結(jié)果。

還有一種最新的端到端算法直接將文本檢測(cè)和文本識(shí)別融合到單個(gè)網(wǎng)絡(luò)模型進(jìn)行學(xué)習(xí),如FOTS、Mask TextSpotter等算法,與獨(dú)立兩端法相比,識(shí)別速度更快,精度相對(duì)較弱。

2.3方案對(duì)比

傳統(tǒng)型識(shí)別 深度學(xué)習(xí)識(shí)別
底層

算法

文本檢測(cè)、識(shí)別分為多個(gè)階段和子過程,使用不同算法組合 模型以融合檢測(cè)和識(shí)別過程為目標(biāo),實(shí)現(xiàn)端到端
穩(wěn)定性 多階段整體穩(wěn)定性較差 端到端穩(wěn)定性較強(qiáng)
識(shí)別

精度

精度不高,小樣本傳統(tǒng)場(chǎng)景有一定優(yōu)勢(shì) 精度較高,融合越深精度逐漸降低
識(shí)別

速度

識(shí)別較慢 識(shí)別較快
場(chǎng)景

適應(yīng)性

弱,適用標(biāo)準(zhǔn)印刷格式 強(qiáng),兼容復(fù)雜場(chǎng)景,依賴模型訓(xùn)練
抗干擾 弱,對(duì)于輸入圖像要求較高 強(qiáng),依賴模型訓(xùn)練

Part 03、OCR常用評(píng)估指標(biāo)?

召回率:指OCR系統(tǒng)正確識(shí)別出的字符數(shù)量與實(shí)際字符數(shù)量的比例,用于衡量系統(tǒng)是否漏識(shí)別了一些字符。該值越高,表明系統(tǒng)對(duì)字符的覆蓋能力越好。

精確率:指OCR系統(tǒng)正確識(shí)別出的字符數(shù)量與系統(tǒng)總識(shí)別出的字符數(shù)量的比例,用于衡量系統(tǒng)的識(shí)別結(jié)果中有多少是真正正確的,該值越高,表明系統(tǒng)的識(shí)別結(jié)果更可靠。

F1值:綜合了召回率和精確率的評(píng)價(jià)指標(biāo),F(xiàn)1 值介于 0 到 1 之間,該值越高,表示系統(tǒng)在準(zhǔn)確率和召回率之間取得了更好的平衡。

平均編輯距離(Average Edit Distance):編輯距離用于衡量OCR識(shí)別結(jié)果和真實(shí)文本間的差異程度。

Part 04、應(yīng)用和展望?

OCR作為文字識(shí)別領(lǐng)域的主要分支之一,未來仍然有很廣闊的研究方向和發(fā)展空間。在識(shí)別準(zhǔn)確率方面,研究更智能的圖像處理技術(shù)和更強(qiáng)大的深度學(xué)習(xí)模型仍然迫切;在多語種多字體的覆蓋上要求識(shí)別更具有普適性,并增強(qiáng)復(fù)雜場(chǎng)景適配能力;在實(shí)時(shí)識(shí)別方面,尋找更多與虛擬現(xiàn)實(shí)技術(shù)增強(qiáng)現(xiàn)實(shí)技術(shù)相結(jié)合的應(yīng)用點(diǎn),如AR翻譯、文本數(shù)據(jù)的自動(dòng)糾錯(cuò)和數(shù)據(jù)校正等。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
KSZ8863FLL 1 Microchip Technology Inc DATACOM, LAN SWITCHING CIRCUIT, PQFP48
$5.57 查看
KSZ8863MLL 1 Microchip Technology Inc DATACOM, LAN SWITCHING CIRCUIT, PQFP48

ECAD模型

下載ECAD模型
$4.59 查看
KSZ9477STXI 1 Microchip Technology Inc IC ETHERNET SWITCH 7PORT 128TQFP

ECAD模型

下載ECAD模型
$18.04 查看
中國(guó)移動(dòng)

中國(guó)移動(dòng)

中國(guó)移動(dòng)有限公司(「本公司」,包括子公司合稱為「本集團(tuán)」)于1997年9月3日在香港成立,本集團(tuán)在中國(guó)內(nèi)地所有三十一個(gè)省、自治區(qū)、直轄市以及香港特別行政區(qū)提供通信和信息服務(wù),業(yè)務(wù)主要涵蓋個(gè)人、家庭、政企和新興市場(chǎng)的語音、數(shù)據(jù)、寬帶、專線、IDC、云計(jì)算、物聯(lián)網(wǎng)等,是中國(guó)內(nèi)地最大的通信和信息服務(wù)供應(yīng)商,亦是全球網(wǎng)絡(luò)和客戶規(guī)模最大、盈利能力領(lǐng)先、市值排名位居前列的世界級(jí)通信和信息運(yùn)營(yíng)商。

中國(guó)移動(dòng)有限公司(「本公司」,包括子公司合稱為「本集團(tuán)」)于1997年9月3日在香港成立,本集團(tuán)在中國(guó)內(nèi)地所有三十一個(gè)省、自治區(qū)、直轄市以及香港特別行政區(qū)提供通信和信息服務(wù),業(yè)務(wù)主要涵蓋個(gè)人、家庭、政企和新興市場(chǎng)的語音、數(shù)據(jù)、寬帶、專線、IDC、云計(jì)算、物聯(lián)網(wǎng)等,是中國(guó)內(nèi)地最大的通信和信息服務(wù)供應(yīng)商,亦是全球網(wǎng)絡(luò)和客戶規(guī)模最大、盈利能力領(lǐng)先、市值排名位居前列的世界級(jí)通信和信息運(yùn)營(yíng)商。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

移動(dòng)Labs是中國(guó)移動(dòng)的社交化新媒體平臺(tái),是面向外部行業(yè)及產(chǎn)業(yè)鏈合作伙伴的信息發(fā)布、業(yè)務(wù)發(fā)展和產(chǎn)業(yè)推進(jìn)門戶。