«前の日記(2012年09月07日 (金)) 最新 次の日記(2012年09月09日 (日))» 編集

ゆいどっと


2012年09月08日 (土) [長年日記]

_ ADFでOCR

データの一覧表を紙で渡された.ページ数が多く,また行間が狭いのか文字と罫線が近いのか,入力のために見ているととても目が疲れてきた.たぶんExcelで印刷したと思われるが,どうせならそのファイルくれりゃいいのになと思う.とりあえず何とか入力しなきゃいけないので,そういえばFAX複合機に添付のソフトでOCRできたはずと試してみた.

スキャンはADFなのでラク.というか初めて使った気がする.が,文字の認識はまぁこんなもんかと思うけど,表組みがうまく認識できず変なところで改行してしまう.罫線を文字の一部と見てしまうのか,1行分の文字列が認識データでは2~3行にまざったデータとなるところがある.こりゃチェックもしにくくて役に立たない.

目的のデータとしては数字と記号が読めればなんとかなりそうだったので,読み込む範囲を手動で決めて文字種を数字と記号に限定したら,それなりに認識率が高まった.面倒だけどページごとに範囲指定,認識,書きだしをやってなんとかなった.これ,複合機の添付品じゃなくて製品版ならもうちょっと認識率上がるのかなぁ.まぁめったにつかうわけじゃないからもういいか.