AI OCRはモデルだけでは決まらない:
FAX帳票で必要だった後処理とGuard設計
AI OCRの検証では、どうしてもモデル名や精度比較に注目が集まります。ただ、FAX帳票を業務で使う場合、モデルの出力をそのまま基幹システムへ流すのは危険です。
SP-FAXの検証でも、最新モデルが住所や備考をよく拾う一方で、明細を拾いすぎる、店コードが落ちる、商品名に不要な文字が混ざる、といったケースがありました。つまり必要なのは、良いモデルを選ぶことに加えて、危ない結果を止めるGuardと後処理を持つことです。
※ 本記事は匿名化した検証結果をもとにした設計メモです。実際の顧客名、帳票名、住所、電話番号、商品名は公開していません。
Guardで止めたい代表的なエラー
明細の過抽出
本来の注文行以外に、ヘッダーや注記まで明細として出てしまう状態。件数が増えるため、人手確認なしで連携すると危険です。
店コード・取引先コード欠落
数量や商品名が読めても、どの店舗・取引先の注文か確定できなければ業務処理できません。
数量・単位の不整合
数量が空、単位が商品名に混ざる、合計と明細が合わないなど、後続処理で事故につながるパターンです。
ページまたぎの取りこぼし
複数ページ帳票で2ページ目以降の明細や備考が落ちると、見た目には成功でも実務上は未完了です。
1. 帳票種別を先に判定する
注文書、納品書、請求書、出荷指示書では、見るべき項目が違います。同じAIモデルでも、帳票種別を指定せずに「全部読んで」と投げるより、先に帳票種別を判定し、その種別に合った抽出指示を使う方が安定します。
SP-FAXでは、軽量モデルやルールで帳票種別を先に見てから、型別OCRへ進める設計を取っています。これにより、請求書の合計欄を注文明細として拾うような混線を減らせます。
2. ページ分割して、怪しいページだけ再OCRする
長いFAXを一括で処理すると、出力が長くなり、明細の途中切れやページ後半の取りこぼしが起きやすくなります。そこで、ページごとに役割を判定し、注文明細ページ、表紙、控え、注意書きなどを分けて扱います。
- PDFをページ単位に分ける
- 各ページが明細ページか、補足ページかを判定する
- 明細ページだけを構造化対象にする
- 行数や必須項目が怪しいページだけ高精度モデルで再OCRする
これにより、全ページを高精度モデルへ回さずに、必要な部分だけ精度を上げられます。
3. 行数・必須項目で機械的にチェックする
AIの出力は自然文としては正しそうに見えても、業務データとして足りないことがあります。そのため、OCR後に次のようなチェックをかけます。
| チェック | 見る内容 | 扱い |
|---|---|---|
| 必須項目 | 取引先、店舗、品番、数量など | 不足時はレビュー対象 |
| 明細数 | 過去傾向やページ上の行数と比べて極端に多い/少ないか | 異常時は再OCR候補 |
| 数値形式 | 数量、金額、日付が想定フォーマットか | 正規化または確認待ち |
| マスタ照合 | 品番、店舗、取引先が登録済みマスタに存在するか | 候補提示または辞書登録 |
4. マスタ補完で「読めた文字」を「使えるコード」に変える
FAX OCRでは、文字を読めても業務コードに変換できなければ意味がありません。たとえば店舗名が読めても、基幹システムで使う店舗コードに紐づかなければ、受注データとしては未完成です。
SP-FAXでは、取引先マスタ、店舗マスタ、商品マスタ、品番エイリアスを組み合わせて、OCR結果を業務コードへ寄せます。AIが迷った場合は候補を出し、人が選んだ結果を次回以降の辞書に反映します。
5. レビュー画面に「直すべき理由」を出す
確認作業を減らすには、すべてのOCR結果を人に見せるのではなく、危険なものだけを分かりやすく出す必要があります。Guardで検知した理由が分かれば、担当者はどこを見ればよいか判断しやすくなります。
レビュー理由:
- 店舗コードが未確定
- 明細数が通常より多い
- 数量が空の行がある
- 住所/TELが不足している
このように理由を表示すると、確認担当者は全体を読み直さずに、問題のありそうな箇所だけを見られます。
まとめ: モデル更新より、運用設計まで含めて改善する
最新モデルを試す価値はあります。実際、住所・TELや周辺情報の抽出では新しいモデルが強い場面もあります。ただし、FAX OCRを業務に入れるなら、モデルの出力を守る仕組みが必要です。
SP-FAXでは、モデル選定、帳票種別判定、ページ分割、Guard、マスタ補完、レビュー画面を組み合わせて、精度とコストのバランスを取っています。AI OCRの品質は、モデル名だけではなく、その後ろにある業務設計で大きく変わります。
関連記事
OCR結果の確認作業を減らせます
SP-FAX OCRは登録後50枚無料。実際のFAX/PDFで、読取から確認・CSV出力まで試せます。
50枚無料で試す