AI-OCRは余命僅か!か?その鍵はPDFの進化が握る!
筆者の視点です。・AI-OCRの現在の用途は
・画像内の活字や手書き文字をOCR処理してデータ化します。
・AIの学習機能には
・文字認識の学習
・フォームの自動判別の学習
機能があります。
・データ化時の精度は100文字中5文字程度は間違うか、自信無し表示が出ます。
・この時、人間が目視して、補正してあげる必要があります。
・AI-OCRとは言え、これは入力補助システムでしかないのです。
→ このような現実を踏まえて、AI-OCRの導入検討をされる企業があれば、次の事も合わせて比較調査してみてはいかがでしょうか。
PDFで、データ化されているもの※1は、すでに100%正しいデータが入っているので、正しく扱えば※2間違う恐れが皆無と言えます。
※1:販売管理システムやExcelからPDFを作成した場合などが相当します。
※2:それなりにPDFの専門家の知恵や経験を引き出すことが必要です。
次に
データ化されたPDFに基幹システム等で生成したXMLファイルを添付させることが可能です。
これは
見た目のPDF
と
データとしてのXML
が両方あるので
XMLデータで自動処理が可能となります。
【XMLとHTMLやCSVを比較してみましょう】
HTML:タグによって表示されるデザインが決まっていて、タグ記述は固定。タグそのものにデータの意味付けができないので、目視で何のデータかわからない。
CSV:配列順に意味付けされるが、受け取る側のプログラムで取引先毎の変換が必要になる。
XML:タグが自由に設定でき、意味付けもできるので、目視で何のデータかわかる。
XMLの例
<請求書>
<製品>
<製品番号>12345</製品番号>
<製品名>ポロシャツ(白)</製品名>
<金額>2500</金額>
</製品>
</請求書>
OCRもAI全く不要で、PDF内に添付されたXMLで自動データ処理できます。
IT投資が可能な企業はXMLでの全自動処理に期待しています。
対して、個人事業主や小規模企業は、見た目を重視するのでPDFがベターです。
そこでXMLデータを添付したPDFが重要になってきます。
更に、国際標準や日本国内での標準化が重要になってくるわけです。
今後は、この点を、書いていきたいと思います。
以上 参考になれば幸いです。
筆者紹介 益田康夫 関西大学商学部卒業 本籍地神奈川県 メアド masuda@e-sol.tokyo
1984年に社会人になり、IT業界一筋ながら3回の転職を経て現在に至っています。
特に2008年のリーマンショック後の不況の影響を受けて、2010年6月末にリストラ退社して現本業のアンテナハウス株式会社 https://www.antenna.co.jp/ に入社しました。
Sun MicrosystemsやOracleを中心にしたITインフラから、IAサーバとしてのCompaqやIBMなどや、文書管理システムやポータルシステムを販売していた前職と、現在のアンテナハウスでのPDF技術や電子ファイルの変換技術などを中心にした、e-ドキュメントソリューションを探求してノウハウを習得してきました。
特に、2011年以降、個人で学習時間をひねり出して、文書情報管理士資格2級、1級、上級と最短記録でレベルアップさせ、更に国家資格の行政書士※、日商簿記3級を2015年までに取得しました。
行政書士とは、https://www.gyosei.or.jp/information/ をご覧ください。
筆者が経営する株式会社e-SOLは2019年1月8日の設立されました。
2022年08月16日 12:29