AI-OCRは余命僅か！か？その鍵はPDFの進化が握る！

筆者の視点です。

・ＡＩ－ＯＣＲの現在の用途は
　・画像内の活字や手書き文字をＯＣＲ処理してデータ化します。
　・ＡＩの学習機能には
　　・文字認識の学習
　　・フォームの自動判別の学習
　　機能があります。
　・データ化時の精度は１００文字中5文字程度は間違うか、自信無し表示が出ます。
　　・この時、人間が目視して、補正してあげる必要があります。
　　　・ＡＩ－ＯＣＲとは言え、これは入力補助システムでしかないのです。
→　このような現実を踏まえて、ＡＩ－ＯＣＲの導入検討をされる企業があれば、次の事も合わせて比較調査してみてはいかがでしょうか。

PDFで、データ化されているもの※１は、すでに１００％正しいデータが入っているので、正しく扱えば※２間違う恐れが皆無と言えます。
※１：販売管理システムやＥｘｃｅｌからPDFを作成した場合などが相当します。
※２：それなりにPDFの専門家の知恵や経験を引き出すことが必要です。

次に
データ化されたPDFに基幹システム等で生成したXMLファイルを添付させることが可能です。
これは
見た目のPDF
と
データとしてのXML
が両方あるので
XMLデータで自動処理が可能となります。

【ＸＭＬとＨＴＭＬやＣＳＶを比較してみましょう】
ＨＴＭＬ：タグによって表示されるデザインが決まっていて、タグ記述は固定。タグそのものにデータの意味付けができないので、目視で何のデータかわからない。
ＣＳＶ：配列順に意味付けされるが、受け取る側のプログラムで取引先毎の変換が必要になる。
ＸＭＬ：タグが自由に設定でき、意味付けもできるので、目視で何のデータかわかる。

ＸＭＬの例
＜請求書＞
　＜製品＞
　　＜製品番号＞12345＜/製品番号＞
　　＜製品名＞ポロシャツ（白）＜/製品名＞
　　＜金額＞2500＜/金額＞
　＜/製品＞
＜/請求書＞

ＯＣＲもＡＩ全く不要で、ＰＤＦ内に添付されたＸＭＬで自動データ処理できます。

ＩＴ投資が可能な企業はＸＭＬでの全自動処理に期待しています。
対して、個人事業主や小規模企業は、見た目を重視するのでPDFがベターです。
そこでXMLデータを添付したPDFが重要になってきます。

更に、国際標準や日本国内での標準化が重要になってくるわけです。

今後は、この点を、書いていきたいと思います。

以上　参考になれば幸いです。

筆者紹介　益田康夫　関西大学商学部卒業　本籍地神奈川県　メアド　masuda@e-sol.tokyo
1984年に社会人になり、IT業界一筋ながら3回の転職を経て現在に至っています。
特に2008年のリーマンショック後の不況の影響を受けて、2010年6月末にリストラ退社して現本業のアンテナハウス株式会社 https://www.antenna.co.jp/ に入社しました。
Sun MicrosystemsやOracleを中心にしたITインフラから、IAサーバとしてのCompaqやIBMなどや、文書管理システムやポータルシステムを販売していた前職と、現在のアンテナハウスでのPDF技術や電子ファイルの変換技術などを中心にした、e-ドキュメントソリューションを探求してノウハウを習得してきました。
特に、2011年以降、個人で学習時間をひねり出して、文書情報管理士資格2級、1級、上級と最短記録でレベルアップさせ、更に国家資格の行政書士※、日商簿記3級を2015年までに取得しました。
行政書士とは、https://www.gyosei.or.jp/information/ をご覧ください。
筆者が経営する株式会社ｅ－ＳＯＬは2019年1月8日の設立されました。

2022年08月16日 12:29

株式会社e-SOL｜シニア起業支援・ITコンサル｜神奈川県藤沢市

AI-OCRは余命僅か！か？その鍵はPDFの進化が握る！

株式会社e-SOL

サイドメニュー

月別ブログアーカイブ

モバイルサイト