AI-OCR技術を活用し、高い精度で自治体保存文書をテキスト化し、検索可能に!
自治体には、大量の議事録や報告書などの文書記録があり、これらはまさに重要な資源です。これらの文書を手早くテキスト形式で利用できるようにすること、またはアナログ形式で残されている文書をデジタルテキストに復元することで、業務の効率が向上し、自治体の価値が高まります。
モルフォAIソリューションズの【FROG AI-OCR】は、複雑な文書のレイアウトや古い字体、画像内の文字を検索する機能までカバーしており、自治体が持つ隠れた可能性を引き出す手助けをしています。
株式会社モルフォAIソリューションズ
代表取締役社長 兼 CEO 神田 武 プロフィール
- 慶應義塾大学大学院理工学研究科 修士課程修了。在学中はコンピュータサイエンスを学び、NTTコミュケーション科学基礎研究所とのAIの基礎研究に従事。
- 卒業後三菱総合研究所に入社。コンサルタントとして調査研究等に従事。その後NTTデータ経営研究所および丸紅株式会社にて、コンサルタントやプロジェクトマネジャーとして複数のAIプロジェクトを成功に導いた。
- 2020年2月より株式会社モルフォAIソリューションズの創業に参画、2021年同社代表に就任。AIの事業化に取り組み、主に画像系AIの事業開発を推進。
―御社がAI-OCRの事業を始めたきっかけを教えてください
2021年に国立国会図書館様から「OCR処理プログラムの研究開発」(※i)というテーマで公示があり、入札を経て当社が受託したことです。同事業は、国立国会図書館様が提供されている「国立国会図書館デジタルコレクション」(国立国会図書館が所蔵するデジタル化資料等を検索・閲覧・視聴できるサービス)の全文検索用として、資料画像内にあるテキストを抽出できるOCRソフトウェア(「NDLOCR」と言います。)の開発。当時は、古い資料等が画像としてUPされていても、その中にある文字を検索することはできませんでした。
国立国会図書館様が保有する蔵書の中には、明治期から戦前にかけての近代活字資料も多く含まれています。市販のOCRでは、そもそも縦書きの日本語に対応できないものが多いですし、書籍ならではの2段組みや3段組みといった複雑なレイアウトの文書を正確に読み取ることも困難です。近代書籍には、頭註、割註、総ルビといった独特のレイアウトや、旧字旧仮名遣いの漢字、変体仮名など、現代では使われることの少ない文字種も多く発生します。実際のところ一般的なOCRが1900年以前の文書を読み込む際の精度はとても低く、従来はOCRでのテキスト化が諦められていた領域でした。
国立国会図書館様の委託事業であるNDLOCRの開発にあたっては、前述のような文書を正しく読むために、さまざまな年代の書籍・雑誌に適用できるよう、最新のディープラーニング技術を活用しました。結果として、開発1年目の段階で、1870年代から1960年代という100年間にかけて、どの年代の文書でも90%以上の精度を実現。その後2022年には、全文検索用を想定したNDLOCRに対して視覚障害者等の読み上げ用途にも利用できるよう追加開発を行うための国立国会図書館様の委託事業があり、入札の結果、当社が受託できたことからNDLOCRの追加開発事業も当社が担当しました。2022年度の事業終了時点では、新字新仮名遣いでも高い精度を達成しました(※ii)。NDLOCRは、国立国会図書館様がNDLラボ公式Githubでオープンソース(CC BY)として公開(※iii)しており、誰でも利用可能となっています。
(※i)国立国会図書館「令和3年度OCR処理プログラム研究開発
(※ii)国立国会図書館「令和4年度NDLOCR追加開発事業及び同事業成果に対する改善作業
(※iii)NDLOCRアプリケーションのリポジトリ
この国会図書館様が公開されたNDLOCRをコアエンジンとして、当社では商用AI-OCR 【FROG AI-OCR】を昨年から展開しています。
―【FROG AI-OCR】ならではの特長とは?
お手軽にOCR適用業務が行えるようNDLOCRの高精度なOCR処理に加えて、校正・テキスト出力機能も1つのパッケージとしてご提供しております。機能は全てクラウドで利用可能で、別のPCかつ複数台のPCで確認・修正作業を効率良く行うことが可能です。
NDLOCRをコアエンジンとしていますので、書籍や雑誌といった文書に対して高い精度を実現し、なおかつ近代文書にも対応可能であることです。もともとOCRの需要は高く市場自体も大きかったのですが、多くの商用OCRが強みとしているのは請求書や領収書といった「帳票」の読み取りでした。ほとんどの帳票資料は横書きで読み取りの対象も単語や短文なので、文書系のOCRとは全く別種の製品だと言えるでしょう。
文書は1枚あたりの情報量が膨大で縦書きの書面もありますし、2段組みや3段組みの文書では読み順も含めて正確に抽出しなければなりません。また、古い文書に対応するためには、旧字・旧仮名表記への対応も必要になります。
このような課題や著作権の問題もあって、文書系のOCRは帳票系のOCRと比較すると、なかなか市場が盛り上がらなかった分野とも言えます。ところが国立国会図書館様のNDLOCR開発事業の成果が公開されたことによって、ITメディアのニュースに掲載されたり、当社に国会議員の先生方が視察に来てくださったりして、認知と需要が高まっていったように感じています。現在では複数の自治体様や事業者様に当社の【FROG AI-OLR】を提供させていただいています。
―具体的な事例をお聞かせください
新しいものですと、沖縄県豊見城市様の事例がございます。「市が保有する広報誌などのアーカイブを全文テキスト検索したい」というニーズがあり、当社の【FROG AI-OCR】を導入していただきました。沖縄県は、かつての沖縄戦の影響で多くの資料が灰燼に帰されたことから、自治体はもちろん小さな団体でも発刊物の発行・出版に大変熱心なのだそうです。しかし、これまでは膨大な文書の中から「目的のものを見つけて活用する」ということが困難であったため、「検索」という目標を設定されたのでしょう。
【FROG AI-OCR】は、WEBブラウザ経由で誰でも利用できるように設計しています。お手元の資料をスキャンしてアップロードするとテキストが生成されます。
この製品は、スキャンした画像の上に透明のテキストを重ね合わせた「透明テキスト付きPDF」という形式で出力できるため、画像をあたかもテキストのように検索することが可能です。透明テキスト内にある検索キーワードの部分にハイライトが付き、わかりやすく表示されます。
そのほかにも多数の導入事例があり、滋賀県立図書館様には視覚障害者に向けた読み上げテキストの作成に【FROG AI-OCR】をご活用いただいています。順天堂大学様では、同製品を使って古い資料をテキストマイニングし、計量テキスト分析をはじめとした歴史研究に活かされているようです。旧字旧仮名の読み取りにも対応していることから、大学の先生方から同様の問い合わせが多く、最近ではイタリアのボローニャ大学様からもオファーがありました。
現在の【FROG AI-OCR】には、旧字旧仮名を新字新仮名に変換する機能が追加されています。透明テキスト付きPDFで画像内の文字検索ができても、旧字旧仮名を用いて正確に検索ワードを打ち込むことは困難だと言わざるを得ません。同製品では、旧字旧仮名から新字新仮名への変換機能を付与することによって、古い文書も現代の文書と同じように検索が可能なのです。
―検索機能によって、より記録や文書を有効活用できるようになりますね
はい。かなり昔の出来事や今まで知られていなかった事柄に触れる機会が増えるでしょうから、学術研究等への活用はもちろん、自治体様にとっては過去の歴史を紐解き資産化することにも繋がるのではないでしょうか。
これは自治体様に限ったことではありませんが、「検索」という部分へのニーズは非常に高いです。OCRの精度については現時点でかなりご満足いただいていますし、検索UIも開発当初より洗練されてきました。今は大量の活字資料が紙のまま眠っている状態なので、当社の【FROG AI-OCR】を使って活用の機会を得られたらよいなと思っています。
過去の記録を資産化し、有効活用する
―自治体には文書記録や書面ベースの日常業務が多いので、文書に特化したOCRの意義は大きいですね
議事録や報告書といった書類のほとんどが文書形式ですから、当社の【FROG AI-OCR】をはかなり使い勝手が良いと思いますし、業務効率化にも繋がると考えています。たとえば、市民からの問い合わせや過去の判例・事例等について記録を残していても、膨大な資料の中から目的の情報を探し当てるのは容易ではないでしょう。その検索精度が上がるだけで、かなり職員の皆さんの負担が減るのではないでしょうか。
これまで文書がOCRの対象になりにくかった背景の一つに著作権の問題もあったのですが、自治体の公文書は基本的に著作権フリーだと思うので、どんどんOCR化して検索できるようにした方がよいのではないかと思います。
―過去の記録をデータ化して残すことの重要性について
過去の記録を有効活用することや、自分たちの自治体のよさを知って高い解像度でPRしていくことは、非常に重要だと思っています。なぜなら、私は自治体が過去に経験してきたことを「資産」だと考えているからです。もちろん建物や文化財も貴重な資産なのですが、自治体の中で人々が活動してきたことの記録もまた、形あるものに匹敵する一つの資産であると言えるでしょう。
我々の【FROG AI-OCR】は、テキスト化はもちろんのこと、資料内の図版や写真を抽出することもできます。この機能を使って、それぞれの地域が昔どんな様子だったのか、その土地で人々がどんな営みをしてきたのかを、画像やテキストで再現してみる─。それは大変価値のあることだと考えています。
紙の状態で眠っている資料をテキスト化しておけば、その情報が無くなることはありません。たとえ今すぐには用途が思い浮かばなくとも、後々になって如何様にも活用できるのではないでしょうか。また、折に触れ「災害時に公文書や重要な記録が消失してしまった」といった話も耳にします。リスクヘッジの観点からも、デジタル化してきちんと残しておくことは、非常に大切なのではないかと思っています。
―【FROG AI-OCR】は、トライアルユースが可能と伺いました
はい。トライアルは期限を設けず、画像データ30枚分を無償利用いただけます。実際の製品と同じものを使っていただくので、お手元のデータを取り込んでOCR化すると、現物の操作性や機能、精度の高さを実感いただけるようなイメージですね。前述の「透明テキスト付きPDF形式」でダウンロードして、皆様の環境・ブラウザを使って検索することも可能なので、まずはトライアルユースで試していただけたらと思っています。
また、当社はAIカメラの事業も行っており、【みまもりAI:Duranta】という自社プロダクトを提供しています。最新の画像系AIを組み込んだAIカメラで、リアルタイムの映像をクラウド上に送ることが可能です。AIカメラは、製造業、小売・飲食業、ビル・不動産業、鉄道・建設業、介護施設等、幅広い業界で活用されています。あらゆる施設が対象となるので、自治体が運営している施設や公共スペースでも、安全管理や不審者対策等さまざまな観点でご活用いただけるのではないでしょうか。
―最後に、自治体職員さんへのメッセージをお願いします
自治体においては、日常の業務記録や古い資料のOCR化および検索のニーズが間違いなく存在すると思っていますし、AIカメラについても更に有意義にお使いいただける製品を開発中です。しかし、ベンチャー企業との連携や新しい取組に対して、心理的な側面も含めて数々のハードルがあるケースも少なくないかもしれません。
その一方で、沖縄県豊見城市様や滋賀県立図書館様をはじめとした自治体では、一連の先進的な取組自体が県内県外・市内市外へ向けてのアピールに繋がっていることも事実です。古い文書記録を自治体の資産として残したい、過去の記録や情報を有効に活用したい、AI-OCRやAIカメラを使って業務効率化を図りたい等、さまざまなご要望や課題に対して我々のソリューションをお役立ていただければと考えています。
AIカメラソリューション みまもりAI Duranta(デュランタ)