DX番外編 | Webmagazine

社内報電子化について

社内報の印刷やめますと言われたときに

番外編・バックナンバーのPDF化をやってみた

PDFはデータベースとしても役に立っている

PDFが社内報電子化の一番手であることは述べましたが、それはPDFが日常的に使われている社内文書として汎用性が高いからです。

多くのクライアントでは社内基幹システムに置かれた多くの文書を一元的に管理する仕組みが導入されるようになってきました。

一つの使い方として、ある言葉を基幹システム上で入力すると、その文字列を含む文書が一覧できるようになっています。Yahoo検索の社内版です。
たとえば製品名等を入力すると過去から現在に至るすべての社内文書にアクセスすることができ、こうした機能は仕事を進めていく上での重要なデータベースとなることは想像に難くありません。

社内報も社内文書の一つですから、そのクライアントの広報はおよそ10年ほどの社内報のPDFをシステム上に置き、人名、製品名等を検索すると該当記事が読めるという仕組みを構築したところ、社内的にたいへん高い評価を受けたとのことです。

そうだスキャニングしよう

その広報は次の段階を模索しました。創刊からの全社内報のデータベース化です。
ところがPDFという仕組みが本格的に確立されたのは、21世紀に入ってからなのです。そして創言社が携わる以前の刊行物についてもPDFがありません。約250号のうち200号分がないのです。

過去の冊子をデータ化する。この需要は少なくありません。国立国会図書館が取り組んでいますし、多くの企業が潜在的に望んでいると思います。

どうするか。現物があるならスキャニングと普通の編集者は考えます。

いくつかのマンガサイトが70年代80年代の作品を公開しています。当然DTPの時代ではありません。作者の手元に現物があればそれをスキャニングする。いや、それを探すのはかなり難しいことです。
当時の単行本ならある。「きれいにスキャニングしてPDF化する」。
だけど、キレイに ? 過去作品に時間をかけて? 貴重な現物だから切ったりできないよ?
そこでスキャニング専門業者の登場です。

非破壊スキャニングの誠勝

Webサイトを見てもらえばわかりますが、餅は餅屋という感じです。スキャニング専用の機器を備え、かなりのスピードでのPDF化を実現できそうです。

クライアントはやる気です。
こうしてバックナンバー192冊、総ページ数5300ページのPDFデータ化への旅が始まったのです。

スキャニングはできてもOCRの壁が高い

見積を取ってみたところ、非破壊スキャン（本を切らない）でページ@60円、5300ページで318,000円です。
納期もおよそ1カ月半ほど。さすがに専門業者だけのことはあります。
創言社からは700,000円ほどの見積をクライアント提示してみました。

一旦はこれで落ち着いたかに見えました。ところがクライアントは（やはり）文字検索できるようにしたいと言うのです。それはそうでしょう。過去10年分の社内報のPDFをデータベースにして便利だったということから始まった話なのですから。

スキャニングした書類は画像データです。そのままでは文字列として検索することができないのはご存知の通り。なのでOCRの出番です。Optical Character Readerの略で、文字の形を分析してデータ化するプログラムです。
「読んでココ」などが有名ですね。Google、Acrobat Proにもこの機能は付いています。やったことあるでしょう？

ところが、これらの認識力は信頼できません。ブとプ、1とl（小文字エル）、音引きと－（マイナス）、ェとエなどは高確率で誤変換します。プロジェクトをブロジエクトと変換されては、正しく検索されないでしょう。タイトル部分と本文部分が混在したデータになってしまうこともあります。

業者もこのあたりは考えていて、スキャニング精度を上げ、文字部分を順番通りに手作業でOCRをしていくというコースを提案されました。
1Pあたりの経費は、高精度スキャニング+高性能手動OCRでページ@700円となり、納期も3カ月半です。
1Pずつ時間をかけた作業であることを考えると妥当な金額な感じはしますが、350万円を超える経費です。これに創言社の利益を乗せなければなりません。
ただスキャニングだけなら70万円だったのに。いくらで見積を出せばいいのでしょう。