山田祥平のRe:config.sys

なんちゃって電子書籍の面目躍如

 電子書籍は読書の未来を大きく変えた。テキストのリフローなど、表示デバイスに応じたダイナミックな版面生成の実用性はもちろん、老眼ホイホイとでもいうべき柔軟性で、もう誰も読書という趣味を卒業する必要性がなくなった。50型の画面で文庫本を読めるなど誰が想像したろうか。だが、ここにきて、ちょっとした伏兵が見つかった。それがAIである。

電子書籍を自炊するデジタルのアナログ的手法による再デジタル化

 ソースネクストが興味深いサービスを開始した。その名も「0秒読書」だ。わざわざ、

「本製品は書籍をAIで活用するためのPDFを作成するソフトです。本製品単体で読書時間が0秒になることを意味するものではありません。また、すべての電子書籍に対応するものではありません」

というアラートが示されている。実に意味深だ。

 ネーミングの由来についてはよく分からない。何が0秒なのかもピンとこないのだ。でも、全体に目を通すのもウンザリするような長大な資料や評論、マニュアル類などから、ごく短時間でOCR処理した透明テキストを付加したPDFを生成できるのだから、自分の代わりに書物を読んでくれるソリューションということもできるだろう。AIに処理できるデータになれば、これまで以上に書物から得られる恩恵は大きなものになるはずだ。配信コンテンツにおいては特にそうだ。

 「0秒読書」はクラウドサービスとローカルアプリの組み合わせで提供される。1カ月間で4,980円、1年間で1万2,980円のサブスクリプションだ。

 かつて、紙の書籍を裁断してバラバラにし、ScanSnapなどのページスキャナを使って全ページをスキャンし、PDFにする行為を自虐的に「自炊」と呼んだ。当時としては手元の書籍をデジタル化するにはそれが最も手っ取り早かった。電子書籍コンテンツになるのを首を長くして待っていてもそれはなかなかかなわない。だったら自分でやるしかなかったのだ。

 0秒読書は、簡単にいえば、デジタル書籍を仮想的に裁断し、画面に表示されている版面をスキャンしてOCR処理を経た透明テキストを加え、機械可読の一般的なPDFを生成するソリューションだ。

 なぜ、そんなニーズが見出されたのかというと、その背景は実にシンプルだ。各種の電子書籍配信サービスは、本を読むという行為については素晴らしい環境を提供してくれているが、このAIの時代、AIに本を読んでもらって、その要約を教えてもらったり、リファレンスに記された説明を瞬時に見つけ出してもらったりするといった用途に使いたくなるのは当然だからだ。だが、その恩恵を享受するには配信サービスコンテンツでは無理という壁につきあたる。

 だからデジタルで買った本を、わざわざ「撮影」してPDFにする。一見すると先祖返りのようなこの不条理な行為は、実はAI時代の読書における「最強の武器」だ。かつての自炊の目的が「物理的な場所の節約」だったのに対し、現代の自炊は「思考の外部化」が目的だといえる。

電子書籍をキャプチャして透明テキスト付きのPDFに

 0秒読書のアプリは、最大化された電子書籍リーダーの前面にウィンドウを置くことで、リーダーのページ送りを自動的に行ない、画面に表示される各ページを順送りで撮影していく。そして、すべてのページの撮影が終わったところで、キャプチャ画像の確認後、PDFに変換する。

 撮影に要する時間は300ページで5分程度といったところだろうか。撮影後、それをPDFに出力する際にOCR処理をかけているようで、そちらの処理のほうがずっと長い時間を要し、版面のテキスト密度にもよるが撮影に要した時間の2~3倍を要する。

 できあがったPDFはまさに紙の書籍を自炊したのと同様の見事な「なんちゃって電子書籍」となっている。まさにスキャンそのものだ。画面にあわせたリフローもしない。人間が読むだけなら、元の電子書籍の方がずっといい。

 なぜ、こんなことをするのか。それはAIのためだ。

 PC画面上に表示された書籍や資料を自動的にキャプチャし、AIが解析しやすい透明テキストつきのPDFにすれば、ファイルをそのままAIに渡して処理させることができる。

 今回試した書籍は、紙での出版物として約244ページの新書を電子書籍コンテンツで配信しているもので、含まれていた文字数は約22万字程度だった。生成されたPDFは約112MBだったのだが、Geminiでは100MBを超えるPDFを読み込むことはできなかった。ChatGPTなら無料のものでも大丈夫だったし、有料のCopilotも普通に読み込んで要約をしてもらうことができた。GoogleのサービスでもNotebookLMは問題なく読み込んでくれた。

 当然、要約を読めば数分でコンテンツの概要を把握できるし、知りたいことを質問して答えさせることができる。つまり、スタティックなコンテンツが、インタラクティブなコンテンツになるわけだ。

適法でも規約には注意して著作者の権利を侵害しないようにしよう

 生成されたPDFは、撮影というか、画面表示をスクショしたものなのだが、たとえば縦書きテキストをそこから選択してコピペしようとすると1文字ずつ改行が入ってしまったりもする。また、いわゆるなんちゃって電子書籍として旅行ガイドなどをキャプチャさせてみたが、グレー一色のページで撮影を停止し、先に進まないなどの不具合もあった。こうした細かい使い勝手は、そのうち改良されていくことを期待したい。

 ちなみにキャプチャ後のデータをPDF化しようとすると、次のようなアラートが表示され、同意しないとPDFファイルの生成保存ができないようになっている。

作成されたPDFファイルには、お客様のアカウント情報などが自動で埋め込まれます。作成されたPDFファイルの無断アップロード、譲渡、配布や各電子書籍サービスの利用規約に違反する形での本製品の利用など、法令への違反や本製品利用規約への違反が確認された場合、当社は利用停止措置など(法的措置を含む)を行うことがあります。

 当たり前といえば当たり前のアラートだが、配信コンテンツのキャプチャという前代未聞のサービスだけに、サービス側としても慎重になっているのだろう。変なところでケチがついて、せっかくの便利が手の届かないところに行ってしまうという事態は回避したいところだ。

 そもそも著作物というのはコピーの購入であり、書籍や配信コンテンツデータそのものを購入するものではない。著作を読む、楽しむ、愛でる、結果として役立てるといった権利を購入するものだ。かといって、その権利を一時的にAIに与え、自分の代わりに解釈してもらい、別な形態でのデータを生成させるということが、著作者の権利を奪うことにはならないはずだ。それがダメなら読書中に大事なところをメモとして抜き書きするのもNGになってしまいそうだ。

 実際、自分が所有している紙の書籍を自分でスキャンする行為は適法だ。だが、データを不特定多数のユーザーと共有したり、自炊代行を利用したり、自分が所有していない本をスキャンしたりする場合は違法になる可能性がある。

 配信コンテンツをOCR処理してテキスト化し、AIに読み込ませる行為は、私的利用の範囲に限れば現在は基本的に適法だと解釈されているようだ。だが、今後は配信サービス側がこうした行為を利用規約で禁止してくる可能性もある。法律的には適法でも運用的にはアウトという場合があるわけだ。

 つまり、こうした行為は今のところ、自分自身が自分自身のために行なう限りは大丈夫そうだが、まさかのアカウント停止などのペナルティに遭遇しないように、サービスの利用規約にはあらかじめ目を通しておいたほうがよさそうだ。

 これほどまでにAIが浸透してきた時代である。Kindleなどのコンテンツサービス側も、その活用について正式な見解を表明してほしいとも思う。場合によってはKindleサービスで新世代のAlexaが生成AIとして要約などをしてくれるのもありかもしれない。安心安全に新たなテクノロジーを享受できるようになることを望んでいる。