ブログのコメントを投稿するときや、インターネットのサイト登録時などに、グンニャリ曲がった英単語画像を見て、英文字を入力させられたことがある人は多いはず。これは、CAPTCHAという名称の技術。発信された情報が、人間からなのか、コンピュータからなのかを区別するためのもので、主にスパムメールやコメントを排除するために使われており、画像認証とも呼ばれる。
米カーネギーメロン大学のLuis Von Ahn氏らにより名付けられたこの技術を、書籍のデジタル化支援に使おうという試みが、先月末から始まっている。
1日あたり約6000万件ものCAPTCHA認証
reCAPTCHAと呼ばれるヘルパーツールは、書籍をデジタル化する際に、OCR(印刷文字を光学的に読み取り、文字データ化すること)で読み取れなかった単語を、CAPTCHAの認証用画像に流用してしまおう、というもの。まず、読み損なった単語に、湾曲や線引きなどのエフェクトをかけ、 CAPTCHA用の単語画像データを作成する。CAPTCHA認証時には、従来の文字列画像に追加されて、この「読み損ない単語画像」が表示される。これらは、三人以上の別ユーザーが、同じ読みを入力した時点で、正しい単語と判断される。読み損ない文字は、意味を成す単語として保存されていき、書籍デジタルデータとして正しい文章が完成していく、というしくみだ。
この方式だと、ユーザーは二種類の単語の文字列を入力しなければならないが、まあ、一つ単語が増えたところで、せいぜい数秒余計に時間がかかるぐらいの負担だろう。Von Ahn氏によると、現在1日につき、約6000万件のCAPTCHA認証が行なわれているという。何万人もいるわけではない書籍のデジタル化を行なうチームが、読み損ないの単語を目視で判断して修正入力を行なうより、全然効率が良い。
reCAPTCHAは、同サイトで登録すると、無料で自分のサイト上で使用できるプラグインをダウンロードできる。Movable Typeなどのアプリケーション用や、PHP、Perlなどのスクリプト言語のためのプラグインが用意されており、誰でもこの書籍デジタル化を助けるプロジェクトに参加できるようだ。また、Google Codeにもオープンソースソフトウェアとして公開されている。
reCAPTCHAのように、インターネット上に分散する人的エネルギーを利用する技術やサービスは、今後も増えていくのだろう。一石二鳥なエコロジーな技術的発想はとてもユニークだ。モノと同様に、インターネット上でも単に生産する時代から、生産物の再利用や副産物を活用する時代に突入したようである。