自然言語処理とは
一九八〇年前後、人工知能研究者の間ではバラ色の未来論が展開されていた。だが、スタンレー・キューブリック監督の映画「二〇〇一年宇宙の旅」の「ハル」に象徴されるような対話型人工知能の実現の前途にはとてつもない障壁が横たわっていることが判明、人工知能プロジェクトは大幅な後退を余儀なくされた。その最大の原因は自然言語処理システム開発の困難さにあった。自然言語処理とは、人間が通常のコミュニケーションに用いる言語をコンピュータに理解させたり生成させたりする技術のことで、人間がコンピュータと直接にコミュニケーションをとるためには不可欠なものである。自然言語処理の研究は、文字記号認識や音声認識の問題と言語の意味認識(セマンティックス)の問題とに大別される。文字記号認識技術は今日既に完成されてワープロや各種通信に多用され、音声認識技術のほうも近年ほぼ実用的な段階に到達している。だが、言語の意味認識の問題となると、その前途にある困難の大きさはいまだ計り知れない。
音声認識と音声合成
一九五二年に米国のベル研究所で始まった音声認識の研究は、京都大学の単音節認識装置「音声タイプライター」の開発へと繋がった。ゼロ交差数(音声波形グラフが中心のゼロ軸と交差する回数)をもとに音声波形のエネルギー量の近似値を算定し、そのデータから波形の特徴をコンピュータに推定させ音を割り出すのがその技術の基本だった。一九七〇年代に入ると日本とロシアでDPマッチング法(発声音の各音韻の継続時間の伸縮特性を標準化しておき、入力された音声の最近似パターンをコンピュータで検出、その音声を識別する方法)が提唱され、その方式により連続単語認識システムが開発された。いっぽう米国では確率統計学の手法を用いた音声認識研究が進み、一九八〇年代になるとその技術が単語音声認識の標準的手法となった。さらに一九九〇年代前半にかけて米国防省高等研究計画局が実施したプロジェクトでn-Gram法(n語間の各種関連データを確率統計学的にコンピュータ処理し、連続する音声を識別する手法)が開発され、大量語彙の連続音声認識と音声のテキスト化が可能になった。この時期になるとパーソナル・コンピュータの性能が飛躍的に向上したため、一九九八年、米国ではパソコン用の大量語彙連続音声認識用ソフトが発売され、日本でも日本語用ソフトが市販された。また、同じく確率統計学の手法に基づく音韻パターンの分類化が進み、音声合成に必要な基本音韻データを自動的に作成できるようになった。そのため、任意のテキスト文を合成音により音声化する技術も登場し、特定の人物の音質に近い合成音を生み出すシステムも実用化の段階に到達した。すでに国内外諸メーカーによって高精度の携帯電話音声認識システムも開発されている。ただ、深い思考の伴う「話し言葉」や複数者間の「会話音声」を認識する能力などは不完全だし、発声者の意図や置かれている状況を読み取ったり判断したりすることもまだできない。なお課題は多いが、それらの技術は、カーナビの音声入力、電話自動応答サービス、コンピュータ音声操作、データ入力、語学学習機器、各種自動装置等への応用研究が進み、さらに多方面にわたる発展的活用が期待されるため、情報通信事業各社はいっそうの技術開発とその実用化を競っている。
意味認識システムの実現を目指して
双方向の自動翻訳機能をもつ携帯電話で外国人と会話したり、音声自動翻訳器によって異国人同士が直接意思の疎通を図るには、言語の意味を機械的に認識する技術の確立が必要だ。だがその技術の開発は想像以上に難しい。各種の感情表現や意味に裏表のある多義的表現、ユーモアや諷刺につきものの屈曲した表現、特定の知識や状況を前提とする表現などの翻訳は、単なる単語や構文の置き換え、音声や音韻解析、構文解析などといったレベルの技術では処理不可能だからである。各種の膨大な言語関連データを収めたデータベースは存在するが、目的や状況に応じ、それらのデータを人間並みの自在さで機械的に操る方法がどうしても見つからない。研究論文や実務文のような論理的文章と違い自然言語というものは曖昧でいい加減なところが多い。だから、その言語を母国語とする者が聞いても自然に感じられるレベルの機械翻訳をおこなうのは至難の業なのだ。たとえば、ある男が「相手を激しく抱擁したい」という気持ちを込めて「お前を殺してやる!」と言ったとしてみよう。人間だったら前後の状況からそれは愛情表現だとすぐわかるのだが、コンピュータにそのことを理解させ、適切な翻訳を実行させるのは容易でない。「You shall die!」などとやられたら一巻の終わりである。こんな初歩的なことでさえも機械にとっては難しい。人間と人間をつなぐ翻訳システムの場合は多少問題があってもまだなんとかなるが、高度の自己学習や自己啓発、自己慰安に役立つレベルの対話型知的マシンの開発となると、その実現の困難さは音声翻訳システム開発の比ではない。まして人間並みの感情や理解力をもつハル型人工知能の実現となると、なお「夢のまた夢」といったところである。
日・英の機械翻訳研究に関しては、両国語間の言語距離が大きいため、まず構文まで詳細に解析する構文トランスファー方式が採用された。そして手始めに、人間の手による翻訳を支援するレベルの日英・英日翻訳システムが製品化された。その後、膨大な例文とその実翻訳文のデータベースを活用するコーパスベース翻訳技術が開発され、その性能は、TOEIC七百点前後(英語力中級クラス)以下の人が用いれば十分読解力の向上に役立つレベルにまでは到達している。実用的な携帯翻訳装置の開発には最低十年を要するというのが現在の技術の総合的考察に基づく予想だが、曲りなりにもそのシステムが実用化すれば言葉の障壁が低くなって国際的交流が促進されるし、高度の語学が必要な専門研究者以外の人々は、時間と労力と費用のかかる割に益の少ない語学学習から解放されることになる。ただ、語学教師の多くが失職し、各種語学学校が姿を消すという事態にはなるかもしれない。
意味認識や状況判断の可能なシステムの開発には人間の脳の認知プロセスや学習メカニズムの解明が不可欠で、その研究は今世紀の大きな課題の一つである。膨大なデータの解析と統合を必要とする仕事だから、諸研究機関による共有データベースの構築が望ましい。だが、研究機関相互に密接な連携のない日本の場合、技術も資金も人材も分散されてしまうので、個々の研究データの長期的な維持管理や高度化が難しく、折角の研究成果も次世代に継承されぬまま消滅してしまう。国内の情報科学分野にはポスドクなどの研究者が少ないため、壮大なプロジェクトに挑む力に乏しく、部分的な技術研究のみに終始しがちなところがある。同一目標早期実現のために国が複数の研究機関に資金を供与して競合させ、プロジェクト開始と同時に開発技術集約ための共有データベースを構築し、研究試作システムの性能の優劣を評価するということも必要だろう。一連の成果に関する知的財産権研究実施機関に移管し、各企業に技術移転すればよい。リスクはあるが斬新なアプローチ是とする研究理念の確立、換言すれば、「成功を当然とする守りの研究」から「失敗を恐れず真剣に競い合う攻めの研究」への転換を図り、プロジェクトの成果を次世代のプロジェクトへと発展継承するとともに、副次的成果を他分野にも広く活用する体制を整えるべきだろう。