図面 (/)

技術 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム

出願人 株式会社東芝東芝デジタルソリューションズ株式会社
発明者 牧野恭子後藤和之古畑彰夫吉田篤弘宮部泰成
出願日 2015年3月6日 (6年3ヶ月経過) 出願番号 2015-044661
公開日 2016年9月8日 (4年9ヶ月経過) 公開番号 2016-164724
状態 特許登録済
技術分野 検索装置 機械翻訳 文書処理装置
主要キーワード 推定ルール 音声入力ユニット 人名リスト 判断指標 非専門家 用語リスト 音声認識処理結果 形態解析
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年9月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

辞書へ追加する表記に関する知識として、表記に対する読みの候補を予め設定された情報内に制限されることなく提示できるようにする。

解決手段

実施形態によれば、語彙知識獲得装置は、形態素解析手段、複合語抽出手段、未知語抽出手段、未知語関連情報付与手段、略称推定手段、正式表記候補付与手段、及び結果出力手段を有する。未知語抽出手段は、構築済み辞書に登録されていない未知語を抽出する。未知語関連情報付与手段は、未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として未知語に付与する。正式表記候補付与手段は、複合語から生成された略称と未知語とが一致する場合に、略称の生成元とする複合語を正式表記候補として未知語に付与する。結果出力手段は、未知語と未知語関連情報と正式表記候補を合わせて、辞書追加登録効果の高い順に並べて出力する。

概要

背景

近年、人間が発した音を認識して文書に記録したり、画面に表示したりする音声認識システムが使用されている。音声認識システムで認識精度を向上させるためには、正しく認識できない語彙の読み、表記品詞などを辞書に追加することが有効である。ここで、正しく音声認識をするとは、入力された音声信号に対して正しい読みと表記を割り付けることである。

正しく認識できない語彙は、音声認識をした結果を見て判断するばかりでなく、新しく音声認識システムを作成する時に、音声認識システムを使う場面に合わせて、音声認識用構築済み辞書にない語彙でよく使うものを予想して予め音声認識辞書に追加する場合がある。

この場合、音声認識システムは、音声認識を使う場面に関係する書類用語リストから、構築済み辞書にはない語彙、すなわち未知語の表記を選んで、品詞や読みの情報を付与して辞書に登録する。

従来では、未知語の表記に正しい読みの情報を付与するために、次のような未知語に対する読みを抽出する方法がある。例えば、事前に用意された読み判断用辞書やルールを参照し、読みを推定する技術がある。例えば、未知語に対して、未知語読み付け辞書を参照し、表記「ABC」には登録されている表記「A」「B」「C」に対応する読み「えー」「びー」「しー」を連結したものを読みとして付与する。また、読み確率記憶部に記録された二つのテーブルを参照して条件付き確率最大となる読み候補を生成し、表記と読みのセットでWebを検索した結果得られたヒット件数から読み候補の優劣を判断し、優先度の高い読み候補を選択する。

さらに、同義語一種である略語原語(正式名称)の組み合わせをWeb検索結果から探索する技術がある。この技術では、略語が入力された場合に、略語の部分のみが異なる構文を抽出し、略語と同じ位置で使われている表現を原語(正式名称)と推定する。

概要

辞書へ追加する表記に関する知識として、表記に対する読みの候補を予め設定された情報内に制限されることなく提示できるようにする。実施形態によれば、語彙知識獲得装置は、形態素解析手段、複合語抽出手段、未知語抽出手段、未知語関連情報付与手段、略称推定手段、正式表記候補付与手段、及び結果出力手段を有する。未知語抽出手段は、構築済み辞書に登録されていない未知語を抽出する。未知語関連情報付与手段は、未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として未知語に付与する。正式表記候補付与手段は、複合語から生成された略称と未知語とが一致する場合に、略称の生成元とする複合語を正式表記候補として未知語に付与する。結果出力手段は、未知語と未知語関連情報と正式表記候補を合わせて、辞書追加登録効果の高い順に並べて出力する。

目的

本発明が解決しようとする課題は、辞書へ追加する表記に関する知識として、表記に対する読みの候補を予め設定された情報内に制限されることなく提示することが可能な語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラムを提供する

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

平文コーパスに含まれるテキストを単語に分割して、各単語に品詞を付与する形態素解析をする形態素解析手段と、前記形態素解析の結果をもとに複合語を抽出する複合語抽出手段と、前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する未知語抽出手段と、前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する未知語関連情報付与手段と、複合語から略称を生成する略称推定手段と、前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する正式表記候補付与手段と、前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、辞書追加登録効果の高い順に並べて語彙リストとして出力する結果出力手段とを有する語彙知識獲得装置

請求項2

前記未知語関連情報付与手段は、前記未知語関連情報として、前記未知語に対して、推定される品詞、出現頻度、Webクローリングデータから抽出した読み・スニペット情報源、読み・表記・品詞が類似する構築済み辞書登録語、類似登録語の使用頻度、辞書の登録語の追加削除を行った場合の解析結果の差分の情報の少なくとも1つを抽出して付与する請求項1記載の語彙知識獲得装置。

請求項3

前記未知語関連情報付与手段は、Webサイト信頼性評価リストを備え、前記Webクローリングデータから抽出した読み・スニペットの情報を付与する際に、前記信頼性評価リストに設定されたWebサイトの評価値に基づいて情報を選択する請求項2記載の語彙知識獲得装置。

請求項4

前記結果出力手段は、前記辞書追加登録効果の判断基準として、複数の指標のうち一つもしくは複数の組み合わせに基づいて並べ替えをする請求項1記載の語彙知識獲得装置。

請求項5

前記複合語抽出手段は、前記形態素解析の結果から、複合語を構成する可能性のある品詞が隣接して現れる部分の組み合わせの全てを複合語候補として抽出する請求項1記載の語彙知識獲得装置。

請求項6

前記語彙リストに含まれる未知語を前記構築済み辞書に追加する前後の前記構築済み辞書を用いた解析結果の差分の情報を取得する辞書編集手段をさらに有し、前記未知語関連情報付与手段は、解析結果の差分の情報を前記未知語に付与する請求項1記載の語彙知識獲得装置。

請求項7

平文コーパスに含まれるテキストを単語に分割して、各単語に品詞を付与する形態素解析をし、前記形態素解析の結果をもとに複合語を抽出し、前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出し、前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与し、複合語から略称を生成し、前記略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与し、前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、辞書追加登録効果の高い順に並べて語彙リストとして出力する語彙知識獲得方法

請求項8

コンピュータを、平文コーパスに含まれるテキストを単語に分割して、各単語に品詞を付与する形態素解析をする形態素解析手段と、前記形態素解析の結果をもとに複合語を抽出する複合語抽出手段と、前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する未知語抽出手段と、前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する未知語関連情報付与手段と、複合語から略称を生成する略称推定手段と、前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する正式表記候補付与手段と、前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、辞書追加登録効果の高い順に並べて語彙リストとして出力する結果出力手段として機能させるための語彙知識獲得プログラム

技術分野

0001

本発明は、音声認識などの用途に使用される辞書に新しい語彙を追加する際のユーザ作業支援する語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラムに関する。

背景技術

0002

近年、人間が発した音を認識して文書に記録したり、画面に表示したりする音声認識システムが使用されている。音声認識システムで認識精度を向上させるためには、正しく認識できない語彙の読み、表記品詞などを辞書に追加することが有効である。ここで、正しく音声認識をするとは、入力された音声信号に対して正しい読みと表記を割り付けることである。

0003

正しく認識できない語彙は、音声認識をした結果を見て判断するばかりでなく、新しく音声認識システムを作成する時に、音声認識システムを使う場面に合わせて、音声認識用構築済み辞書にない語彙でよく使うものを予想して予め音声認識辞書に追加する場合がある。

0004

この場合、音声認識システムは、音声認識を使う場面に関係する書類用語リストから、構築済み辞書にはない語彙、すなわち未知語の表記を選んで、品詞や読みの情報を付与して辞書に登録する。

0005

従来では、未知語の表記に正しい読みの情報を付与するために、次のような未知語に対する読みを抽出する方法がある。例えば、事前に用意された読み判断用辞書やルールを参照し、読みを推定する技術がある。例えば、未知語に対して、未知語読み付け辞書を参照し、表記「ABC」には登録されている表記「A」「B」「C」に対応する読み「えー」「びー」「しー」を連結したものを読みとして付与する。また、読み確率記憶部に記録された二つのテーブルを参照して条件付き確率最大となる読み候補を生成し、表記と読みのセットでWebを検索した結果得られたヒット件数から読み候補の優劣を判断し、優先度の高い読み候補を選択する。

0006

さらに、同義語一種である略語原語(正式名称)の組み合わせをWeb検索結果から探索する技術がある。この技術では、略語が入力された場合に、略語の部分のみが異なる構文を抽出し、略語と同じ位置で使われている表現を原語(正式名称)と推定する。

先行技術

0007

特許第4941495号公報
特開2009−204732号公報
特許第5355537号公報

発明が解決しようとする課題

0008

このように、従来の技術では、システムに設けられた情報(予め辞書等に登録された情報)に基づいて読みを推定しているため、システムが推定できない特殊な読みや、システムに設定されていない表記に対する読みを追加することができない。

0009

また、略語と原語(正式名称)の組み合わせをWeb検索結果から探索する技術は、複数の原語候補が抽出された場合のみ、原語候補から略語を推定して絞り込みを行っている。従って、同じ構文の表現が少ない場合は、略語に対して、同義ではない類義語唯一の原語候補として抽出するおそれがある。

0010

本発明が解決しようとする課題は、辞書へ追加する表記に関する知識として、表記に対する読みの候補を予め設定された情報内に制限されることなく提示することが可能な語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラムを提供することである。

課題を解決するための手段

0011

実施形態によれば、語彙知識獲得装置は、形態素解析手段、複合語抽出手段、未知語抽出手段、未知語関連情報付与手段、略称推定手段、正式表記候補付与手段、及び結果出力手段とを有する。形態素解析手段は、平文コーパスに含まれるテキストを単語に分割して、各単語に品詞を付与する形態素解析をする。複合語抽出手段は、前記形態素解析の結果をもとに複合語を抽出する。未知語抽出手段は、前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する。未知語関連情報付与手段は、前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する。略称推定手段は、複合語から略称を生成する。正式表記候補付与手段は、前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する。結果出力手段は、前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、辞書追加登録効果の高い順に並べて語彙リストとして出力する。

図面の簡単な説明

0012

本実施形態における語彙知識獲得装置を用いるシステムの構成を示すブロック図。
本実施形態における語彙知識獲得プログラムに基づいて実現される機能を示すブロック図。
本実施形態における語彙知識獲得装置の語彙知識獲得処理の動作について示すフローチャート
本実施形態における構築済み辞書に登録されるデータの一例を示す図。
本実施形態における形態素解析結果の一例を示す図。
本実施形態における未知語関連情報付与機能44により出力される未知語関連情報の一例を示す図。
本実施形態における結果出力機能から出力される語彙リストの一例を示す図。
本実施形態における未知語関連情報付与処理を示すフローチャート。
本実施形態における信頼性評価リストの一例を示す図。
本実施形態における結果出力処理を示すフローチャート。
本実施形態における複合語抽出処理を示すフローチャート。
本実施形態における複合語抽出処理に用いられるリストの一例を示す図。

実施例

0013

以下、実施形態について図面を参照して説明する。

0014

図1は、本実施形態における語彙知識獲得装置10を用いるシステムの構成を示すブロック図である。図1に示すシステムにおいて、語彙知識獲得装置10は、インターネット等のネットワーク12を通じて、Webサーバ14−1,14−2,…,14−nや各種の電子機器通信して、各種データを送受信することができる。

0015

本実施形態における語彙知識獲得装置10は、例えばパーソナルコンピュータ等のコンピュータによって実現される。図1に示すように、語彙知識獲得装置10は、プロセッサ20、メモリ21、記憶装置24、入力ユニット25、表示ユニット26、音声入力ユニット27、音声出力ユニット28、及び通信ユニット29を有する。

0016

プロセッサ20は、記憶装置24からメモリ21に読み出された各種プログラム(ソフトウェア)を実行することにより各種の機能を実現する。例えば、プロセッサ20は、メモリ21に記憶されたOS(Operating System)やアプリケーションプログラムなどの各種プログラム(ソフトウェア)を実行して、各種機能を実現する。例えば、プロセッサ20は、語彙知識獲得プログラム21aを実行して、音声認識システムで使用される音声認識辞書(構築済み辞書24e)に新しい語彙を追加する際のユーザ作業を支援するための機能を実現する。語彙知識獲得プログラム21aに基づいて実現される機能については図2に示す。また、プロセッサ20は、音声認識プログラム21bを実行することにより音声認識システムを実現する。

0017

メモリ21は、プロセッサ20により実行されるプログラムやデータを記憶する。

0018

記憶装置24は、OS(Operating System)やアプリケーションプログラムなどの各種プログラム(ソフトウェア)やプログラムの実行に必要なデータなどを、不揮発性記憶媒体において記憶する。記憶装置24に記憶されるデータは、例えば平文コーパス24a、正式名称リスト24b、日英機械翻訳辞書24c、Webクローリングデータ24d、構築済み辞書24e、仮構築辞書24f、語彙リスト24g、及び音声ファイナル24hを含む。各データの詳細については後述する。

0019

入力ユニット25は、プロセッサ20の制御のもとで、ユーザにより操作される入力デバイス(例えば、キーボードマウスタブレット等)からの入力を制御する。

0020

表示ユニット26は、プロセッサ20の制御のもとで、LCD(Liquid Crystal Display)等のディスプレイにおける表示を制御する。

0021

音声入力ユニット27は、プロセッサ20の制御のもとで、マイクからの音声入力を制御する。

0022

音声出力ユニット28は、プロセッサ20の制御のもとで、スピーカヘッドホン等からの音声出力を制御する。

0023

通信ユニット29は、ネットワーク12を通じて、Webサーバ14や電子機器との通信を制御する。

0024

なお、語彙知識獲得装置10は、ハードウェア構成、又はハードウェア資源とソフトウェア(プログラム)との組合せ構成のいずれでも実施可能である。ソフトウェアは、予めネットワーク12又は非一時的なコンピュータ読み取り可能な記憶媒体からコンピュータにインストールされ、当該コンピュータのプロセッサ20に実行されることにより、各装置の機能を当該コンピュータに実行させる。

0025

図2は、本実施形態における語彙知識獲得装置10の機能構成を示すブロック図である。プロセッサ20は、語彙知識獲得プログラム21aを実行することにより、機能部30に含まれる各機能を実現する。機能部30に含まれる各機能は、記憶部32に含まれる各データに対する処理を実行する。

0026

語彙知識獲得装置10は、語彙知識獲得プログラム21aに基づいて、形態素解析機能41、複合語抽出機能42、未知語抽出機能43、未知語関連情報付与機能44、略称推定機能45、正式表記候補付与機能46、結果出力機能47、及び辞書編集機能48による処理を実行する。

0027

なお、音声認識システム49は、プロセッサ20が音声認識プログラム21bを実行することにより実現される機能である。音声認識システム49は、語彙知識獲得装置10の機能とは独立したシステムであり、辞書編集機能48による処理において利用される。ただし、音声認識システム49は、語彙知識獲得プログラム21aにより実現される機能の一部としても良い。

0028

記憶部32(記憶装置24)には、機能部30の各機能の処理に必要な資源である、平文コーパス24a、正式名称リスト24b、日英機械翻訳辞書24c、Webクローリングデータ24d、構築済み辞書24e、仮構築辞書24f、音声ファイル24hとが含まれる。また、記憶部32には、各機能の処理結果とする語彙リスト24gが記憶される。

0029

構築済み辞書24eは、例えば音声認識システム49による音声認識処理に利用される辞書である。構築済み辞書24eには、例えば図4に示すように、表記(見出し語)、品詞、読みを示すデータの組が、複数の見出し語毎に登録されている。構築済み辞書24eには、語彙知識獲得装置10による処理結果を利用して、ユーザ操作によって新たな語彙(品詞、表記、読み)を追加することができる。

0030

平文コーパス24aは、構築済み辞書24eに新しい語彙を追加するために使用される書類(例えば、テキストデータ)の集合である。例えば、平文コーパス24aから構築済み辞書24eに登録されていない未知語が抽出され、この未知語が構築済み辞書24eへ追加する語彙の候補となる。平文コーパス24aは、音声認識システム49を使う分野についての音声認識の品質を向上するため、該当する分野に関係する書類が用いられる。例えば、医療薬学分野であれば、薬剤添付文書などが該当する。

0031

正式名称リスト24bは、音声認識システム49を使う場面に関連する表記(用語等)が登録された用語リストである。例えば、医療・薬学分野であれば、病名などの正式名称リスト(医学用語辞書)、薬剤リストなどが該当する。なお、人名について音声認識処理をする場合には、人名リスト(一般的な人名だけでなく、芸名などを含んでも良い)が用いられる。同様にして、地名については地名リスト、商品名については商標リストを用いるなど、音声認識処理の対象とする分野に応じたリストが用いられる。

0032

日英機械翻訳辞書24cは、日本語の表記と、その表記に対する英語対訳が登録されたリストである。例えば、日本語の表記「リンパ節」(読み:りんぱせつ、品詞:名詞−一般)に対して、英語の対訳である「lymph node」が登録されている。

0033

Webクローリングデータ24dは、Webクローリングによって、ネットワーク12(インターネット)を通じて外部から取得されるデータである。Webクローリングデータ24dは、Webサイト(Webサーバ14)において公開されているWebページを静的なファイルとして保存したものである。Webクローリングデータ24dは、平文コーパス24aから抽出された未知語(表記)に対する読みの情報を獲得するために利用される。Webクローリングデータ24dのファイルの形式は、インターネット公開ページソースであるHTML(Hyper Text Markup Language)形式であっても、HTML形式を公開ページと同じ体裁一般文書形式に変換したものであってもよい。Webクローリングデータ24dは、語彙知識獲得装置10の語彙知識獲得プログラム21aによる機能によって、ネットワーク12を通じてWebサーバ14から収集しても良いし、語彙知識獲得装置10とは別の電子機器において作成したものを入力しても良い。Webクローリングデータ24dは、語彙知識獲得装置10に固定的に記録されたデータではなく、継続的に更新されるデータである。従って、インターネットを通じて公開されているWebページが更新されることで、Webクローリングデータ24dから表記に対する新たな読みの情報を獲得することができる。

0034

仮構築辞書24fは、構築済み辞書24eがコピーされた音声認識システム49による音声認識処理に利用される辞書である。仮構築辞書24fは、構築済み辞書24eに追加する表記の候補を追加して、音声認識システム49による音声認識処理を実行するために利用される。語彙知識獲得装置10は、構築済み辞書24eを用いた音声認識処理の結果と、仮構築辞書24fを用いた音声認識処理結果解析結果)との差分を抽出して、構築済み辞書24eへ追加する表記に関する知識として抽出する。

0035

語彙リスト24gは、構築済み辞書24eに新しい表記を追加する際のユーザ作業を支援するために、ユーザに提示されるデータである。語彙リスト24gは、構築済み辞書24eに追加する表記(未知語)の候補について、ユーザが構築済み辞書24eに表記を追加するか否かを判断する際に参考となるデータ(知識)を提示する。詳細については後述する(図7参照)。

0036

音声ファイル24hは、音声認識システム49により構築済み辞書24e及び仮構築辞書24fを用いた音声認識処理を実行させるための、音声認識システム49に対する入力音声とする音声データである。音声ファイル24hは、例えば平文コーパス24aのテキストデータと1対1で対応づけられた音声データ、すなわち平文コーパス24aのテキストを読み上げた音声の音声データである。なお、音声ファイル24hは、ユーザによりテスト用として用意された、平文コーパス24aのテキストとは別の内容の音声データのファイルとしても良い。

0037

次に、本実施形態における語彙知識獲得装置10の語彙知識獲得処理の動作について、図3に示すフローチャートを参照しながら説明する。
まず、形態素解析機能41は、平文コーパス24aについて、形態素解析処理を実行する(ステップA1)。形態素解析機能41は、形態解析処理によって、平文コーパス24aに含まれる日本語のテキストデータを単語に分割し、各単語について品詞を付与する。

0038

例えば、形態素解析機能41は、平文コーパス24a中の日本語テキスト風邪初期症状訴えがあったため、葛根湯を処方しました。LNの腫れはありません。」のテキストデータについて形態素解析処理を実行した結果、図5に示すような形態素解析結果が得られる。

0039

次に、複合語抽出機能42は、形態素解析機能41の出力(形態素解析結果)を入力し、形態素解析結果に基づいて複合語を抽出するための複合語抽出処理を実行する(ステップA2)。

0040

複合語抽出機能42は、隣接する形態素を連結して複合語を構成すると推定できる文字列を抽出して、複合語として出力する。複合語を構成する文字列の判断として、例えば、「『名詞−一般』の連続部分は複合語(複合名詞)と推測する」などのルールを用いる。

0041

図5に示す形態素解析結果では、「初期」と「症状」がともに品詞「名詞−一般」であり連続して現れるため、「初期症状」を複合語(複合名詞)と推測できる。また、一つの形態素解析結果だけではなく、大量の形態素解析結果を元にして、隣接して現れる頻度の高い形態素のつながりを複合語と推測する技術を利用することもできる。ここで、「名詞−一般」に限定せず「名詞」の連続部分もしくはアルファベットの連続部分を複合語(複合名詞)と推測すると、図5に示す形態素解析結果からは「初期症状」と「葛根湯」と「LN」が、複合語(複合名詞)として抽出される。

0042

次に、未知語抽出機能43は、形態素解析機能41の形態素解析結果、及び複合語抽出機能42によれ抽出された複合語から、構築済み辞書24eに登録されていない未知語(語彙)を抽出する未知語抽出処理を実行する(ステップA3)。

0043

未知語抽出機能43は、形態素解析機能41から出力される形態素解析結果をもとに、自立語に相当する品詞が付与された基本形を抽出する。自立語とは、単独でも文節を構成することのできる単語を示す。自立語に相当する品詞は、名詞・代名詞動詞形容詞形容動詞副詞・連体詞・接続詞感動詞が該当する。

0044

図5に示す形態素解析結果から抽出される基本形(表記)は、「風邪(名詞−一般)」「初期(名詞−一般)」「症状(名詞−一般)」「訴え(名詞−一般)」「ある(動詞−自立)」「ため(名詞−非自立−副詞可能)」「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」「処方(名詞−サ変接続)」「する(動詞−自立)」「腫れ(名詞−一般)」の11語となる。

0045

さらに、未知語抽出機能43は、複合語抽出機能42の出力(複合語)を、形態素解析機能41の形態素解析結果から抽出した11語に加える。ここで、加える表記(複合語)は、「初期症状(名詞)」「葛根湯(名詞)」「LN(名詞)」の3表記であり、抽出された表記は14語(14表記)となる。ここで、抽出された14語の表記は、平文コーパス24aから抽出された未知語の候補となる。

0046

次に、未知語抽出機能43は、未知語の候補(表記)のリストと、構築済み辞書24eとを比較して、構築済み辞書24eに登録されていない未知語を抽出する。すなわち、未知語抽出機能43は、未知語の候補のリストに含まれる表記と品詞の組のうち、構築済み辞書24eに登録されていないものを抽出して出力する。

0047

構築済み辞書24eには、「風邪(名詞−一般)」「初期(名詞−一般)」「症状(名詞−一般)」「処方(名詞−サ変接続)」が登録されているため、未知語抽出機能43は、「訴え(名詞−一般)」「ある(動詞−自立)」「ため(名詞−非自立−副詞可能)」「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」「する(動詞−自立)」「腫れ(名詞−一般)」「初期症状(名詞)」「葛根湯(名詞)」「LN(名詞)」の10表記を未知語として抽出する。

0048

なお、未知語抽出機能43は、未知語として抽出した表記に、重複する表記が含まれている場合には、一方を削除しても良い。例えば、前述した例では、複合語抽出機能42により複合語として「葛根湯(名詞)」が抽出されている。一方、形態素解析機能41の出力から「葛根湯」の構成要素となっている「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」が抽出されている。この場合、未知語抽出機能43は、形態素解析結果から抽出した「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」を削除する。

0049

この結果、未知語抽出機能43は、「訴え(名詞−一般)」「ある(動詞−自立)」「ため(名詞−非自立−副詞可能)」「する(動詞−自立)」「腫れ(名詞−一般)」「初期症状(名詞)」「葛根湯(名詞)」「LN(名詞)」の8表記を出力する。

0050

さらに、未知語抽出機能43は、構築済み辞書24eに登録する表記(語彙)の候補を、品詞に基づいて制限する。例えば、未知語抽出機能43は、例えば名詞で非自立ではない品詞の表記のみを登録の候補とする。

0051

この結果、未知語抽出機能43は、「訴え(名詞−一般)」「初期症状(名詞)」「腫れ(名詞−一般)」「葛根湯(名詞)」「LN(名詞)」の5表記を出力する。以後の処理では、未知語抽出機能43の出力を「訴え(名詞−一般)」「初期症状(名詞)」「腫れ(名詞−一般)」「葛根湯(名詞)」「LN(名詞)」の5表記として説明する。

0052

次に、未知語関連情報付与機能44は、未知語関連情報付与処理を実行し、未知語抽出機能43から出力された表記(構築済み辞書24eに登録する表記(未知語)の候補)のそれぞれについて、ユーザが構築済み辞書24eに追加するか否かを判断する際に参考となるデータ(未知語関連情報)を求めて付与する(ステップA4)。

0053

ここでは、未知語関連情報付与機能44は、未知語抽出機能43が出力した5表記それぞれについて、未知語関連情報を求めて付与する。

0054

未知語関連情報は、例えば、推定される品詞(「推定品詞」)、平文コーパス24a(テキストデータ)を処理した際の出現頻度(「出現頻度」)、Webクローリングデータ24dから抽出した未知語に対する読み(「読み」)、未知語に対する読みを抽出したスニペット情報源(「スニペット・情報源」)、未知語と読み・表記・品詞が類似する構築済み辞書24eに登録済みの表記(類似登録語)とその使用頻度、辞書に対する表記(見出し語)の追加あるいは削除をする前後の音声認識処理結果(解析結果)の差分などの情報の少なくとも1つを含む。

0055

図6は、本実施形態における未知語関連情報付与機能44により出力される未知語関連情報の一例を示す図である。
ここでは、平文コーパス24aに、日本語テキスト「風邪の初期症状の訴えがあったため、葛根湯を処方しました。LNの腫れはありません。」を含み、この日本語テキスト以外の大量のテキストに「初期症状」「葛根湯」などの表記が、それぞれ複数回出現する場合の例を示している。

0056

「推定品詞」は、未知語抽出機能43により出力される表記に付された形態素解析により得られた品詞である。

0057

「出現頻度」は、未知語抽出機能43により出力される表記の平文コーパス24a中の出現数カウントした数である。

0058

「読み」は、未知語抽出機能43により出力される表記に付された形態素解析により得られた読み、あるいはWebクローリングデータ24dから抽出した表記(未知語)に対する読みである。未知語関連情報付与機能44は、未知語抽出機能43が出力した表記(未知語)をもとに、Webクローリングデータ24dから読みに相当する文字列を抽出する。

0059

例えば、未知語関連情報付与機能44は、Webクローリングデータ24dからの未知語と読みの組み合わせが記述された部分を抽出する。例えば、未知語の直後に「()」で囲まれた「ひらがな」もしくは「カタカナ」の記述がある場合に、未知語と読みの組み合わせが記述された部分として抽出する。

0060

あるいは、未知語関連情報付与機能44は、Webクローリングデータ24dの表形式記述部分において、ある列には未知語が記述され、他の列に「ひらがな」もしくは「カタカナ」による記述が未知語と対応づけられている場合に、未知語とその読みの組み合わせと判断して抽出する。

0061

「スニペット・情報源」は、例えば、Webクローリングデータ24d中の未知語の読みを含むスニペット(一部でも良い)、及び未知語を含むWebサイト(Webページ)の例えばURL(uniform resource locator)である。未知語の読みを含む「スニペット・情報源」の組が複数抽出された場合、未知語関連情報付与機能44は、複数の組を全て抽出しても良いし、同じ読みが付与された回数が最も多いスニペットのみを採用しても良い。さらに未知語関連情報付与機能44は、ユーザが予め付与したWebサイトの信頼度が高いものを優先的に採用するなどして、未知語関連情報とする情報を集約してもよい。

0062

登録済みの表記とその使用頻度は、構築済み辞書24eから抽出される未知語(表記)と読み・表記・品詞が類似(少なくとも読みが一致する)する登録済みの表記と、この登録済みの表記の平文コーパス24a中の出現数をカウントした数である。

0063

図6に示す未知語関連情報では、未知語「腫れ」に対して、「晴れ(はれ、品詞:名詞−一般、出現頻度:1)」の情報が追加されている。

0064

「差分」は、未知語を仮構築辞書24fに登録した場合の仮構築辞書24fを用いた音声認識処理の結果と、未知語が登録されていない構築済み辞書24eを用いた音声認識処理の結果との差分(音声認識結果の違い)についての情報である。未知語関連情報付与機能44は、次のようにして「差分」の情報を求める。

0065

未知語関連情報付与機能44は、辞書編集機能48によって未知語とする表記・品詞・読みの組み合わせを、辞書編集機能21を通じて、構築済み辞書24eのコピーである仮構築辞書24fに追加させる。次に、未知語関連情報付与機能44は、辞書編集機能48に対して、仮構築辞書24fと構築済み辞書24eとを用いた音声認識処理の実行を指示する。辞書編集機能48は、未知語関連情報付与機能44からの指示に応じて、未知語が登録された仮構築辞書24fと、構築済み辞書24eを用いた音声認識処理を音声認識システム49により実行させる。この際、辞書編集機能48は、音声認識システム49に対して、音声ファイル24hを音声認識処理の対象とする音声データとして入力する。

0066

辞書編集機能48は、仮構築辞書24fを用いた音声認識処理の結果と、構築済み辞書24eを用いた音声認識処理の結果を、未知語関連情報付与機能44に出力する。未知語関連情報付与機能44は、仮構築辞書24fと構築済み辞書24eをそれぞれ用いた音声認識結果をもとに差分(音声認識結果の違い)についての情報を作成する。

0067

なお、未知語関連情報付与機能44は、未知語に対して「読み・表記・品詞が類似する登録語」が構築済み辞書24eに存在する場合は、その登録語を仮構築辞書24fから削除し、新しい解析結果として未知語関連情報に付与することもできる。

0068

こうして、辞書に対する未知語の追加あるいは削除をする前後の音声認識処理結果の差分の情報を抽出することにより、ユーザが未知語を辞書へ登録した場合の有効性を確認して辞書編集を行うことができるため、辞書編集の効率が向上し、さらに辞書編集の弊害を予め確認して予防することができる。

0069

図6に示す未知語関連情報では、未知語「腫れ」「葛根湯」について、「差分」の情報が追加されている(図中A,Bに示す)。

0070

なお、図6に示す未知語関連情報では、抽出できなかった情報については空欄としている。例えば、スニペット・情報源がWebクローリングデータ24dから抽出されなかった場合や、読み・表記・品詞が類似する登録語が構築済み辞書24eから抽出されなかった場合は、空欄としている。また、「差分」の情報は、形態素解析機能41が付与した読みとは異なる場合のみ付与するようにしても良い。

0071

次に、略称推定機能45は、未知語関連情報に含まれる略称を表す未知語に対して正式表記を付与するため、未知語関連情報に含まれる可能性のある略称を推定するための略称推定処理を実行する(ステップA5)。

0072

略称推定機能45は、正式名称リスト24bに登録された表記、形態素解析機能41による形態素解析結果により得られた表記、及び複合語抽出機能42によって正式名称の一部として抽出される表記をもとに略称を作成する。ここでは、略称推定機能45は、英語の複数単語からなる表記、もしくは、日本語の複数の形態素から構成される表記に対して略称を生成する。

0073

例えば、正式名称リスト24bに日本語の表記「リンパ節」が登録されていて、日英機械翻訳辞書24cに英語の対訳である「lymph node」が登録されている場合、略称推定機能45は、「リンパ節」の略称として、英語の対訳の頭文字大文字にして連結した「LN」を生成する。

0074

また、略称推定機能45は、例えば、日本語の正式名称「動脈注射」に対して、形態素解析結果「動脈(名詞−一般)注射(名詞−サ変接続)」の形態素の最初の文字を連結した略称「動注」を生成する。

0075

次に、正式表記候補付与機能46は、未知語関連情報に含まれる略称推定機能45により生成された略称に相当する未知語に対して、正式表記候補と読みを付与する正式候補付与処理を実行する(ステップA6)。

0076

まず、正式表記候補付与機能46は、未知語関連情報付与機能44が出力した未知語関連情報中の表記(未知語)と、略称推定機能45が生成した略称とを比較する。

0077

未知語関連情報中の表記(未知語)と一致する略称がある場合、正式表記候補付与機能46は、未知語関連情報中の該当する表記(未知語)に対して、略称の元となった正式名称とその読み・品詞を付与する。

0078

例えば、図6に示す未知語関連情報では、未知語「LN」が、略称推定機能45により生成された正式表記「リンパ節」から推定した略称「LN」と一致する。この場合、正式表記候補付与機能46は、未知語「LN」に対して、正式表記候補「リンパ節」と読み「りんぱせつ」と品詞「名詞−一般」を付与する。この正式表記候補の読みと品詞は、略称「LN」の読みと品詞の候補として扱う。

0079

次に、結果出力機能47は、正式表記候補付与機能46から出力される未知語関連情報を、ユーザに提示する形式に編集して出力する結果出力処理を実行する(ステップA7)。結果出力機能47は、未知語関連情報に含まれる複数の未知語を、辞書追加登録効果の高い順に並べて語彙リスト24gとして生成し、表示ユニット26において表示させる。

0080

なお、結果出力機能47は、語彙リスト24gを一覧表示するだけでなく、未知語(表記)毎に未知語関連情報を順番に表示するようにしても良い。

0081

図7は、本実施形態における結果出力機能47から出力される語彙リスト24gの一例を示す図である。図7に示す語彙リスト24gは、図6に示す未知語関連に対して、未知語の並びを出現頻度の高い順に変更した例を示している。

0082

なお、図7に示す語彙リスト24gには、正式表記候補付与機能46によって、表記「LN」に対して、正式表記候補「リンパ節(読み:りんぱせつ、品詞:名詞−一般)」(図中Dに示す)と、その読み「りんぱせつ」(図中Cに示す)が追加されている。

0083

また、前述した説明では、未知語関連情報の未知語(表記)を出現頻度の高い順に並べ替えているが、その他の条件に基づいて編集することも可能である。
例えば、複合語として抽出された表記や、Webクローリングデータ24dから抽出した読み情報が形態素解析機能41の解析結果と異なる表記は、辞書追加登録効果が高いと判断して、語彙リスト24gの上位に位置づけたりしても良い。また、出現頻度が多い、複合語である、Webクローリングデータ24dから抽出した読み情報が形態素解析機能41の解析結果と異なるなど、辞書追加登録効果の判断結果が同じ表記が複数ある場合は、さらに別の辞書追加登録効果の判断基準に基づいて表記を並べ替えても良い。

0084

図7に示す語彙リスト24gは、各表記について複数行からなる表形式の出力例を示しているが、他の形式にすることが可能である。例えば、1つの表記について、未知語関連情報を1行で示す表形式とすることもできる。また、「スニペット・情報源」に関する情報のように、テキストが長い情報については、該当情報へのリンク情報のみを語彙リスト24gに提示するようにしても良い。

0085

このようにして、本実施形態における語彙知識獲得装置10は、Webクローリングデータ24dから未知語に対応する読みを獲得することで、語彙知識獲得装置10に予め設定された情報内に制限されることなく、構築済み辞書24eには登録されていない未知語の読みを、形態素解析や推定ルールでは対応できない場合でも取得することができる。また、未知語に対して、略称と正式名称の対応を提示することで、正式名称の読みがそのまま適用される可能性も高い略称に対して適切な読みを付与できる。また、略称に対して正式名称との対応が提示されることで、認識した単語の意味を把握する必要のある音声対話にも対応が容易となる。平文コーパス24aからの構築済み辞書24eへ登録する候補とする表記の抽出と読み推定が機械的に実施されることで、人手で実施する場合の作業時間を削減でき、また構築済み辞書24eに登録されていない未知語の抽出漏れを削減できる。ユーザは、語彙リスト24gによって提示された構築済み辞書24eへの登録の候補とする表記(未知語)について、それぞれに付与された未知語関連情報をもとに、登録するか否かを判断することができる。

0086

なお、未知語関連情報付与機能44により抽出される未知語に対応する「差分」の情報は、語彙リスト24gをユーザに提示した後、語彙リスト24gからユーザ操作によって選択された表記(未知語)に対してのみ実行するようにしても良い。「差分」の情報の抽出方法は、前述と同様にして実行されるものとして詳細な説明を省略する。

0087

ユーザによって選択された表記(未知語)に対してのみ「差分」の情報を生成することにより、語彙リスト24gを提示するための処理負担を軽減して、短時間で語彙リスト24gをユーザに対して提示することが可能となる。

0088

次に、本実施形態における未知語関連情報付与機能44による未知語関連情報付与処理の応用例について説明する。図8は、本実施形態における未知語関連情報付与処理を示すフローチャートである。

0089

ここでは、未知語関連情報付与機能44は、Webサイト(Webサーバ14)により公開されている情報の信頼性を示す信頼性評価リストを利用して未知語関連情を作成する。

0090

Webサイトには、専門家が編集した信頼できる情報を公開しているものと、非専門家が編集した信頼性が低い情報を公開しているものが混在している。

0091

図9は、本実施形態における信頼性評価リストの一例を示す図である。図5に示す例では、信頼性評価リストは、Webサイト(URL)ごとに、信頼性を示す評価値、例えば「○」「△」「×」の3段階の評価値を記録できる。また、信頼性評価リストは、Webサイト(URL)ごとに、Webサイトから抽出した情報(未知語に対する読み)をユーザに提示した際に、ユーザがその情報を採用したか否かを「読み採用数」「読み不採用数」として記録できる。

0092

未知語関連情報付与機能44は、Webクローリングデータ24dから「スニペット・情報源」の組を複数抽出した場合(ステップB1、Yes)、図9に示す信頼性評価リストを参照し、ユーザに提示する「スニペット・情報源」の情報を選択する(ステップB2)。

0093

例えば、未知語関連情報付与機能44は、信頼性が「○」で、読み採用数が多く、読み不採用数が少ないサイトの情報を優先して選択して、未知語関連情報として付与する。

0094

また、未知語関連情報付与機能44は、未知語関連情報に付与した情報が採用された場合(ステップB3、Yes)、すなわち語彙リスト24gにおいて提示した読みが未知語と共に登録された場合、信頼性評価リスト中の該当する情報が抽出されたWebサイトの「読み採用数」をカウントアップする(ステップB4)。なお、信頼性評価リストの「読み不採用数」は、例えば、ユーザによって不採用として明示的に指定された場合や、1つの表記に対して複数の読みが提示されている時に選択されなかった場合にカウントアップする。

0095

なお、信頼性の評価値は、ユーザがWebサイトの内容を確認した上でユーザ操作によって信頼性評価リストに設定しても良いし、「読み採用数」と「読み不採用数」に応じて予め設定されたルールに従って自動的に設定しても良い。例えば、「読み採用数」が基準値以上で「読み不採用数」が「0」の場合には信頼性を「○」に設定したり、「読み採用数」と「読み不採用数」との比率に基づいて設定したりしても良い。

0096

なお、信頼性評価リストを利用する場合、信頼性が「○」のWebサイトのみを利用しても良いし、信頼性が「○」のWebサイトから必要な情報が抽出できない場合に信頼性が「△」のWebサイトを利用するようにしても良い。さらに、その他の利用方法を用いることも可能である。また、評価値は、3段階に限らず、任意の段数とすることができる。

0097

このようにして、事前に評価されたWebサイトの信頼性を参照して情報を選択することで、ユーザに信頼性の高い情報を提示することができる。また、ユーザが提示された情報を採用したか否かの履歴蓄積し、評価を更新することで、ユーザへの提示情報の信頼性をさらに向上できる。

0098

次に、本実施形態における結果出力機能47による結果出力処理の応用例について説明する。図10は、本実施形態における結果出力処理を示すフローチャートである。

0099

結果出力機能47は、正式表記候補付与機能46により作成された未知語関連情報(未知語のリスト)を、辞書追加登録効果の高い順に未知語を並べ変えてユーザに提示する。

0100

結果出力機能47は、辞書追加登録効果の高い順の判断指標として、例えば以下の7指標を用いることができる。
第1指標:平文コーパス24aにおける出現頻度が高いこと。
第2指標:正式名称リスト24bにおける出現頻度が高いこと。
第3指標:構築済み辞書24eに登録された表記と同じ品詞の語彙が多いこと。
第4指標:Webクローリングデータ24dから抽出した読み情報が形態素解析結果から推測される読みと異なること。
第5指標:平文コーパス24a中で表記の直前直後に現れる形態素の異なり数が多いこと。
第6指標:表記の重み評価値tf−idfの値が大きいこと。
第7表記:複合語の独立性を評価する指標(C−value,MC−valueなど)が高いこと。

0101

第1指標を用いることで、出現頻度が高い表記を優先して登録の候補として提示できる。第2指標を用いることで、平文コーパス24aが十分でないとき(例えばデータ量が少ない)であっても、対象分野での出現の可能性が高い、正式名称リスト24bに含まれる正しい表記を優先して提示できる。第3指標を用いることで、構築済み辞書24eにおいて必要とされる可能性の高い品詞(例えば音声認識に有効な形容詞、地名や人名などの認識に有効な固有名詞など)の表記を優先して提示できる。第4指標を用いることで、新しい表記(新語や芸能人名など)であり読みが難しい(一般的ではない)可能性が高く、登録しておくことが有効である可能性が高い表記を優先して提示できる。第5指標を用いることで、独立した単語を優先して提示することができる。第6指標を用いることで、特定分野の文書に偏って出てくる、その分野では重要な単語である可能性が高い表記を優先して提示できる。第7表記を用いることで、複合語に含まれる単語の独立性が低い(いつも複合語で用いられる)表記について、複合語での表記を優先して提示することができる。

0102

なお、表記の重み評価値tf−idfは、「tf」(単語の出現頻度)と、「idf」(逆文書頻度)の二つの指標を乗じて計算される指標である。「idf」は多くの文書に出現する語、すなわち一般的な語は値が下がり、特定の文書のみに出現する語は値が高くなる。すなわち、「idf」に「tf」を乗じた「tf−idf」は、特定の文書のみに高頻度で出現する表記に対して高い値となる。従って、ある専門分野特有の重要単語を判断する指標とすることができる。

0103

また、複合語の独立性を評価する指標C−valueは、文書における単語間結合度を示す。

0104

C−value(w)=(length(w)−1)(n(w)−(t(w)/c(w)))
w:注目している単語
length(w):wの長さ(wを構成する単語の数)
n(w):wの出現回数
t(w):wを含むより長い複合語の出現回数
c(w):wを含むより長い複合語の異なり数
注目している単語がより長い複合語の一部としてしか使われていない場合は、C−valueは0に近い値となる。C−valueの値が大きい語は、独立性が高い。C−valueはwが一つの単語のみから構成される場合は必ず0となってしまうため、一つの単語であっても0以外の評価値となるMC−valueなどの修正式を使用することができる。

0105

結果出力機能47は、7指標のうちの一つもしくは複数の組み合わせを用いて、辞書追加登録効果の高さを判定し、結果を並べ変える。なお、何れの指標を用いるかは、ユーザが選択できるようにしても良いし、システムが自動的に設定しても良い。システムが自動的に設定する場合には、例えば処理対象とする平文コーパス24aの内容(長さ、分野)などに基づいて決定することができる。また、複数の指標を用いる場合には、指標に優先度を設定しても良い。

0106

また、各指標に対して、さらに条件を設定することもできる。例えば、ユーザに提示する値の範囲の指定を受け付け、結果の出力範囲を限定することができる。例えば、「平文コーパスにおける出現頻度が10以上」の指定により出力範囲を限定したり、「推定される品詞が名詞であること」の指定により名詞と推定される表記に限定したりすることができる。

0107

結果出力機能47は、正式表記候補付与機能46から出力された未知語(登録の候補とする表記)のリストに対して、予め設定された指標をもとに辞書追加登録効果の高さを判定し(ステップC1)、この判定結果に応じて未知語の順番を並べ替える(ステップC2)。

0108

結果出力機能47は、指標に基づいて表記の順番を並べ替えた語彙リスト24gを出力する(ステップC3)。

0109

このようにして、複数の評価指標を設けて柔軟に組み合わせを選択でき、出力範囲を限定することで、出力される語彙リスト24gの上位に、ユーザが求める内容が多く含まれるように精度を向上できる。

0110

次に、本実施形態における複合語抽出機能42による複合語抽出処理の応用例について説明する。図11は、本実施形態における複合語抽出処理を示すフローチャートである。

0111

一般に、複合語を構成するか否かの判断を、隣接する形態素の品詞から判断する技術がある。例えば、「名詞−一般」の連続は、複合名詞と判断することが知られている。他に「接頭語と名詞は接続する」「名詞と接尾語は接続する」「格助詞"の"で接続された名詞は、格助詞"の"を含めて接続する」などの適合率の高いルールのみを適用することが一般的である。このような技術では、句読点「、」「。」や「 」(スペース)は区切り文字として扱い、複合語を構成する要素としないことが多い。

0112

しかし、近年は、商品名、各種コンテンツ書籍映画アニメーション等)の名称、芸名などの人物名などの固有名詞において、適合率の高いルールでは確実な単語区切りとされる文字等(句読点、スペース、記号など)や品詞を含むものが多分野で使われるようになっている。

0113

そこで、本実施形態における複合語抽出機能42は、形態素解析機能41により出力される形態素解析結果から、図11に示す手順により複合語を抽出することで、複合語を構成する可能性のある品詞が隣接して現れる部分の組み合わせの全てを複合語候補として抽出する。

0114

すなわち、複合語抽出機能42は、形態素解析機能41の出力(図5に示す)について、確実な単語区切りとして予め設定した文字・品詞を含むか判定する(ステップD1)。予め設定した文字・品詞を含まない場合(ステップD2、No)、複合語抽出機能42は、形態素の連結結果であって、複合語の最初にならない文字・品詞で始まるか判定する(ステップD3)。該当する文字・品詞で始まらない場合(ステップD4、No)、複合語抽出機能42は、複合語の最後にならない文字・品詞で終わるかを判定する(ステップD5)。該当する文字・品詞で終らない場合、複合語抽出機能42は、表記の全てを複合語候補に設定する(ステップD7)。

0115

複合語抽出機能42は、例えば、図12に示すリストを参照して複合語抽出を実行することができる。図12に示すリストの各行の指定は、「品詞」と「表現」がともに記載されている場合は、品詞と表現がともに一致する形態素を、一方のみが指定されている場合は他方は条件なしとして判断に使用する。なお、図12のリストに該当しない最大長の文字列のみではなくて、その部分文字列も複合語候補とする。

0116

複合語抽出機能42は、図12に示すリストをもとに複合語抽出をすると、図5に示す形態素解析結果からは「風邪、風邪の初期、風邪の初期症状、風邪の初期症状の訴え、初期症状、初期症状の訴え、葛根湯、葛根湯を処方」の複合語候補を抽出することができる。

0117

図12のリストから、句点読点に関する指定を削除すれば、例えば原文「新チューハイ「○○○。」を発表した。」からは、複合語候補「新チューハイ」「○○○。」「発表」が抽出できる。

0118

複合語抽出機能42は、前提として形態素解析機能41の出力から形態素の連結を作成するものに限定しない。例えば、平文コーパス24aのテキストもしくは正式名称リスト24bの原文を入力としてN−gramにより語候補切り出し、形態素解析結果と区切り位置が一致し、図6のリストに該当しない表記を複合語候補としてもよい。

0119

このようにして、複合語候補を柔軟に抽出することで、従来の適合率の高いルールを適用して限定した候補を抽出する場合と比較して、複合語の抽出漏れを削減することができる。

0120

なお、前述した説明では、音声認識システム49に音声認識用の辞書(構築済み辞書24e)への語彙の追加を支援する場合を例にしているが、本実施形態における語彙知識獲得装置10は、音声認識以外のシステムに用いられる辞書へ表記を追加する場合にも利用することができる。例えば、日本語入力システムワードプロセッサ)のかな漢字変換辞書や、インターネットで配信される情報(ブログマイクロブログ、企業発表情報)などを内容ごとに分類するための用語辞書を対象とすることもできる。

0121

また、語彙知識獲得装置10は、日本語の表記だけでなく、他の言語の表記を対象とすることも可能である。

0122

また、前述した説明では、Webサイトから取得されるWebクローリングデータ24dから未知語の読みを抽出しているが、その他の語彙知識獲得装置10の外部から取得されるデータを対象とすることも可能である。例えば、継続的にデータが更新されるデータベースシステムや、特定の電子機器に記録されたデータなどを、記録媒体あるいはネットワーク12を通じて取得して、語彙知識獲得処理に利用することが可能である。

0123

なお、実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスクフレキシブルディスクハードディスクなど)、光ディスクCD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。

0124

また、記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。

0125

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。

0126

さらに、実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

0127

また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。

0128

なお、実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、実施形態における各処理を実行するものであって、パーソナルコンピュータ等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。

0129

また、実施形態におけるコンピュータとは、情報処理機器に含まれる演算処理装置マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

0130

なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

0131

10…語彙知識獲得装置、12…ネットワーク、14…Webサーバ、20…プロセッサ、21…メモリ、21a…語彙知識獲得プログラム、21b…音声認識プログラム、24…記憶装置、24a…平文コーパス、24b…正式名称リスト、24c…日英機械翻訳辞書、24d…Webクローリング、24e…構築済み辞書、24f…仮構築辞書、24g…語彙リスト、25…入力ユニット、26…表示ユニット、27…音声入力ユニット、28…音声出力ユニット、29…通信ユニット、41…形態素解析機能、42…複合語抽出機能、43…未知語抽出機能、44…未知語関連情報付与機能、45…略称推定機能、46…正式表記候補付与機能、47…結果出力機能、48…辞書編集機能、48…音声認識システム。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ