Wikipedia preview

出典(authority):フリー百科事典『ウィキペディア（Wikipedia）』「2022/08/28 03:41:56」(JST)

wiki ja

自然言語処理（しぜんげんごしょり、英語: natural language processing、略称：NLP）は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。「計算言語学」（computational linguistics）との類似もあるが、自然言語処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い^[1]。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な（コンピュータが理解しやすい）表現に変換するといった処理が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げられる。

自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法（統計や確率など）が広められた為、パーサ（統語解析器）などが一段と精度や速度が上がり、その意味合いは違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非常に限られている。このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをSyntaxなど表層的な観点から解析をする学問であるが、自然言語理解は、意味をどのように理解するかという個々人の理解と推論部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかどうかになってきている。

基礎技術

自然言語処理の基礎技術にはさまざまなものがある。自然言語処理はその性格上、扱う言語によって大きく処理の異なる部分がある。現在のところ、日本語を処理する基礎技術としては以下のものが主に研究されている。

形態素解析
構文解析
語義の曖昧性解消
照応解析

処理内容とその限界

現状発達している言語AI技術は、多次元のベクトルから、単語や文書の意味の近さを、その相互関係から推定しているもので、「AIの言語理解」は「人間の言語理解」は根本的に別物である^[2]。

「自然言語理解は、AI完全問題と言われることがある。なぜなら、自然言語理解には世界全体についての知識とそれを操作する能力が必要と思われるためである。「理解; understanding」の定義は、自然言語処理の大きな課題のひとつでもある。

人間とコンピュータの間のインタラクションのインタフェース（ヒューマンマシンインタフェース）として、自然言語がもし使えたら非常に魅力的である、といったこともあり、コンピュータの登場初期（1960年頃）には自然言語処理にある種の過剰な期待もあった。SHRDLUなどの初期のシステムが、世界を限定することで非常にうまくいったことにより、すぐに行き過ぎた楽観主義に陥ったが、現実を相手にする曖昧さや複雑さがわかると、楽観的な見方や過剰な期待は基本的には無くなったが、何が簡単で何が難しいのか、といったようなことはなかなか共有されなかった。

やがて、21世紀に入ってしばらく後に「音声認識による便利なシステム」がいくつか実用化・実運用され多くの人が利用したことで、何が簡単で、どういう事に使うのは難しいのかが理解されるようになりつつある模様である。

2019年、GPT-2、BERTなど、ディープラーニングを応用した手法で大きなブレークスルーがあった。

具体的な課題

自然言語処理（理解）における課題をいくつかの例を用いて示す。

次の2つの文、

We gave the monkeys the bananas because they were hungry.（猿が腹を空かせていたので、バナナを与えた。）

We gave the monkeys the bananas because they were over-ripe.（バナナは熟れ過ぎていたので、猿に与えた。）

は、品詞としては全く同じ順序の並びである。しかし、they が指すものは異なっていて、前者では猿、後者ではバナナとなっている。この例文の場合、theyの指す内容は英語の文型の性質によって決定することができる。すなわち、「they（主語）= hungry（補語）」の関係が成り立ち、補語には主語の性質を示すものがくるので、hungryなのはthe monkeys、したがって、「they = the monkeys」と決まる。後者も同様に、over-ripeというのはthe bananasの性質だから、「they = the bananas」となる。つまり、これらの文章を区別し正しく理解するためには、意味、すなわち、猿の性質（猿は動物で空腹になる）とバナナの性質（バナナは果物で成熟する）といったことを知っていて解釈できなければならない。

単語の文字列を解釈する方法は様々である。例えば、

Time flies like an arrow.（光陰矢の如し）

という文字列は以下のように様々に解釈できる。

典型的には、比喩として、「時間が矢のように素早く過ぎる」と解釈する。
「空を飛ぶ昆虫の速度を矢の速度を測るように測定せよ」つまり (You should) time flies as you would (time) an arrow. と解釈する。
「矢が空を飛ぶ昆虫の速度を測るように、あなたが空を飛ぶ昆虫の速度を測定せよ」つまり Time flies in the same way that an arrow would (time them). と解釈する。
「矢のように空を飛ぶ昆虫の速度を測定せよ」つまり Time those flies that are like arrows と解釈する。
「"time-flies"（時バエ）という種類の昆虫は1つの矢を好む」この解釈には集合的な解釈と個別的解釈がありうる。
「TIMEという雑誌は、投げると直線的な軌跡を描く」

英語では特に語形変化による語彙の区別をする機能が弱いため、このような問題が大きくなる。

また、英語も含めて、形容詞と名詞の修飾関係の曖昧さもある。例えば、"pretty little girls' school"（かわいい小さな少女の学校）という文字列があるとする。

その学校は小さいだろうか?
少女たちが小さいのだろうか?
少女たちがかわいいのだろうか?
学校がかわいいのだろうか?

他にも次のような課題がある。

形態素解析: 中国語、日本語、タイ語といった言語は単語のわかち書きをしない。そのため、単語の区切りを特定するのにテキストの解析が必要となり、それは非常に複雑な作業となる。
音声における形態素解析: 音声言語において、文字を表す音は前後の音と混じっているのが普通である。従って音声から文字を切り出すのは、非常に難しい作業となる。さらに、音声言語では単語と単語の区切りも（音としてのみ見れば）定かではなく、文脈や文法や意味といった情報を考慮しないと単語を切り出せない。
語義の曖昧性: 多くの単語は複数の意味を持つ。従って、特定の文脈においてもっともふさわしい意味を選択する必要がある。
構文の曖昧性: 自然言語の構文（構文規則）は曖昧である。1つの文に対応する複数の構文木が存在することも多い。もっとも適切な解釈（構文木）を選択するには、意味的情報や文脈情報を必要とする。
不完全な入力や間違った入力: 主語の省略や代名詞の対応などの問題（照応解析）。音声におけるアクセントのばらつき。構文上の誤りのある文の解析。光学文字認識における誤りの認識など。
言語行為: 文章は文字通りに解釈できない場合がある。例えば "Can you pass the salt?"（塩をとってもらえますか?）という問いに対する答えは、塩を相手に渡すことである。これに "Yes" とだけ答えて何もしないのはよい答えとは言えないが、"No" はむしろありうる答えで、"I'm afraid that I can't see it" はさらによい（塩がどこにあるかわからないとき）。

統計的自然言語処理

統計的自然言語処理は、確率論的あるいは統計学的手法を使って、上述の困難さに何らかの解決策を与えようとするものである。長い文になればなるほど、従来型の自然言語処理では解釈の可能性の組合せが指数関数的に増大していき、処理が困難となる。そのような場合に統計的自然言語処理が効果を発揮する。コーパス言語学やマルコフ連鎖といった手法が使われる。統計的自然言語処理の起源は、人工知能の中でもデータからの学習を研究する分野である機械学習やデータマイニングといった分野である。

自然言語処理の主な応用

自然言語処理の応用技術として、以下のような技術が研究・実用化されている。また、言語学への応用も考えられている。

自動要約生成
情報抽出
情報検索、検索エンジン、概念検索
機械翻訳、翻訳ソフト
固有表現抽出
自然言語生成
光学文字認識
質問応答システム
音声認識
音声合成
校正、スペルチェッカ
かな漢字変換

脚注

[脚注の使い方]

^ Mitkov, R. (2003) (英語). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press. ISBN 0198238827. OCLC 49204433
^ AIに言葉の意味はわかるか進化する自然言語処理日経サイエンス2021/5/28 閲覧

外部リンク

資料

言語情報処理ポータル
Stanford List of Statistical NLP Links
A comprehensive list of resources, classified by category^{[リンク切れ]}
Language Technology Documentation Centre in Finland (FiLT)

サーベイ

渡辺太郎「ニューラルネットワークによる構造学習の発展(<特集>ニューラルネットワーク研究のフロンティア)」『人工知能』第31巻第2号、人工知能学会、2016年3月、 202-209頁、 doi:10.11517/jjsai.31.2_202、 ISSN 2188-2266、 NAID 110010039602、2020年7月7日閲覧。

研究者の団体

情報処理学会自然言語処理研究会^{[リンク切れ]}
言語処理学会
The Association for Computational Linguistics

オープン実装

General Architecture for Text Engineering (GATE) - Javaベース
Natural Language Toolkit^{[リンク切れ]} (NLTK) - Pythonベース
Stanford's JavaNLP toolchain
OpenNLP Apacheプロジェクト。固有表現抽出、文書分類、言語判定が日本語対応。商用利用可。
DELPH-IN: integrated technology for deep language processing
Natural Language Toolkit^{[リンク切れ]}
MARF: Modular Audio Recognition Framework 音声および統計的自然言語処理
FreeLing: an open source suite of language analyzers^{[リンク切れ]}

UpToDate Contents

全文を閲覧するには購読必要です。 To read the full text you will need to subscribe.

1. 言語発達を含む萌芽的読み書きemergent literacy including language development [show details]
… expression; involves articulation, voice, fluency; Linguistics – CNS processing of sensory and motor functions and formulating language; Language has four components : Phonologic – Speech sounds, phonemes; Semantics …
2. 小児における発話および言語障害の病因etiology of speech and language disorders in children [show details]
… basis for learning problems such as reading and language disabilities . However, the diagnosis, management, and even the existence of auditory processing disorders are controversial. Some authorities suggest …
3. 失語症患者へのアプローチapproach to the patient with aphasia [show details]
…subserves the perception of written language, as well as other language-processing functions. Other regions of the cerebrum contribute importantly to normal language. These include the insula, which is …
4. 小児の聴覚障害：病因hearing loss in children etiology [show details]
… language, and cognitive development . Speech and language delays secondary to hearing loss are often preventable .… Central auditory processing disorder (CAPD) refers to inefficient and/or ineffective processing and utilization of auditory information…
5. 小児における読字障害：介入reading difficulty in children interventions [show details]
… phonemic awareness instruction was associated with changes in brain function specific to language processing to resemble the patterns in normal readers . Effective elements of phonemic awareness interventions …

Related Pictures

Nlpストックイラスト画像。22 Nlpイラストは数千もの Nlpストックイラスト画像。53 Nlpイラストは数千もの企業における自然言語処理技術の活用の現場（情報処理学会 Elaboratingイラストとクリップアート。2,142 Elaboratingロイヤリティ言語資源と付き合う大規模データ時代に求められる自然言語処理

★リンクテーブル★

関連記事	「処理」「自然」「言語」

「処理」

　　[★]

英: treatment、application、processing、transaction、treat、handle
関: 柄、応用、加工、処置、治療、適用、プロセシング、プロセッシング、申し込み、診療、散布、施用、取り扱う、ハンドル、アプリケーション、切り出し

「自然」

　　[★]

英

nature、natural、native、spontaneous、naturally、spontaneously

関: 原住民、自然発症、自然発症的、自発性、自発的、性質、当然、ネイチャー、本質、未変性、もっとも、天然、ネイティブ

「言語」

　　[★]

英: language、speech、verbal
関: 口演、発声、講演、スピーチ、演説、話

[1] Mitkov, R. (2003) (英語). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press. ISBN 0198238827. OCLC 49204433

[2] AIに言葉の意味はわかるか進化する自然言語処理日経サイエンス2021/5/28 閲覧

匿名

検索

案内

案内

自然言語処理