出典(authority):フリー百科事典『ウィキペディア(Wikipedia)』「2022/08/28 03:41:56」(JST)
この記事には複数の問題があります。改善やノートページでの議論にご協力ください。
|
言語学 |
---|
基礎分野 |
|
言語の変化と変異 |
|
理論 |
|
応用分野 |
|
関連項目 |
|
|
|
自然言語処理(しぜんげんごしょり、英語: natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。「計算言語学」(computational linguistics)との類似もあるが、自然言語処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い[1]。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げられる。
自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法(統計や確率など)が広められた為、パーサ(統語解析器)などが一段と精度や速度が上がり、その意味合いは違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非常に限られている。このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをSyntaxなど表層的な観点から解析をする学問であるが、自然言語理解は、意味をどのように理解するかという個々人の理解と推論部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかどうかになってきている。
自然言語処理の基礎技術にはさまざまなものがある。自然言語処理はその性格上、扱う言語によって大きく処理の異なる部分がある。現在のところ、日本語を処理する基礎技術としては以下のものが主に研究されている。
現状発達している言語AI技術は、多次元のベクトルから、単語や文書の意味の近さを、その相互関係から推定しているもので、「AIの言語理解」は「人間の言語理解」は根本的に別物である[2]。
「自然言語理解は、AI完全問題と言われることがある。なぜなら、自然言語理解には世界全体についての知識とそれを操作する能力が必要と思われるためである。「理解; understanding」の定義は、自然言語処理の大きな課題のひとつでもある。
人間とコンピュータの間のインタラクションのインタフェース(ヒューマンマシンインタフェース)として、自然言語がもし使えたら非常に魅力的である、といったこともあり、コンピュータの登場初期(1960年頃)には自然言語処理にある種の過剰な期待もあった。SHRDLUなどの初期のシステムが、世界を限定することで非常にうまくいったことにより、すぐに行き過ぎた楽観主義に陥ったが、現実を相手にする曖昧さや複雑さがわかると、楽観的な見方や過剰な期待は基本的には無くなったが、何が簡単で何が難しいのか、といったようなことはなかなか共有されなかった。
やがて、21世紀に入ってしばらく後に「音声認識による便利なシステム」がいくつか実用化・実運用され多くの人が利用したことで、何が簡単で、どういう事に使うのは難しいのかが理解されるようになりつつある模様である。
2019年、GPT-2、BERTなど、ディープラーニングを応用した手法で大きなブレークスルーがあった。
自然言語処理(理解)における課題をいくつかの例を用いて示す。
We gave the monkeys the bananas because they were hungry.(猿が腹を空かせていたので、バナナを与えた。)
We gave the monkeys the bananas because they were over-ripe.(バナナは熟れ過ぎていたので、猿に与えた。)
Time flies like an arrow.(光陰矢の如し)
英語では特に語形変化による語彙の区別をする機能が弱いため、このような問題が大きくなる。
また、英語も含めて、形容詞と名詞の修飾関係の曖昧さもある。例えば、"pretty little girls' school"(かわいい小さな少女の学校)という文字列があるとする。
他にも次のような課題がある。
統計的自然言語処理は、確率論的あるいは統計学的手法を使って、上述の困難さに何らかの解決策を与えようとするものである。長い文になればなるほど、従来型の自然言語処理では解釈の可能性の組合せが指数関数的に増大していき、処理が困難となる。そのような場合に統計的自然言語処理が効果を発揮する。コーパス言語学やマルコフ連鎖といった手法が使われる。統計的自然言語処理の起源は、人工知能の中でもデータからの学習を研究する分野である機械学習やデータマイニングといった分野である。
自然言語処理の応用技術として、以下のような技術が研究・実用化されている。また、言語学への応用も考えられている。
[脚注の使い方] |
自然言語処理 | |||||
---|---|---|---|---|---|
基礎用語 |
| ||||
テキスト分析 |
| ||||
自動要約 |
| ||||
機械翻訳 |
| ||||
分布意味論(英語版)モデル |
| ||||
言語資源、 データセット・コーパス |
| ||||
自動認識・ データ取得(英語版) |
| ||||
トピックモデル(英語版) |
| ||||
レビュー支援 ツール(英語版) |
| ||||
自然言語ユーザー インターフェース(英語版) |
| ||||
他のソフトウェア |
|
典拠管理 |
|
---|
全文を閲覧するには購読必要です。 To read the full text you will need to subscribe.
関連記事 | 「処理」「自然」「言語」 |
.