- 関
- corpuscle
WordNet
- a collection of writings; "he edited the Hemingway corpus"
- the main part of an organ or other bodily structure
- a stream of atomic or subatomic particles that may be charged positively (e.g. alpha particles) or negatively (e.g. beta particles) or not at all (e.g. neutrons) (同)particulate radiation
- of or relating to corpuscles
PrepTutorEJDIC
- (特定の事に関する,または特殊の性質の)文書資料の集成 / (研究用に収集した)資料
- (血液,リンパ液中の)小球,血球 / 微粒子
- corpusの複数形
Wikipedia preview
出典(authority):フリー百科事典『ウィキペディア(Wikipedia)』「2015/09/09 00:46:37」(JST)
[Wiki ja表示]
|
この項目では、自然言語の文章を構造化し大規模に集積したものについて説明しています。その他の用法については「コーパス (曖昧さ回避)」をご覧ください。 |
|
言語学 |
|
基礎分野 |
音韻論
形態論
統語論
意味論
語用論
音声学
記号学
個別言語学
言語獲得
言語の起源 |
言語の変化と変異 |
歴史言語学
比較言語学
言語地理学
方言学
言語類型論
言語系統論
言語年代学
社会言語学 |
理論 |
生成言語学
認知言語学
理論言語学 |
応用分野 |
応用言語学
言語人類学
社会言語学
心理言語学
神経言語学
生物言語学
計算言語学 |
関連項目 |
言語
言語学者 |
Portal:言語学
プロジェクト:言語学 |
|
コーパス(corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。
概要
「身体」を意味するラテン語corpusに由来する。複数形はcorpora(コーポラ)。英語式複数形としたcorpusesの使用も散見される。
大規模なコーパスの作成には相当の費用と時間がかかる。使用する文章に関わる著作権などの法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用によりそれ以前に比べかなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。
構造化した言語データを一般利用するという観点からは、三省堂がウィズダム英和・和英辞典の用例を「用例コーパス」として期間限定で無料公開している。
日本でコーパスを一般に広く知らしめたのは、英語学者の投野由紀夫である。2003年、NHK教育テレビジョン『100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた『コーパス100!で英会話』が放送されている。
関連項目
- コーパス言語学
- 言語資源
- 計算言語学
- 辞典
- ツリーバンク
- 言語資料学
- 構文解析
- 形式文法
- 句構造規則
- 語彙項目
- en:Quranic Arabic Corpus
外部リンク
- KOTONOHA計画
- 三省堂「用例コーパス」
- 特定領域研究「日本語コーパス」
- American National Corpus(アメリカ英語のコーパス)
- NINJAL-LWP for TWC(「筑波ウェブコーパス」を検索するためのツール)
- byu.edu(Mark Davies教授による 英語, スペイン語, ポルトガル語等に対応するコーパスのリンク集)
|
この項目は、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(PJ:コンピュータ/P:コンピュータ)。 |
|
この項目は、言語学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(ウィキポータル 言語学)。 |
[Wiki en表示]
|
Look up corpora, corpus, or corpuses in Wiktionary, the free dictionary. |
Corpus (Latin plural corpora, English plural corpuses or corpora) is Latin for body. It may refer to:
- Corpus Christi (disambiguation)
- Corpus, the figure of Christ on a crucifix
- Corpus linguistics, the study of language as expressed in samples (corpora) of "real world" text
- Text corpus, in linguistics, a large and structured set of texts
- Speech corpus, in linguistics, a large set of speech audio files
Contents
- 1 Law
- 2 Biology
- 3 Writings (including medical and legal)
- 4 Arts
- 5 Business and finance
- 6 Other
Law
- Habeas corpus, a legal mechanism to end detention of a suspect
- Corpus delicti, a legal term meaning "body of the crime"
Biology
- Corpus callosum, a structure in the brain
- Corpus cavernosum (disambiguation), a pair of structures in human genitals
- Corpus luteum, a temporary endocrine structure in mammals
- Corpus gastricum, the Latin term referring to the body of the stomach
- Corpus alienum, a foreign object originating outside the body
Writings (including medical and legal)
- Hippocratic Corpus, the lectures and writings of Hippocrates
- Corpus Inscriptionum Etruscarum, an index of Etruscan texts
- Corpus Reformatorum, a collection of Reformation writings
- An abbreviation for the Corpus Juris Civilis, a collection of four books on law by Justinian I
- Corpus Hermeticum, a collection of Egyptian-Greek Wisdom texts from the second century
- Corpus Areopagiticum, a collection of theologic and phlisophic texts attributed to a "Dionysius"
- Corpus Aristotelicum, a collection of texts by the philosopher Aristotle
- Corpus Scriptorum Christianorum Orientalium, a collection of eastern Christian texts with over 600 volumes
- corpus (typography), another name for long primer-size type
Arts
- Corpus (band), Punk band from Sydney, Australia
- Corpus (album), by Sebastian Santa Maria
- Corpus Delicti (band), also known simply as "Corpus"
- Corpus Callosum (2007 film), a 2007 film
- Corpus (Bernini), a 1650 sculpture of Christ by Gian Lorenzo Bernini
- Corpus (museum), a human body themed museum in the Netherlands
- The Corpus Clock, a large sculptural clock
- Corpus (dance troupe), a Canadian dance troupe
- Corpus (board game), an abstract strategy game by R3 Design Group
Business and finance
- Corpus Fund, the capital generated for the continued sustainence of an organization
Other
- Corpus separatum (disambiguation), a form of political administration used in international conflict resolution
UpToDate Contents
全文を閲覧するには購読必要です。 To read the full text you will need to subscribe.
English Journal
- Work duration does not affect cortisol output in experienced firefighters performing live burn drills.
- Rosalky DS1, Hostler D2, Webb HE3.
- Applied ergonomics.Appl Ergon.2017 Jan;58:583-91. doi: 10.1016/j.apergo.2016.04.008. Epub 2016 May 1.
- Work duration may affect firefighters' stress responses. Forty-two firefighters (38 males) performed either 2 (SWD) or 3 (LWD) bouts of simulated fire suppression activity. Salivary cortisol, self-reported fear and anxiety, and perceptual thermal responses were measured. Cortisol was evaluated using
- PMID 27146634
- Induction of Genes Expressed in Endothelial Cells of the Corpus Callosum in the Chronic Cerebral Hypoperfusion Rat Model.
- Aso Y1, Nakamura K, Kimura N, Takemaru M, Arakawa R, Fujiki M, Hirano T, Kumamoto T, Matsubara E.
- Pathobiology : journal of immunopathology, molecular and cellular biology.Pathobiology.2017;84(1):25-37. doi: 10.1159/000446876. Epub 2016 Jul 27.
- BACKGROUND: Cerebrovascular white matter lesions (WMLs) are associated with cognitive impairment in patients with subcortical vascular dementia. We performed a comprehensive gene expression analysis to elucidate genes associated with WML development in a chronic cerebral hypoperfusion rat model.METH
- PMID 27458816
- A global view on cancer incidence and national levels of the human development index.
- Fidler MM1, Soerjomataram I2, Bray F2.
- International journal of cancer.Int J Cancer.2016 Dec 1;139(11):2436-46. doi: 10.1002/ijc.30382. Epub 2016 Aug 30.
- Socioeconomic factors are associated with cancer incidence through complex and variable pathways. We assessed cancer incidence for all cancers combined and 27 major types according to national human development levels. Using GLOBOCAN data for 184 countries, age-standardized incidence rates (ASRs) we
- PMID 27522007
- Reduced white matter integrity and its correlation with clinical symptom in first-episode, treatment-naive generalized anxiety disorder.
- Wang W1, Qian S2, Liu K2, Li B2, Li M2, Xin K3, Sun G4.
- Behavioural brain research.Behav Brain Res.2016 Nov 1;314:159-64. doi: 10.1016/j.bbr.2016.08.017. Epub 2016 Aug 8.
- The purpose of this study was to explore white matter microstructural alterations in the patients with generalized anxiety disorder (GAD) using diffusion tensor imaging (DTI) technique, and to assess neural associations with the symptom severity. Twenty-eight first-episode, treatment-naive GAD patie
- PMID 27515289
Japanese Journal
- 『日本語歴史コーパス』による平安時代と室町時代の語彙の比較
- 田中 牧郎
- 国語研プロジェクトレビュー 6(1), 11-20, 2015-06
- 本論文では,『日本語歴史コーパス』を用いて,平安和文と室町狂言の語彙調査を行った。その結果,全体として漢語と混種語が大きく増加していることと,高頻度の基本的な語彙においてもそれらの語種が大きく増加していることがわかった。また,漢語はその数が増加しただけではなく,その意味の範囲も拡大させていた。この変化は,時代差だけでなく,ジャンル差によるところもあると考えられる。以上の結果をもとに,コーパスによる …
- NAID 110009910086
- 浅原 正幸
- 国語研プロジェクトレビュー 6(1), 1-10, 2015-06
- 国立国語研究所コーパス開発センターでは2011年より超大規模コーパス構築プロジェクトとして,Webを母集団とした100億語規模のコーパスの構築を進めている。構築にあたっては,工程を収集・組織化・利活用・保存の4つに分割して実装を進めている。2012年第4四半期より3か月ごとに1億URLのクロールを繰り返し実施している。本稿では構築されたコーパスデータの基礎統計量を示し,本コーパスを用いて,どのよう …
- NAID 110009910085
- 複数ジャンルを対象とした基本固有表現タグ付きコーパスの作成
- 岩倉 友哉,平田 亜衣,立花 竜一,山崎 舞子,市原 正陽,古宮 嘉那子
- 情報処理学会研究報告. SLP, 音声言語情報処理 2015-SLP-106(13), 1-5, 2015-05-18
- 本稿では,BCCWJ の複数ジャンルの文書を対象とした固有表現タグ付きコーパスを紹介する.本コーパスは,BCCWJ のコアデータに含まれる Yahoo! 知恵袋,白書,Yahoo! ブログ,書籍,雑誌,新聞の 6 分野,136 文書から構成されており,IREX で定義された 8 種類の固有表現タグが合計 2,464 表現に付与されている.
- NAID 110009899883
- 北? 勇帆
- 情報処理学会研究報告. 人文科学とコンピュータ研究会報告 2015-CH-106(5), 1-6, 2015-05-09
- 洒落本は,近世期に刊行された小説の一形態であり,近世日本語の口語資料としての有用性が高い.この洒落本には,書名や話の粗筋を同一にしながら,江戸板・上方板で内容や語彙に異同のある作品が存在する.上方で刊行されたものが後に江戸で改作された 『月花余情』 組と,江戸で刊行されたものが後に上方で刊行された 『郭中奇譚』 組である.本稿ではそのような江戸・上方間で改作が行われた洒落本のテキストを TEI P …
- NAID 110009899547
Related Links
- 株式会社コーパスは、各種ラベル、POP、CDラベル、はがき宛名などを印刷できる「夢ぷりんと」など、多彩なラベル作成ソフトを販売しています。
- 「座ること」を探究しつづけるオーダーメイドの椅子づくり
- 450 million word corpus of American English, 1990-2012. Compare to the BNC and ANC. Large, balanced, up-to-date, and freely-available online. ... THE CORPUS OF CONTEMPORARY AMERICAN ENGLISH (COCA) 450 MILLION ...
Related Pictures
★リンクテーブル★
[★]
- 英
- body
- ラ
- corpus、corpora
- 関
- 肉体、身体、本体、コーパス、ボディー
[★]
- 関
- corpuscular, corpus
[★]
体
- 関
- body、corpus