人工言語創作アドカレ19日目の記事です。今回はコーパスについて取り上げようと思います。内容盛り盛りなのでシリーズ機能を使って前後編の二部構成でお送りします。
なお本シリーズは元々ラヴェラ1に出そうとしていた発表ポスターの稿をベースに執筆しているので、文体がやや硬い点はご容赦ください。
昨日のすきともさんの記事、非常に興味深かったですね。私達2オレオレ辞書形式作者や人工言語のための情報技術・知識情報の研究開発・標準化関係者にとって、容易に新たな形式を試せるサンドボックスソフトの出現は非常に朗報だと思います(このすきともさん自身もこの分野の人なのですがねまぁ)。
後編⇨
コーパス・コーパス言語学とは
さて、本題に入っていくこととしましょうか。皆さんの中には、「コーパス」という言葉は聞いたことあるけど、それが(具体的に)どんなものなのか知らない、という人が多いのではないでしょうか。そのような読者の皆さんのためにも、まずはコーパスやコーパス言語学とは何か、ということについて紐解いていきましょう。
コーパス言語学は、(言語について究明する学問である)言語学を構成する一分野で、「コーパス」を利用して言語を分析・記述する学問領域です(Saito98, p.3)。
では、この「コーパス」とは何でしょうか?The Oxford English Dictionary(OED)には'the body of written or spoken natural upon which linguistic analysis'(1956)とあり、「実際に(人々の間で)運用されている言語の定性的・定量的な分析・記述を行うための、言語運用の資料(言語テキスト)の集積」と言うことができます(Saito98, p.3-4)。
インターネットが発達した現在では、「コーパス」と言えば専ら(コンピュータ上で処理可能な)電子的な言語テキストの集合体であることが殆どです。
コーパス言語学は、言語学の中で、次のような3つの特徴を持っています(Saito98, p.4)(Leech92)。
- 言語能力(言語認知や言語習得)よりも言語運用に重点を置いている
- 言語の普遍的特性よりも実証的な分析に重点を置いている
- 言語モデル3の構築において、言語の性質だけでなく数量にも重点を置いている
このようにコーパス言語学は、生成文法とは対照的な立場にある分野ではあります。
コーパスの特性と種類
では、コーパスというものが具体的にどのようなものであるかを見ていきましょう。
コーパスの質と量
まず、コーパスの特性について考えてみます。上でも説明した通り、コーパスの主目的として言語を定性的定量的に分析するというものがあります。分析するということは、特定の観点に基づいて総覧したり比較したりするわけですが、ここでその観点に基づいて分類されたテキストが、それぞれの分類を代表しているという前提を置く必要があります。この特性を「代表性」と呼びます。
代表性を達成するには、テキスト量を増やすことのほか、分析対象以外の観点での分類によるテキスト収集のバランスをとり質を高めるなどの方法があります。
コーパスの種類
コーパスは、サンプル量や目的、時代、伝達手段などによって分類することができます。これらの分類の違いによってどんな言語テキストを蒐集するか、コーパスデザインをどのようにするかなどが変わってきます。
サンプルコーパスとモニターコーパス
テキストを一定量収集したのち以後変化させないコーパスをサンプルコーパスといい、また常に変化する言語を監視し、古いものを捨て新しいものを加えるコーパスをモニターコーパスと呼びます。
汎用コーパスと特殊目的コーパス
汎用に編纂されたコーパスのほか、特殊目的コーパスとして、特定の年齢層や地域、分野に特化したコーパスや、言語学習のために編纂された学習者コーパスや、複数言語の比較のために編纂されたパラレルコーパスなどがあります。
共時コーパスと通時コーパス
時代による分類では、蒐集するサンプルを同時代に限った共時コーパスと、複数の時代区分を設け時代ごとの違いを見る通時コーパスに分けられます。
文字言語コーパスと音声言語コーパス
また伝達手段によって、書き言葉のみを収集した文字言語コーパス、話し言葉のみを収集した音声言語コーパス、そしてそれら双方を共に収集したコーパスなどに分けられます。
その他の種類
そのほか、個別のコンピュータ上にデータを置くオフラインコーパスとサーバにデータを置きインターネットを通じてアクセスするオンラインコーパスなどの区別があります。
コーパスデザイン
次に、代表的なコーパスがどのようなデザインによって収集・整理されているか見てみましょう。多くのコーパスでは、数百テキスト100万語から大規模なもので数千テキスト1億語のサンプルが、単一観点十数カテゴリ、ないし複数観点総計数十カテゴリに分けられて収められています。
カテゴリは、小説・教育・報道・ビジネス・日常会話といった分野や、テキストの出所(メディアの種類)、発話年月、話者の年齢・社会階層・性別・地域などといった属性、話者の数・準備有無・話者間の関係といった話の形式によって分類されていることが多いです。このことは、ジョキのような観点で分析サれることが多いということでもあります。
コーパスの付帯情報
付帯情報には、テキストの出典や発話状況などのサンプルに関する情報、話者交代や重なり、強調、取り消しといった文脈的な情報、品詞や統語構造などの言語的な情報があります。また、話し言葉ではイントネーションやポーズといった韻律特性にまつわる情報も含まれます。このような情報を付加させることを情報付与(アノテーション, annotation)、タグ付けといいます。
コーパスの記述形式
コーパスが生まれた初期の頃はテキストを平文(plain text, raw text)で集積していましたが、それでは分析に不便だということで次第に参照情報・メタ情報・文法情報などの付帯情報をタグ付けするようになります。これがコーパス記述形式の萌芽で、初期の形式には一行の最大桁数を決め冒頭の固定桁数にテキスト付帯情報を示す固定長形式や、COCOAというコーパス処理ソフトウェアが使用していたデファクトであるCOCOA形式などがあります。COCOA形式は矢括弧内に付帯情報(付帯情報の種類と内容)を収めテキストのヘッダ部に配置する形式です。
その後、SGMLやXMLなどのマークアップ言語を用いた、標準化志向の記述形式が現れてきます。SGMLを応用したTEI(Text Encoding Initiative)による形式やCDIF(Corpus Document Interchange Format)、XMLに基づいたXCES(Corpus Encrding Standard for XML)(EAGLES(Expert Advisory Group on Language Engineering Standards)が開発した形式群の一つ)などが挙げられます。
現代では、JSONやYAMLなどの類の形式を用いることとなると思います。
コーパスの編纂
ここでは、タグ付けされた電子コーパスの編纂手順についてざっと追っていきます。
まず、事前準備として、電子テキスト形式でないサンプルは、OCRや文字起こしなどで電子テキストにします。
タグ付けではまず第一に品詞をタグ付けし、ついで活用曲用を見出し語となる代表形に直し(このとき、活用曲用の情報もタグ付けしておくと良いでしょう)、それをもとに構文解析していきます。
品詞のタグ付けは、辞書を引きつつその語に有り得る全ての品詞をつけます。タグ付けプログラムは、文法規則に基づくタガーと確率論に基づくタガーに大別されます。
こうして得られた情報やテキストを特定の形式のもとに記録していくことでコーパスが完成します。
コーパスの関連分野
コーパスと辞書用例
先程「コーパスの編纂」章で言及した通りタグ付けにおいて辞書を利用するほか、コーパスに基づいて辞書中の各見出し語における用例部分の生成を行うということもできる。ここで、コーパスのバランスや客観性に気をつける必要があります。
コーパスを用いた言語学習
言語学習において、辞書の用例からコンコーダンスとして間接的にコーパスを用いるほか、「コーパスの種類」節で示した通り、特殊目的コーパスという分類の中に含まれる学習者コーパスというものがあり、それを言語学習に用いることができる。これは、言語学習者が発話・作文したものを収集したコーパスで、これを解析することにより学習者が陥りがちな誤りを発見することが出来ます。
参考文献
- [Saito98]:齋藤俊雄 et al.『英語コーパス言語学 基礎と実践』、改訂新版、(1998年3月21日初版 2005年2月10日改訂新版、研究社)
- [Leech92]:Leech, G.『Corpora and Theories of Linguistic Performance』、(1992年、J. Svartvik)
Top comments (0)