品詞体系

特徴

雪だるまの品詞体系は以下のような特徴があります。
  • 品詞は単一階層です。他の形態素解析辞書と違って何階層も再分類があるということはありません。
  • できるだけ品詞数を少なくしたいと考え、後続の処理で必要のなさそうな差異は無視して統合しています。
  • 固有名詞、代名詞を廃止しました。
    • これはこの品詞だけ意味分類を行う必要はないと考えたためです。
  • いわゆるサ変名詞(「勉強」)とサ変動詞(「勉強する」)は明確に分離しています。
    • 従来の形態素解析は「勉強する」を「勉強」と「する」の2語と考え、「勉強」には常に同一の品詞を与えていました。このため、「勉強」と「勉強する」を分離して検索や統計を取りたい場合に手間がかかりました。
    • 雪だるまでは、「勉強」は名詞、「勉強する」は1語の動詞として出力されます。
    • 同様に、いわゆる形状詞(「無理な」)と名詞(「無理」)も異なる品詞として出力されます。
  • 数量詞を導入しました。
    • 数量詞は独特の振る舞いをすると考え、他の品詞からは独立させました。

品詞体系

これからも微調整を行っていくため、変更される可能性があります。
  • 品詞名の「複合名詞」「複合形容詞」についてはこちらのページをご参照ください。

Comments