参考:形態素と単語

形態素と単語

雪だるまプロジェクトにおいては、
    • Mecab-UniDic の出力した体系(すなわち途中段階)を「形態素」
    • 「形態素」を加工して雪だるまの出力した体系(すなわち最終段階)を「単語」
と呼んで、両者を明確に区別しています。つまり UniDic辞書体系での出力単位を「形態素」、雪だるま体系での出力単位を「単語」と呼んでいます。

これは便宜的な理由です。処理の過程を説明する際に、両者は別の呼称としたほうが分かりやすいため、このように統一しています。決して、MeCab-UniDic の出力が言語学的に言う形態素であると考えているからではありません。ただ、多くの解析器の中で本来の意味の形態素に最も近い体系で出力を行う解析器は MeCab-UniDic だと思いますので、この出力を形態素と呼ぶことは(確かに誤りですが)大きくは間違っていないのかもしれません。

形態素解析器と単語解析器

また、雪だるま自身は「形態素解析器」とは決して呼ばずに、「単語解析器」と呼んでいます。これは、解析器の出力は明らかに「単語」であって「形態素」ではないからです。

ちなみに、雪だるま以外のすべての「形態素解析器」についても出力は単語のはずです。よってすべて「単語解析器」と呼ぶほうがふさわしいとは思いますが、我々が呼称を変える権利も他システムの呼称に介入する必要もありません。よって、雪だるま以外については、それぞれの製作者・グループが呼んでいる通りに私も「形態素解析器」と呼びますが、雪だるまに対しては「単語解析器」と一貫して呼ぶことにしています。

私(山本)は、形態素や形態素解析に対する誤った理解・認識は、今からでも改めていくべきと考えています。

Comments