解析対象

雪だるまはありとあらゆる日本語を対象にしている訳ではなく、対象にいくつかの制限を設けています。
  • 固有表現(人名、地名、組織名等)の充実はプロジェクトの対象外としています。
    • ただし、「ベートーベン」や「東京」など、UniDicに収録されている固有名詞等は正しく認識されます。
  • 絵文字、顔文字などは全く考慮していません。
    • ただし、UniDicに単語として登録されているものは正しく出力されます。
  • 「ネ申」「氏ね」kwsk」「ぉぃしぃ」「お~~い」のような口語表現、スラング等は現状で対象外です。
    • ただし、この一部については今後余裕があれば対象とする可能性があります。
  • 日本語学習者が記述した誤った日本語(特に表記レベル)については、現状で何も考慮していませんがプロジェクト後期において対処する予定でいます。
まとめると、「日常使用する日本語」を正しく(そしてより高度に)解析することが最初に対処すべき目標であり、またこれが最も重要であると考えています。従って Twitter や2ちゃんねる等のWeb特有のテキストを解析することは想定していません。

普通の日本語が普通に解析できる、これこそが雪だるまプロジェクトの使命です。