雪だるまは日本語の「単語解析器」です。入力された任意の日本語文を単語列に分割し、表記ゆれを集約した上で品詞など様々な情報を付与して出力します。
【特徴】
〇出力は単語です。形態素ではありません。
「気が早い」のような慣用句や複合辞(「かもしれない」)、サ変動詞(「勉強する」)、形容動詞(「無理だ」)など、まとまって一つの意味を持つ複数形態素を1単語として出力します。形態素の結合について、詳しくはこちらをご覧ください。
「コンピュータ」と「コンピューター」、あるいは「受付ける」と「受け付ける」といった表記ゆれを吸収します。また、「取説」と「取扱説明書」のような略語も表記ゆれの一種として考え、上記のような略語にも対応しています。表記ゆれの吸収について、詳しくはこちらをご覧ください。
「赤ちゃん」と「赤ん坊」など、同義語を同一化することが簡単にできます。また、この機能によって両単語の使用実態の差異を分析することも容易です。同義語の同定について、詳しくはこちらをご覧ください。
〇操作は簡単です。
- Webインターフェースですので、ツールをダウンロードしたり、インストールする必要が一切ありません。
- ブラウザだけで利用可能ですのでWindows/Mac/Linux等のOSに非依存で、インターネット接続さえあれば誰でも利用可能です。
- ただし現在は限定公開中のため、URLは公開していません。ご了承ください。
〇バージョンはありません。
- 予告なく日々改善していますので、雪だるまにバージョンはありません。バージョンの代わりに解析年月日をご利用ください。
- 研究目的などで挙動が変化しない固定化をどうしてもご希望の場合は、ご相談ください。
〇みんなで作る解析器です。
- プロジェクト内で全力で改善していますが、出力結果にはまだ誤解析、未対応部分も数多くあります。我々だけで完成できるとは最初から期待していませんし、その意味では、改善はあっても「完成」はないのかもしれません。
- おかしな解析結果を見つけましたらフォーラムにご連絡ください。
〇その他の特徴
【現況】
|
|