表記ゆれ

雪だるまでは、以下のようなものを表記ゆれと考え、同一化しています。
  • 文字種の異なり
    • 例: 「りんご」と「リンゴ」と「林檎」
    • ただし、曖昧性のある表記ゆれの吸収は行っていません。例えば、動詞「きく」は「聞く/効く」など異なった意味の複数の表記がありますので、このような場合は曖昧性解消を行わず「きく」としています。
  • 漢字間の異なり(字体の異なり等)
    • 例: 「附属」と「付属」、「竜馬」と「龍馬」
    • ただし、完全に同義とは言えないものは同一化しません。例えば、「聞く」と「聴く」は表記ゆれとは考えずに同一化していません(このような語は同義語処理で同一概念化しています)。
  • 部分的な漢字仮名交じり単語
    • 例: 「改ざんする」と「改竄する」
  • 送りがなの異なり
    • 例: 「受付ける」と「受け付ける」
  • 外来語表記のバリエーション
    • 例: 「コンピュータ」と「コンピューター」、「バイオリン」と「ヴァイオリン」
  • 口語的表現
    • 例: 「~ている」と「~てる」、「すばしっこい」と「すばしこい」
  • 略語
    • 「取説」と「取扱説明書」、「チョコ」と「チョコレート」
    • 略語は表記ゆれの一種として考え、上記のような略語にも対応しています。


NAIST-jdicとの比較

NAIST-jdic には辞書内に Diff_notation という情報があり、これによってまとめ上げを行っている。しかし、下記のように必要以上にまとめ上げている傾向が見られます。
  • 空ける/明ける
  • 感づく/勘づく
  • 炒る/煎る/いる
  • 甘い/美味い/あまい
  • 帰る/返る/孵る/かえる
  • あう/会う/合う/逢う/遭う
  • 結う/ゆう/いう/云う/謂う
  • 買える/替える/かえる/飼える/代える/換える
  • 揚る/揚がる/騰がる/騰る/あがる/上がる
  • 撃ち取る/討取る/討ちとる/打ち取る/討ち取る/打取る
  • 篤い/熱し/厚い/暑し/あつい/熱い/あつし/暑い/厚し
また、逆に下記のような語はNAIST-jdicの情報でまとめ上げが行われません(雪だるまではすべてまとめ上げられます)。
  • 空缶/空カン/空かん/あき缶/空きカン/空き缶
  • 抱合わせ/抱きあわせ/抱き合せ/抱き合わせ
  • 立ちあがり/立ち上がり/立上がり/立ち上り
  • 独り暮し/一人暮し/一人暮らし/独り暮らし
  • あかとんぼ/赤とんぼ/赤トンボ
  • シューマイ/シウマイ/焼売/シュウマイ

UniDicとの比較

UniDicには「語彙素」という概念があり、雪だるまと同様に表記ゆれのまとめあげを行っています。しかし、特にひらがな語と漢字語間のまとめあげについては問題があります。例えば、「にる」という単語は「煮る」「似る」などの対応する漢字がありますが、UniDicを用いて形態素解析すると「にる」(例えば「母親ににる」)は常に「煮る」(語彙素表記で、母親/に/煮る)となります。

雪だるまでの方針

雪だるまでは上記のような無理なまとめあげは行っていません。
  • ひらがなの語に曖昧さがある時は無理にまとめ上げを行いません。例えば「にる」を解析すると常に「にる」と出力されますので、少なくとも他の辞書のように「似る」または「煮る」に同一化するような誤りは起きません(曖昧性の保持)。これは、「にる」が「煮る/似る」のどちらの意味なのかを決める処理(語義曖昧性解消)を今後実装する予定でおり、形態素解析と語義曖昧性解消処理を明確に分離しています。
  • 「逢う」と「会う」のような、同音でも意味が若干異なる可能性がある場合もまとめ上げを行いません。このような場合、雪だるまでは同義語処理によって同一化を行っています(表記ゆれと同義語処理の分離)。

表記ゆれ解消API

プロジェクトでは表記ゆれ解消APIを希望者に提供しています。詳しくはこのページをご覧ください。