表記ゆれ解消API

雪だるまプロジェクトでは、表記ゆれ解消(表記統制)を専用に行うAPIを開発し、利用希望者に提供しています(APIとしては一般公開していません)。

機能

  • テキストを入力すると表記ゆれ解消されたテキストを返します。例えば、「めがねとメガネと眼鏡を買った」というテキストを入力すると、出力は表記統制されて「眼鏡と眼鏡と眼鏡を買った」になります。
  • 表記ゆれのどの単語に統一されるかは、雪だるま辞書に記述されています。これを「代表表記」と呼びます。代表表記は、複数表記のうち最も日常的に使用される表記という方針で記述しています。

特徴

  • 日本語として高品質の表記ゆれ解消機能を持っています。
    • 少なくともMeCab(IPADic、UniDic)よりも表記ゆれ解消に関して確実に高品質です。
    • 我々は継続的に表記ゆれの発見・解消に努めており、性能は現在も向上し続けています。
    • もし表記ゆれ解消できていない語句を見つけた場合、ご連絡いただければ速やかに対応しますので追加後は同じ表記ゆれは二度と発生しません。
  • 表記ゆれを辞書登録で解消しています。
    • 自然言語処理の分野で表記ゆれを自動的に発見する研究は数多くありますが、どのような手法であっても精度に問題があるため、これらの表記ゆれ検出/訂正手法をシステム化するだけでは実用になりません。実際に、研究はあっても(商品/フリーのどちらでも)表記ゆれ解消システムがほとんど存在しないのはこのためです。
    • 我々は、表記ゆれを見つけ次第すべて登録する、という原始的な手法でこの問題を解決できると考えており、現在実践しています。
    • 人手構築した辞書による表記ゆれ解消は、網羅性(再現率)に問題があって検出もれがある反面、誤解消する可能性が限りなく低く、表記ゆれと判断した表現に対する正確さ(精度)は100%と言って差し支えありません。しかも、辞書登録を続けることによって精度を一切劣化させることなく網羅性は上昇し続けます。従って、実用を考えた場合、地道に辞書登録を続けるのが実は最適な方法と考えます。
    • ちなみに、我々は表記ゆれの発見には様々な自然言語処理の技術を駆使しており、これらの出力を人手でチェック(取捨選択)することで表記ゆれ辞書の拡充を進めています。
  • この機能は雪だるま単語体系に依存しません。
    • 本機能は雪だるまの一機能として実装されていますが、本APIは入出力共にテキスト(文字列)であるテキスト変換機能として実装されています。よって MeCabなど他の形態素解析器をご利用の場合でも、これら処理の直前に本APIを呼び出すことで表記ゆれ解消が可能です。
    • すなわち、従来のいかなるシステムにも追加可能で、かつ1行を追加するだけで実現します。面倒な準備や設定は一切不要です。
  • 原則として、固有表現の表記ゆれには対応していません。詳しくは雪だるまの解析対象をご参照ください。
    • ただし「クウェート/クエート」「澤田/沢田」など、表記統制される固有名詞も一部含まれています。

利用条件

  • 我々はシステムや辞書(データ)の形では提供しません。Web APIなどの形で「機能」として提供します。
  • NDA契約、専用サーバーの立ち上げ、バージョンの固定は可能です。その他各種ご要望にも可能な限り対応します。
  • 民間企業等の場合は奨学寄附金等の形で、大学等の場合は科研費分担者等の形でプロジェクト/研究室に対する支援をお願いしています。
  • 詳しくは山本までお問合せください。

採用実績

  • チャットカスタマーサポート ConciergeU株式会社コンシェルジュ

履歴

  • 2016年7月 株式会社コンシェルジュ様で採用
  • 2016年7月 提供開始

Comments