雪だるまを開発するにあたって、我々の考えていることをまとめます。
総合芸術一つ一つの技術を積み重ねていかない限り、高度な自然言語処理は実現しない。自然言語処理は総合芸術のようなもので、モデルのパラメータを一ついじるだけで問題が解決するような世界では決してない。 辞書レベル、単語レベルから地味で泥臭い積み重ねを行い、及びそれを蓄積していくことで初めて次の技術の突破口になる。いくら個別の技術を個別に研究していても、自然言語処理の全体像はいつまでも明らかになってくれない。しっかりとした土台を造り、基礎を固めていかなくてはならず、それを実現していない状態で最上階から見える景観の議論をやっていても不毛ではないのか。 学会発表の考察で、「形態素解析の解析誤り」とか「表記ゆれ」とかいう文言はもう聞きたくない。
継続的な改善いますぐ完全なものを作ることを最初からあきらめ、時間をかけて継続して改良していく。間違っていたら何度でも直せばいいではないか。 すなわち、気に入らない出力結果を見つけた時にすぐに改善できるという開発環境と開発体制、及びシステム構成が重要である。我々がシステムをWebベースにしてツールを配布しない、及びバージョンをつけない理由は1単語を変更するといった小改良を継続的に行いたいからである。機械学習(などの統計的な解析手法)を採用していたらこのような局所的な改善は一切望めない。
開発途中での公開科研費プロジェクト等の多くは、プロジェクトが終了してから試作システムを公開、あるいはいつまでも公開予定という場合が多い。これに対し、我々は5年プロジェクトの開始1年目からプロトタイプを一般公開し、希望者には利用していただいている。この方針にした我々の思いは下記の通りである。
- いつになったら公開するのか、と一般から批判・要望される余地を自ら断つ
- 直ちに公開することで実際に誰かの役に立っているという実感を早くから得ることができる
- 早くから、また少しでも多くの方からフィードバックを得たい
- すでに現状のシステムでも一部の方には有益だと思う
- いつになっても「完璧」なシステムなどできない。だとすれば、今すぐ公開すべきではないか
早期公開することで、不十分な解析しかできないというデメリットがあることは十分に承知しているが、この方針が一般に支持されることを信じている。
|