HOME > テキスト・マイニング研究会とは
「テキスト・マイニング研究会」(略称:TM研究会)は、テキスト・マイニングあるいはテキスト型データのマイニングに関連する各種の情報を提供するための活動組織(任意団体)です。主にWordMiner™(ワードマイナー)ユーザ向けの情報を提供いたしますが、ユーザでない方々でも、テキスト・マイニングに関心を持ち、また関連の諸情報を知りたいときに、広くご利用できるような情報の発信を目指す組織です。
一般に、テキスト・マイニング(text mining)あるいはテキスト型データのマイニング(textual data mining)とは、取得・蓄積された大規模なテキスト型データという鉱脈(mine)の中から、意味ある構造の探査、類似・関連性の抽出、類型化などを行い、客観的な知識発見とその組織化を図る方法論とされております。
しかし、周知のように国内では、テキスト・マイニングは、主に社会調査(意識調査、態度調査)、市場調査などの分野で高い関心を集め、加えて解析用のソフトウェアの登場などもあり、急速に普及しつあります。
国内で、調査関連の分野で関心が高まった理由はいくつか考えられます。その一つは、近年は比較的多量のサンプルを取得するという従来型の選択肢型設問を用いることが調査経費面や実施環境の悪化などで次第に困難となったことから、定量的調査に加えて、自由回答・自由記述設問、グループ・インタビューあるいはフォーカス・グループ、談話分析、日記分析などの定性情報の利用や分析に関心が移りつつあることがあります。
別の理由として、テキスト型データの電子的取得が容易となったことがあります。例えば、インターネット調査では自由回答取得が電子的に可能であること、コール・センターやコンタクト・センターでは、顧客・消費者の「生の声」がデータベース上に大量に蓄積されるなど、この種のテキスト型データの取得がきわめて容易な環境が整ってきました。
このようなことから、テキスト型データの実用的な解析手法を求める声が聞かれるようになりました。このためにはテキスト・マイニングの方法論とそれを具現化するソフトウェア開発が必要とされるのですが、日本国内では、この分野の実用研究が今ひとつ遅れていた感がありました。我々は、こうした要請に少しでも応えたいと考え、十数年前からフランスの研究者であり友人でもあるLebart氏(CNRS:フランス国立科学研究センター、研究開発部長)等のグループとの連携研究を進め、テキスト型データ解析ソフトウェアの研究開発を行ってまいりました。しかし、欧米言語のテキスト型データを扱う解析と異なり、日本語の抱える難題も克服せねばならず、単に統計解析の知識技法だけでは市場の厳しい要請に耐えるソフトの開発は難しいという現実にも遭遇しました。
また、ソフト開発には、研究者の机上のアイデアだけでなく、データ解析の現場の声を反映させた実用に即した統計的データ解析技法、日本語分析(形態素解析、分かち書き処理等)、プログラミング技法のバランスが必要とされます。WordMiner™はこれらに留意し、研究者グループ、ソフトウェア開発企業などが参加した産学協同によるコラボレーションにより誕生した“テキスト型データ解析ソフトウェア”です。
もちろんソフトウェアが存在するだけで、現象解明に即座に寄与できるわけではありません。我々の主張は、ソフトウェア・パッケージという実体だけではなく、それを使いこなすためのアイディア、ノウハウなど、目にみえない広い意味でのソフトウェア・サポートが重要と考えることにあります。
このような観点から、本研究会では以下のような活動を進めてまいります。
(1) このホームページを通じて、広くテキスト・マイニング関連情報の提供を行うこと
(2) WordMinerユーザへのテクニカル・サポートを行うこと
(3) WordMiner活用セミナーの開催
(4) WordMinerユーザ向けの「Q&A」対応窓口を設けて、お問い合わせへのヘルプを行うこと
(5) その他の関連情報の提供のリンク集、例えば学術学会、出版社、統計ソフトウェアなど
これまでに開催したWordMiner活用セミナーは、いずれもたいへん好評をいただいております。今後は内容をさらに充実させ、以下のようにきめ細かい対応となるよう努める所存です。
つまり、「テキスト型データのマイニング」に関連して必要とされる諸技法、諸機能を、多方位的に視点を変えながらメ適宜内容を組み合わせモながら紹介するという試みです。もちろん、我々が投入可能なマンパワーの範囲では、ご提供できる内容に限界がありますが、インターネットによる「Q&A」対応窓口もご利用いただくなどして、なるべく皆様のご期待の添えるよう努める所存です。
テキスト・マイニング研究会がこのような主旨の下に活動を展開する理由は多々あります。とくに最近の風潮として、少々いい加減な分析であっても、何事も簡単で迅速が歓迎される傾向にあるようです。このこと自体は重要なキーワードではありますが、多くの場合、分析の内容や用いた方法論が暗箱化、何が行われたのかが不透明であっても「結果がそれらしく、見た目がよい」ものであれば、それで納得というようにも見えます。しかし本当にこれでよいのかを、改めて考えるべき時期にあるのではないでしょうか。おそらく今のままでは、テキスト・マイニングという美味しそうな言葉も次第に魅力が失せ、また飽きられるようにも見えるのです。とくに何とは指摘はしませんが、かって様々な方法論、手法が高い期待をもって登場したにも関わらず、いつの間にか消滅したようにです。こうした前轍を踏まぬためには、多少はスローであっても透明で科学性に則った方法論とそれを実現するソフトウェア環境を地道に根気よく築き上げるしかありせん。
我々はその指針の原点を「データ科学」(data science)の理念に求めました。つまり、テキスト・マイニングに限らず、現象解明に必要な理念の基礎として、
が重要な要素と考えてまいりました。例えば自由回答設問の設計はもとより、コール・センターやコンタクト・センターでのデータベース構築技法等に至る広い視野に立ったデータ取得機構の設計指針が必要とされます。このようにWordMiner設計においては「データ科学」に基づく知恵と工夫を投入しました。周到な実験計画に基づくデータ取得環境の構築とその環境下での科学的データ取得法の研究が協調した中での実用的ソフトの開発が肝要であり、WordMinerはこれをかなり忠実に実現できたものと考えております。
テキスト・マイニング研究会のスタッフは,いままでに多数のテキスト型データの解析を体験してまいりました。こうしたノウハウを活かしたデータ解析のコンサルティングのご相談に応じております。
調査分析の基礎的なサポートから、統計的手法,多変量解析・多次元データ解析などの各種方法論を用いた高度な分析まで、広く対応できることが我々の特徴と自負いたしております。とくに、豊富な経験を活かしたWordMinerによるテキスト型データの分析や新しいマイニングの各種の方法論、分析指針のヒントをご提供することができます。
この件に関するお問い合わせは、このWebサイトの「ユーザサポート」をご利用いただくか、または、下記のテキスト・マイニング研究会までお問い合わせください。
テキスト・マイニング研究会を通じて、こうした理念に沿って、有用なテキスト・マイニング・ツールはどうあるべきかを常に考えながら、ユーザにとって有効なテキスト型データ解析のための理論・手法を探求し、また普及を図ることを目的とした活動を続けます。今後も、皆様のご支援とご理解のほど、よろしくお願いいたします。
大隅 昇
大学共同利用機関法人 情報システム研究機構 統計数理研究所、名誉教授
(旧 文部科学省 統計数理研究所)
〒112-0002
東京都文京区小石川1-3-21 日本生命春日町第2ビル
(株)平和情報センター内 テキスト・マイニング研究会
保田 明夫
TEL:03-5802-2704 FAX:03-5802-2749
Email:wordminer@comquest.co.jp