実験のはじまり

さて、前回はネットワークの概要を書きました。その中で、コミュニティ解析が無秩序なデータが秩序立って見えるクラスタリングという手法の一つであると言いました。クラスタリングを使うことで、データを人が理解する形にできるだけでなく、機械つまりAIの教師データとして利用できる形にすることができます。

 

コミュニティ解析の手法で現在一番使われているものはリンクの密度が高いものを抜き出すものです。一つ一つのノードに対してリンクが何本つながっているかを確認して、互いにリンクが密なノードの集合を探します。そもそものコミュニティの定義をリンクの疎密で定義している以上、この手法がもっとも単純で妥当な方法な気がします。

 

そもそもコミュニティ解析はネットワークがあることが前提ですが、ネットワークがわからない場合に使用されるクラスタリング手法との関係はどうなっているのでしょうか。ネットワークを用いないクラスタリング手法では、データを座標上に点として表したとき、点と点の距離を計算して近いもの同士を同じクラスターに属するとします。この距離の逆数をリンクの重みとしてそのデータをネットワークで表現したとき、このネットワークのコミュニティ解析の結果はおそらく、ネットワークを用いないクラスタリングによって出したクラスターと同じような結果になるでしょう。この予想はつまり、距離によってクラスタリングするということは、リンクを距離(の逆数)で表したときのネットワークのコミュニティ解析することと同じということです。

 

距離以外の基準を用いてクラスタリングすることができるのと同様にして、リンクの重みを様々に定義してコミュニティ解析することができます。では例えば、相関の大きさによってリンクの重みを定義してコミュニティ解析することは、座標上のデータ点をクラスタリングする手法ではどう表されるでしょうか。もし、座標上のデータ点の互いの距離と相関の大きさが反比例の関係にあるなど、距離と相関が一定の関係で表すことができるなら、距離の大きさによってクラスタリングすることで相関がリンクの重みのネットワークのコミュニティと同じような結果が導くことができるでしょう(前述の予測が正しいとき)。

 

では、データ間の相関がデータ間の距離に依らないときはどうなるでしょうか。そのようなときには、相関の強さを基準にしてクラスタリングすることで、相関の強さをリンクの重みとしたネットワークのコミュニティ解析の結果と同じような結果を導けるでしょう。しかし、そのようなときはもはやデータ点を高次元にプロットする可視化はあまり意味を持たなくなるかもしれません。なぜなら、距離の遠近がわかりやすいような一般的な座標上のデータプロットは相関が距離によらいないときのデータ表現としてはあまり適切とはいないでしょう。距離が意味を持たないような表現方法をみても状況をつかむのにはわかりづらいし、混乱します。

 

そのようなデータ間の相関と距離の関係性が不明なときに、相関をリンクの重みとしてネットワークを描くと距離と相関の大きさがある程度関係を持った可視化ができるで、状況を捉えやすくなります。

 

座標からネットワークへの写像は相関の大きさが鍵を握っています。相関の大きさが代ればネットワークが変わります。言わずもがな、相関の定義が代ればネットワークは変わります。相関がネットワークにおける座標軸の役割を担っています。

 

では、相関をどのように定義するべきでしょうか。時系列データであればデータ間の相関の強さは相関係数の大きさで表され、様々な計算方法があります。時系列データがしっかりあれば、それから相関を厳密に計算しネットワーク解析してクラスタリングすることができます。

 

しかしながら、現実的には時系列データが十分にある状況はあまりないように思います。データが欠落していたり、時間の解像度として十分ではなかったり、そもそもデータ量が十分なかったりすると思います。そのような状況で強引に相関を計算してコミュニティ解析しても結果は真の結果と同じである保証がないばかりか、全く違う結果になるかもしれません。

 

データ量が十分ではなく、相関の計算結果が真の相関と全く違うときでもコミュニティだけは真のものに近づけるように、コミュニティ解析手法ないしは相関の計算手法を考えようというものがこのブログで書いていく研究テーマになります。

 

イメージとしては、解像度の悪いぼやけた画像でも、大雑把にはどこに何があるかわかる。その大雑把なグループがコミュニティに対応すると考えています。さらにデータ量が増えれば、画像の詳細がはっきりする。つまりネットワークのリンクがはっきり見えるというものです。リンクからコミュニティを計算する従来の手法の逆で、コミュニティがはじめにきて、その後リンクがわかるというものを目指します。

 

次回は実験の詳細を説明します。