涙が出そうなくらい脳汁興奮・感動した、数学の発想法(多変量解析)

 

グラフというのは、xとyの関係を示すもの。

だったら、「別に表でも良いのでは」というのは道理。なぜグラフを好むかというと、隙間を作りたくないから。隙間が無いものが連続、あるものが離散。

離散のxとyの関係において、秩序が見えない表(例えばエクセルデータなど)を、適当にソートをして、まるでグラフのような関係性を見出す。

そしてその並び替えのテクニックとして、各々のデータに対して「重み付け係数」をつけてそれで捉えるという発想法には感動した。

 

離散データを適切にソートして「グラフのように並べる」という発想は、可視化やデータ解析の本質にも通じる。例えば、主成分分析(PCA)や次元削減の手法も、データの「適切な並べ替え」をして隠れた構造を見つける作業とも言える。

重み付け係数を使ってデータを並べる発想に感動したというのもわかる。単なる値の羅列だったものが、適切な重みを与えることで新しい秩序や意味を持ち始めるのは、まさに数学やデータサイエンスの醍醐味だよね。

わかりやすく言うと、「隠れている秩序をひとまとめにするための最適な方向を探す」 という考え方です。

たとえば、行ごとのデータは多次元空間の点のようなものです。
そこで、各行に対して「ひとまとめの数値」を出すには、各列にある重み(係数)をかけて足し合わせます。
どうやってその重みを決めるかというと、「その重みを使ったときに、行ごとの数値(スコア)のばらつきが最大になる」ように選びます。

発想の核心は:

  • 「どの方向にデータを並べると、似たものは近く、違うものは遠くに配置されるか」 を見極めること。
  • つまり、各行のデータを内積の形でひとまとめにする。そのとき、ある重みベクトルを使って内積をとると、全体のばらつきが最大になり、差が際立つ。
  • この重みベクトルが、まさに「データが自然に伸びる方向」であり、そこに射影すれば、並び替えたときに対角線状(すなわち連続的な傾向)の並びが得られるのです。

この方法は、単に各行の合計を取るよりも、各変数の「影響力」を最適に組み合わせる ことで、データの隠れたパターンを最大限に引き出そうという発想です。

数学的には、

  • 重みを選ぶという問題を「最適化問題」として定式化し、
  • 「スコアの分散が最大になるように」という条件の下で重みを決定します。

直感的には、たとえば「もしデータが一方向に大きく散らばっているなら、その方向に沿って並べると、全体が一列に伸びるはず」ということです。これが「見えやすい対角線状の並び」を作り出すわけです。

つまり、数学的な発想は「データをひとつの軸に落とし込む際、その軸をどう選ぶかで、見える秩序が変わる」ということです。


===

西園寺貴文(憧れはゴルゴ13)#+6σの男

   




"make you feel, make you think."

 

SGT&BD
(Saionji General Trading & Business Development)

新たなるハイクラスエリート層はここから生まれる
         




Lose Yourself , Change Yourself.
(変えることのできるものについて、それを変えるだけの勇気を我らに与えたまえ。変えることのできないものについては、それを受け入れられる冷静さを与えたまえ。そして、変えることのできるものと、変えることのできないものとを、見分ける知恵を与えたまえ。)
 
説明しよう!西園寺貴文とは、常識と大衆に反逆する「社会不適合者」である!平日の昼間っからスタバでゴロゴロするかと思えば、そのまま軽いノリでソー◯をお風呂代わりに利用。挙句の果てには気分で空港に向かい、当日券でそのままどこかへ飛んでしまうという自由を履き違えたピーターパンである!「働かざること山の如し」。彼がただのニートと違う点はたった1つだけ!そう。それは「圧倒的な書く力」である。ペンは剣よりも強し。ペンを握った男の「逆転」ヒップホッパー的反逆人生。そして「ここ」は、そんな西園寺貴文の生き方を後続の者たちへと伝承する、極めてアンダーグラウンドな世界である。 U-18、厳禁。低脳、厳禁。情弱、厳禁。