【データの分析】(単発)データの分析って図形っぽい？「データの分析における余弦定理と三角不等式」

今回は高校数学で日陰に追いやられがちな「データの分析」にスポットを当ててみようと思います。

まず、以下の対応を考えてみようと思います。

平面もしくは空間における零ベクトルではないベクトル $\vec{u}$ , $\vec{v}$ について、 $\vec{u}$ , $\vec{v}$ のなす角を $\theta$ とします。

このとき

等式 $\cos \theta =\dfrac{ \vec{u} \cdot \vec{v} }{ |\vec{u}||\vec{v}| }$ が成り立ちます。

( $\vec{u} \cdot \vec{v}$ は $\vec{u}$ , $\vec{v}$ の内積を表します。)

また、 $-1\le \cos \theta \le 1$ を満たします。

次に変量 $x$ , $y$ の $n$ 個のデータの組 $(x_{1},y_{1})$ , $(x_{2},y_{2})$ , … , $(x_{n},y_{n})$ を考えます。( $n$ は2以上の整数とします。)

このとき $x$ , $y$ の標準偏差 $s_{x}$ , $s_{y}$ がどちらも $0$ でないときに $x$ , $y$ の相関係数 $r$ が次で定義されます。

$r=\dfrac{ s_{xy} }{ s_{x}s_{y} }$

( $s_{xy}$ は $x$ , $y$ の共分散を表します。)

また、相関係数 $r$ は $-1\le r\le 1$ を満たします。*1

ベクトルにおける「内積 $\vec{u} \cdot \vec{v}$ 」→データの分析における「共分散 $s_{xy}$ 」

ベクトルにおける「大きさ $| \vec{u} |$ 」→データの分析における「標準偏差 $s_{x}$ 」

ベクトルにおける「なす角の余弦 $\cos\theta$ 」→データの分析における「相関係数 $r$ 」

というような対応をふんわりと感じられます。

今回はその部分をもう少し深堀りしてみましょう。

【予備知識】

数学Ⅰ「データの分析」や数学B「ベクトル」をある程度知っていることが望ましいです。

余弦定理もどき*2
三角不等式
まとめ

余弦定理もどき*2

定理1

変量 $x$ , $y$ の $n$ 個のデータの組 $(x_{1},y_{1})$ , $(x_{2},y_{2})$ , … , $(x_{n},y_{n})$ を与える。( $n$ は2以上の整数とする。)

$z_{i}=x_{i}-y_{i}$ ( $i=1,2,\dots ,n$ )

で変量 $z$ を定める。

変量 $z$ の分散を $s_{x-y} ^{2}$ と書くと以下の等式が成り立つ。

(ただし(2)は標準偏差 $s_{x}$ , $s_{y}$ がどちらも $0$ でないときに成り立つ。)

(1)　 $s_{x-y} ^{2}=s_{x}^{2}+s_{y}^{2}-2s_{xy}$

(2)　 $s_{x-y} ^{2}=s_{x}^{2}+s_{y}^{2}-2rs_{x}s_{y}$

(1)はベクトルの等式 $| \vec{u}-\vec{v} |^{2}= |\vec{u}|^{2}+|\vec{v}|^{2}-2\vec{u}\cdot\vec{v}$ に対応します。

(2)は3辺の長さが $a ,b, c$ の三角形における(第2)余弦定理

$c^{2}=a^{2}+b^{2}-2ab\cos C$ に対応します。( $C$ は辺の長さが $c$ となる辺の対角です。)

このことからデータの分析の図形っぽさが垣間見えますね。

(証明)

(2)は(1)が成り立てば、相関係数の定義を用いて簡単に証明できます。

そこで(1)の証明を簡単に説明します。

以下 $\bar{x}$ , $\bar{y}$ , $\bar{z}$ はそれぞれ $x,y,z$ の平均値を表します。)

　 $s_{x-y}^{2}$

$\displaystyle = \frac{1}{n} \sum_{i=1}^{n} (z_{i}-\bar{z})^{2}$

$\displaystyle = \frac{1}{n} \sum_{i=1}^{n} ( (x_{i} - y_{i})- (\bar{x}-\bar{y} ) )^{2}$

$\displaystyle = \frac{1}{n} \sum_{i=1}^{n} ( (x_{i} - \bar{x})- (y_{i}-\bar{y} ) )^{2}$

$\displaystyle = \frac{1}{n} \sum_{i=1}^{n} ( (x_{i} - \bar{x})^{2}+ (y_{i}-\bar{y} )^{2} -2(x_{i} - \bar{x})(y_{i}-\bar{y} ) )$

$\displaystyle = \frac{1}{n} \left( \sum_{i=1}^{n} (x_{i} - \bar{x})^{2}+ \sum_{i=1}^{n}(y_{i}-\bar{y} )^{2} -2\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i}-\bar{y} ) \right)$

$\displaystyle = s_{x}^{2}+s_{y}^{2}-2s_{xy}$

このように定義に沿って計算するだけです。

(証明終わり)

三角不等式

定理2

変量 $x$ , $y$ の $n$ 個のデータの組 $(x_{1},y_{1})$ , $(x_{2},y_{2})$ , … , $(x_{n},y_{n})$ を与える。( $n$ は2以上の整数とする。)

$w_{i}=x_{i}+y_{i}$ ( $i=1,2,\dots ,n$ )

で変量 $w$ を定める。

変量 $w$ の標準偏差を $s_{x+y}$ と書くと以下の不等式が成り立つ。

$s_{x+y}\le s_{x} +s_{y}$

これはベクトルで言うと次の不等式が対応します。

$|\vec{u}+\vec{v}|\le |\vec{u}|+|\vec{v}|$

これは一般に三角不等式と呼ばれます。*3

高校数学というよりも様々な「距離」を入れる大学数学ではなじみが深いものですが、そちらへの発展をにおわせるために今回紹介しています。

(証明)

定理1と同様の計算により

$s_{x+y} ^{2}=s_{x}^{2}+s_{y}^{2}+2s_{xy}$ と書けます。

そのため

　 $(s_{x} +s_{y})^{2}-s_{x+y}^{2}$

$=2 (s_{x}s_{y}-s_{xy})$

$\ge 0$

を得ます。

(最後の不等式はコーシー・シュワルツの不等式を用いています。相関係数が定義されるなら相関係数の範囲を用いていると捉えることもできます。)

(証明終わり)

まとめ

今回はデータの分析の図形っぽさを見るためにベクトルとの対応を等式・不等式から捉えてみました。

他にも様々な視点がありますのでいろいろと試してみてはいかかでしょうか。

それでは最後までお読みいただきありがとうございました。

*1:証明はコーシー・シュワルツの不等式を用いればすぐに終わります。

*2:正確には第2余弦定理もどきを紹介します。

*3:三角関数の不等式という意味ではありません。

とぽろじい　～大人の数学自由研究～

高校数学から分かる新しい数学、大学で学ぶ数学を少しずつまとめていくブログです。ゆくゆくは本にまとめたいと思っています。

【データの分析】(単発)データの分析って図形っぽい？「データの分析における余弦定理と三角不等式」

余弦定理もどき*2

三角不等式

まとめ