M駅の近くの8箇所の住宅地AからHについて、M駅からの距離X(m)と地価Y(万円/m^2)が与えられています。 (1) 散布図の作成、(2) 偏差平方和と偏差積和の計算、(3) 相関係数の計算、(4) 回帰直線のパラメータ推定、(5) 回帰直線の描画、(6)~(9) 回帰モデルを用いた地価の推定、(10) モデルの妥当性の評価とその改善策の提案が求められています。

確率論・統計学回帰分析相関係数散布図線形回帰データの分析
2025/6/3

1. 問題の内容

M駅の近くの8箇所の住宅地AからHについて、M駅からの距離X(m)と地価Y(万円/m^2)が与えられています。
(1) 散布図の作成、(2) 偏差平方和と偏差積和の計算、(3) 相関係数の計算、(4) 回帰直線のパラメータ推定、(5) 回帰直線の描画、(6)~(9) 回帰モデルを用いた地価の推定、(10) モデルの妥当性の評価とその改善策の提案が求められています。

2. 解き方の手順

(1) 散布図の作成: 横軸をM駅からの距離X、縦軸を地価Yとして、与えられたデータをプロットします。
(2) 偏差平方和と偏差積和の計算:
まず、XとYの平均値を計算します。
Xˉ=200+440+140+350+320+170+400+2408=22608=282.5 \bar{X} = \frac{200 + 440 + 140 + 350 + 320 + 170 + 400 + 240}{8} = \frac{2260}{8} = 282.5
Yˉ=30+12+36+18+24+32+16+328=2008=25 \bar{Y} = \frac{30 + 12 + 36 + 18 + 24 + 32 + 16 + 32}{8} = \frac{200}{8} = 25
次に、各データ点について偏差を計算し、偏差平方和と偏差積和を求めます。
Sx=i=18(XiXˉ)2=(200282.5)2+(440282.5)2+...+(240282.5)2=79075 S_x = \sum_{i=1}^{8} (X_i - \bar{X})^2 = (200-282.5)^2 + (440-282.5)^2 + ... + (240-282.5)^2 = 79075
Sy=i=18(YiYˉ)2=(3025)2+(1225)2+...+(3225)2=758 S_y = \sum_{i=1}^{8} (Y_i - \bar{Y})^2 = (30-25)^2 + (12-25)^2 + ... + (32-25)^2 = 758
Sxy=i=18(XiXˉ)(YiYˉ)=(200282.5)(3025)+(440282.5)(1225)+...+(240282.5)(3225)=6365 S_{xy} = \sum_{i=1}^{8} (X_i - \bar{X})(Y_i - \bar{Y}) = (200-282.5)(30-25) + (440-282.5)(12-25) + ... + (240-282.5)(32-25) = -6365
(3) 相関係数の計算:
rxy=SxySxSy=636579075×7580.821 r_{xy} = \frac{S_{xy}}{\sqrt{S_x S_y}} = \frac{-6365}{\sqrt{79075 \times 758}} \approx -0.821
(4) 回帰直線のパラメータ推定:
回帰直線の式を y=a+bxy = a + bx とします。
b=SxySx=6365790750.0805 b = \frac{S_{xy}}{S_x} = \frac{-6365}{79075} \approx -0.0805
a=YˉbXˉ=25(0.0805)×282.547.7 a = \bar{Y} - b\bar{X} = 25 - (-0.0805) \times 282.5 \approx 47.7
(5) 回帰直線の描画:
(1)で作成した散布図に、求めた回帰直線 y=47.70.0805xy = 47.7 - 0.0805x を描きます。
(6)~(9) 回帰モデルを用いた地価の推定:
求めた回帰直線に、それぞれの距離を代入して地価を推定します。
住宅地I (300m): y=47.70.0805×30023.55y = 47.7 - 0.0805 \times 300 \approx 23.55 (万円/m^2)
住宅地J (500m): y=47.70.0805×5007.45y = 47.7 - 0.0805 \times 500 \approx 7.45 (万円/m^2)
住宅地K (1000m): y=47.70.0805×100032.8y = 47.7 - 0.0805 \times 1000 \approx -32.8 (万円/m^2)
住宅地L (2000m): y=47.70.0805×2000113.3y = 47.7 - 0.0805 \times 2000 \approx -113.3 (万円/m^2)
(10) モデルの妥当性の評価とその改善策の提案:
住宅地K, Lの地価が負の値になっているため、この回帰モデルを遠方まで外挿するのは妥当ではありません。
このモデルは、M駅近辺の地価傾向を反映していると考えられますが、距離が大きくなるにつれて、他の要因(例えば、公共施設の有無、自然環境など)が地価に影響を与えるようになるため、単純な線形回帰では予測精度が低下します。
改善策としては、以下のような方法が考えられます。
* 非線形回帰モデルの利用(例えば、二次関数や指数関数など)。
* 他の説明変数の追加(例えば、最寄りのバス停からの距離、公園の面積など)。
* M駅からの距離がある程度以上離れたデータを除外して、モデルを再構築する。

3. 最終的な答え

(2) Sx=79075S_x = 79075, Sy=758S_y = 758, Sxy=6365S_{xy} = -6365
(3) rxy0.821r_{xy} \approx -0.821
(4) a47.7a \approx 47.7, b0.0805b \approx -0.0805
(6) 住宅地Iの地価: 約23.55万円/m^2
(7) 住宅地Jの地価: 約7.45万円/m^2
(8) 住宅地Kの地価: 約-32.8万円/m^2
(9) 住宅地Lの地価: 約-113.3万円/m^2
(10) 遠方への外挿は妥当ではない。非線形モデルの利用、他の説明変数の追加、データ範囲の限定などを検討する。

「確率論・統計学」の関連問題

平均 $\mu$, 分散 $\sigma^2$ の母集団から無作為に抽出した $n$ 個の標本 $X_1, \dots, X_n$ があるとき、標本平均 $\bar{X}$ を $\bar{X} = ...

標本平均期待値分散中心極限定理正規分布
2025/6/6

母集団の平均が $\mu$、分散が $\sigma^2$ であるとき、無作為に抽出された $n$ 個の標本 $X_1, \dots, X_n$ の標本平均 $\overline{X} = \frac{...

標本平均期待値分散中心極限定理正規分布
2025/6/6

確率変数 $X$ が確率 $p$ で $1$、確率 $1-p$ で $0$ をとるとき、以下の問いに答えます。 (1) $X$ の期待値 $E[X]$ と分散 $V[X]$ を求めます。 (2) $X...

確率変数期待値分散確率関数二項分布
2025/6/6

確率変数 $X$ は、確率 $p$ で 1 をとり、確率 $1-p$ で 0 をとるとする。ただし、$0 \le p \le 1$ とする。 (1) $X$ の期待値 $E[X]$ と分散 $V[X]...

確率変数期待値分散確率関数確率分布
2025/6/6

確率変数$X$は、確率$p$で1、確率$(1-p)$で0となる。ただし、$0 \le p \le 1$である。 (1) $X$の期待値$E[X]$と分散$V[X]$を計算する。 (2) $X$の確率関...

確率変数期待値分散確率関数確率分布
2025/6/6

確率変数 $X$ が正規分布 $N(6,4)$ に従うとき、以下の確率を求めよ。 (1) $P(5 \le X \le 7)$ (2) $P(3 \le X \le 8)$ (3) $P(X \le ...

正規分布確率標準化統計
2025/6/6

赤球7個、白球3個が入った袋から、4個の球を同時に取り出す。 (1) 赤球2個と白球2個である確率を求め、式で表す。 (2) 少なくとも1個が白球である確率を求め、式で表す。

確率組み合わせ事象場合の数
2025/6/6

赤球7個と白球3個が入った袋から、4個の球を同時に取り出すとき、以下の確率を求める問題です。 (1) 赤球2個と白球2個である確率 (2) 少なくとも1個が白球である確率

確率組み合わせ確率計算
2025/6/6

赤玉7個、白玉3個が入った袋から、同時に4個の玉を取り出すとき、赤玉2個と白玉2個である確率を求める。

確率組み合わせ場合の数確率分布
2025/6/6

くじSには5本中2本、くじTには7本中3本の当たりがある。SとTからそれぞれ1本ずつくじを引くとき、以下の確率を求める。 (1) 両方とも当たる確率 (2) くじSは当たって、くじTは外れる確率

確率確率の計算独立事象
2025/6/6