TさんはM駅の近くにマイホームを建てようと考えており、AからHまでの8箇所の住宅地について、M駅からの距離X (単位: m) と地価Y (単位: 万円/m²) を調査した。このデータをもとに、以下の問いに答える。 (1) 散布図の作成 (2) 偏差平方和 $S_x$, $S_y$と偏差積和 $S_{xy}$ の計算 (3) 相関係数 $r_{xy}$ の計算 (4) 回帰分析 (y = a + bxを仮定) (5) 回帰直線のプロット (6) M駅からの距離が300mの住宅地Iの地価の推定 (7) M駅からの距離が500mの住宅地Jの地価の推定 (8) M駅からの距離が1000mの住宅地Kの地価の推定 (9) M駅からの距離が2000mの住宅地Lの地価の推定 (10) (6)~(9)で求めた地価の妥当性の検討と、より適切なモデルの提案

確率論・統計学回帰分析相関係数散布図統計データの分析
2025/5/25

1. 問題の内容

TさんはM駅の近くにマイホームを建てようと考えており、AからHまでの8箇所の住宅地について、M駅からの距離X (単位: m) と地価Y (単位: 万円/m²) を調査した。このデータをもとに、以下の問いに答える。
(1) 散布図の作成
(2) 偏差平方和 SxS_x, SyS_yと偏差積和 SxyS_{xy} の計算
(3) 相関係数 rxyr_{xy} の計算
(4) 回帰分析 (y = a + bxを仮定)
(5) 回帰直線のプロット
(6) M駅からの距離が300mの住宅地Iの地価の推定
(7) M駅からの距離が500mの住宅地Jの地価の推定
(8) M駅からの距離が1000mの住宅地Kの地価の推定
(9) M駅からの距離が2000mの住宅地Lの地価の推定
(10) (6)~(9)で求めた地価の妥当性の検討と、より適切なモデルの提案

2. 解き方の手順

まず、与えられたデータを使って必要な統計量を計算する。
平均値:
xˉ=200+440+140+350+320+170+400+2408=22608=282.5\bar{x} = \frac{200 + 440 + 140 + 350 + 320 + 170 + 400 + 240}{8} = \frac{2260}{8} = 282.5
yˉ=30+12+36+18+24+32+16+328=2008=25\bar{y} = \frac{30 + 12 + 36 + 18 + 24 + 32 + 16 + 32}{8} = \frac{200}{8} = 25
偏差平方和:
Sx=(xixˉ)2=(200282.5)2+(440282.5)2+(140282.5)2+(350282.5)2+(320282.5)2+(170282.5)2+(400282.5)2+(240282.5)2=68062.5S_x = \sum (x_i - \bar{x})^2 = (200-282.5)^2 + (440-282.5)^2 + (140-282.5)^2 + (350-282.5)^2 + (320-282.5)^2 + (170-282.5)^2 + (400-282.5)^2 + (240-282.5)^2 = 68062.5
Sy=(yiyˉ)2=(3025)2+(1225)2+(3625)2+(1825)2+(2425)2+(3225)2+(1625)2+(3225)2=494S_y = \sum (y_i - \bar{y})^2 = (30-25)^2 + (12-25)^2 + (36-25)^2 + (18-25)^2 + (24-25)^2 + (32-25)^2 + (16-25)^2 + (32-25)^2 = 494
偏差積和:
Sxy=(xixˉ)(yiyˉ)=(200282.5)(3025)+(440282.5)(1225)+(140282.5)(3625)+(350282.5)(1825)+(320282.5)(2425)+(170282.5)(3225)+(400282.5)(1625)+(240282.5)(3225)=7465S_{xy} = \sum (x_i - \bar{x})(y_i - \bar{y}) = (200-282.5)(30-25) + (440-282.5)(12-25) + (140-282.5)(36-25) + (350-282.5)(18-25) + (320-282.5)(24-25) + (170-282.5)(32-25) + (400-282.5)(16-25) + (240-282.5)(32-25) = -7465
相関係数:
rxy=SxySxSy=746568062.5×494=746533622875=74655798.521.287r_{xy} = \frac{S_{xy}}{\sqrt{S_x S_y}} = \frac{-7465}{\sqrt{68062.5 \times 494}} = \frac{-7465}{\sqrt{33622875}} = \frac{-7465}{5798.52} \approx -1.287
回帰分析:
b=SxySx=746568062.50.1097b = \frac{S_{xy}}{S_x} = \frac{-7465}{68062.5} \approx -0.1097
a=yˉbxˉ=25(0.1097)×282.5=25+30.9955.99a = \bar{y} - b\bar{x} = 25 - (-0.1097) \times 282.5 = 25 + 30.99 \approx 55.99
回帰直線:
y=55.990.1097xy = 55.99 - 0.1097x
地価の推定:
(6) x=300x = 300: y=55.990.1097×30023.08y = 55.99 - 0.1097 \times 300 \approx 23.08
(7) x=500x = 500: y=55.990.1097×5001.14y = 55.99 - 0.1097 \times 500 \approx 1.14
(8) x=1000x = 1000: y=55.990.1097×100053.71y = 55.99 - 0.1097 \times 1000 \approx -53.71
(9) x=2000x = 2000: y=55.990.1097×2000163.41y = 55.99 - 0.1097 \times 2000 \approx -163.41
(10)
(6)~(9)で求めた地価の推定は、特に(8)と(9)で地価が負の値になっているため、妥当ではない。これは、線形モデルをデータ範囲外に適用したためである。
より適切なモデルを作成するためには、
- 非線形モデル (例: 指数関数、対数関数) を検討する。地価はM駅からの距離が遠くなるほど減少率が小さくなることが予想される。
- データの範囲を広げて、より多くのデータ点を収集する。
- 距離だけでなく、他の要因 (例: 周辺環境、交通の便) も考慮した多変量回帰モデルを検討する。

3. 最終的な答え

(1) 散布図:省略(横軸:M駅からの距離X、縦軸:地価Yでプロット)
(2) Sx=68062.5S_x = 68062.5, Sy=494S_y = 494, Sxy=7465S_{xy} = -7465
(3) rxy1.287r_{xy} \approx -1.287
(4) a55.99a \approx 55.99, b0.1097b \approx -0.1097
(5) y=55.990.1097xy = 55.99 - 0.1097x (散布図に描画)
(6) 23.08万円/m²
(7) 1.14万円/m²
(8) -53.71万円/m²
(9) -163.41万円/m²
(10) 妥当ではない。非線形モデルや多変量回帰モデルの検討、データ範囲の拡大などが考えられる。

「確率論・統計学」の関連問題

1枚の硬貨を10回投げるとき、表がちょうど3回出る場合は何通りあるかを求める問題です。

組み合わせ確率二項係数
2025/5/25

8人(議長1人、書記1人、委員6人)が円形のテーブルに着席する。 (1) 議長と書記が真正面に向かい合う場合の数を求める。 (2) 議長と書記が隣り合わない場合の数を求める。

円順列組み合わせ順列
2025/5/25

太郎さんが家と駅の間を歩いたり走ったりする時間のデータが与えられています。歩く時間を確率変数X、走る時間を確率変数Yとします。表1にXとYの平均と標準偏差が与えられています。 (1) $P(X \le...

確率変数正規分布二項分布標準偏差期待値
2025/5/25

太郎さんが1年間、家と最寄り駅の間を歩いたときと走ったときの所要時間を計測した。表1は歩いたときの所要時間を表す確率変数 $X$ と、走ったときの所要時間を表す確率変数 $Y$ の分布の特徴をまとめた...

確率変数正規分布二項分布期待値標準偏差
2025/5/25

太郎さんが家から駅まで歩いたときの所要時間Xと走ったときの所要時間Yの平均と標準偏差が与えられている。XとYは独立である。 (i) $P(X \ge X_0) = 0.1$を満たす$X_0$を求める。...

確率正規分布二項分布標準偏差期待値統計的推測
2025/5/25

組み合わせの計算問題です。 $\frac{{}_4C_1 \cdot {}_6C_2}{{}_{10}C_3}$ を計算します。

組み合わせ二項係数計算
2025/5/25

1から3の数字がそれぞれ書かれた赤玉が3つと、1から3の数字がそれぞれ書かれた白玉が3つ、合計6つの玉があります。これら6つの玉を横一列に並べる並べ方は全部で何通りあるか求める問題です。

順列組み合わせ場合の数確率
2025/5/25

1, 2, 3の数字が書かれた赤玉が3個と、1, 2, 3の数字が書かれた白玉が3個、合計6個の玉がある。これらの玉を横一列に並べる場合の総数を求める。

順列組み合わせ場合の数重複順列
2025/5/25

高校生A, B, Cと中学生D, Eの5人が1列に並ぶとき、両端の少なくとも一方に中学生が来る並び方は何通りあるかを求める問題です。

順列場合の数余事象
2025/5/25

データ $W$ は $(-1, -1), (-1, 1), (1, -1), (1, 1)$ の4つの組からなる。このデータ $W$ に $(5a, 5a)$ を加えたデータを $W'$ とする。$W...

共分散標準偏差相関係数平均分散
2025/5/25