まず、期待値基準に基づいて最適な行動を決定する。各行動の期待値を計算し、最も高い期待値を持つ行動を選択する。次に、満足度基準(S=7)に基づいて最適な行動を決定する。各行動について、利得が7以上となる確率を計算し、最も高い確率を持つ行動を選択する。
期待値基準:
行動1の期待値: 5×0.1+7×0.5+4×0.2+5×0.2=0.5+3.5+0.8+1.0=5.8 行動2の期待値: 7×0.1+6×0.5+9×0.2+3×0.2=0.7+3.0+1.8+0.6=6.1 行動3の期待値: 9×0.1+6×0.5+11×0.2+6×0.2=0.9+3.0+2.2+1.2=7.3 期待値が最も高いのは行動3である。
満足度基準(S=7):
行動1: 利得が7以上なのは状態Bのみ。確率は0.5。
行動2: 利得が7以上なのは状態Aと状態C。確率は0.1+0.2=0.3 行動3: 利得が7以上なのは状態Aと状態C。確率は0.1+0.2=0.3 利得が7以上となる確率が最も高いのは行動1である(確率0.5)。