バンディットアルゴリズムを色々実装してみる
- random
- epsilon-greedy
- softmax
- UCB
- LinUCB
- random
- Multiple-Play Epsilon-Greedy
- Multiple-Play UCB
- Multiple-Play Thompson Sampling
- PBM-UCB
- PBM-PIE
rye sync
run default experiment
rye run python bin/run.py
multi run
rye run python bin/run.py -m n_actions=10,100,1000
k: 腕の数
k: 腕の数 L: プレイ回数 = 10
腕の数が多くなるほどPBMベースの方策が良い結果を出すが、Epsilon-Greedyが強くなる