bandit-algorithms

バンディットアルゴリズムを色々実装してみる

実装済みの方策

Default

Contextfree

random
epsilon-greedy
softmax
UCB

Linear

LinUCB

Multiple-Play Bandit Problem

Contextfree

random
Multiple-Play Epsilon-Greedy
Multiple-Play UCB
Multiple-Play Thompson Sampling
PBM-UCB
PBM-PIE

Enviroment

Requirements

rye

Build

rye sync

Usage

run default experiment

rye run python bin/run.py

multi run

rye run python bin/run.py -m n_actions=10,100,1000

Results

Default

k: 腕の数

k=5
k=25
k=125
k=625

Multiple-Play Bandit Problem

Position Based Model(Contextfree)

k: 腕の数 L: プレイ回数 = 10

腕の数が多くなるほどPBMベースの方策が良い結果を出すが、Epsilon-Greedyが強くなる

k=15
k=30
k=60
k=120
k=240
k=480
k=960

References

https://github.com/st-tech/zr-obp

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
.vscode		.vscode
bin		bin
conf		conf
resources		resources
src		src
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
pyproject.toml		pyproject.toml
requirements-dev.lock		requirements-dev.lock
requirements.lock		requirements.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

bandit-algorithms

実装済みの方策

Default

Contextfree

Linear

Multiple-Play Bandit Problem

Contextfree

Enviroment

Requirements

Build

Usage

Results

Default

Multiple-Play Bandit Problem

Position Based Model(Contextfree)

References

About

Releases

Packages

Languages

tubo213/bandit-algorithms

Folders and files

Latest commit

History

Repository files navigation

bandit-algorithms

実装済みの方策

Default

Contextfree

Linear

Multiple-Play Bandit Problem

Contextfree

Enviroment

Requirements

Build

Usage

Results

Default

Multiple-Play Bandit Problem

Position Based Model(Contextfree)

References

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages