MENU

最適化アルゴリズム&スケジューラー+Trainer

Trainerに渡せるやつをいちいち調べるのが面倒くさいのでまとめ。

目次

Trainer

あわせて読みたい
Trainer We’re on a journey to advance and democratize artificial intelligence through open source and open science.

スケジューラー

あわせて読みたい
Optimization We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Scheduler names for the parameter lr_scheduler_type in TrainingArguments. By default, it uses “linear”. Internally, this retrieves get_linear_schedule_with_warmup scheduler from Trainer. Scheduler types:

“linear” = get_linear_schedule_with_warmup
“cosine” = get_cosine_schedule_with_warmup
“cosine_with_restarts” = get_cosine_with_hard_restarts_schedule_with_warmup
“polynomial” = get_polynomial_decay_schedule_with_warmup
“constant” = get_constant_schedule
“constant_with_warmup” = get_constant_schedule_with_warmup
“inverse_sqrt” = get_inverse_sqrt_schedule
“reduce_lr_on_plateau” = get_reduce_on_plateau_schedule
“cosine_with_min_lr” = get_cosine_with_min_lr_schedule_with_warmup
“warmup_stable_decay” = get_wsd_schedule

最適化アルゴリズム

adamw_hf: Hugging FaceのAdamW実装。

adamw_torch: PyTorchのAdamW実装。

adamw_torch_fused: PyTorchのファージドAdamW実装。

adamw_torch_xla: PyTorch/XLAのAdamW実装。

adamw_torch_npu_fused: PyTorchのNPUファージドAdamW実装。

adamw_apex_fused: ApexのファージドAdamW実装。

adafactor: Adafactor最適化アルゴリズム。

adamw_anyprecision: 任意の精度でのAdamW実装。

adamw_torch_4bit: 4ビット量子化されたAdamW実装。

ademamix: Ademamix最適化アルゴリズム。

sgd: 確率的勾配降下法。

adagrad: Adagrad最適化アルゴリズム。

adamw_bnb_8bit: 8ビット量子化されたAdamW実装。

adamw_8bit: 8ビット量子化されたAdamW実装。

ademamix_8bit: 8ビット量子化されたAdemamix実装。

lion_8bit: 8ビット量子化されたLion実装。

lion_32bit: 32ビット量子化されたLion実装。

paged_adamw_32bit: 32ビットページドAdamW実装。

paged_adamw_8bit: 8ビットページドAdamW実装。

paged_ademamix_32bit: 32ビットページドAdemamix実装。

paged_ademamix_8bit: 8ビットページドAdemamix実装。

paged_lion_32bit: 32ビットページドLion実装。

paged_lion_8bit: 8ビットページドLion実装。

rmsprop: RMSprop最適化アルゴリズム。

rmsprop_bnb: BitsAndBytesのRMSprop実装。

rmsprop_bnb_8bit: 8ビット量子化されたRMSprop実装。

rmsprop_bnb_32bit: 32ビット量子化されたRMSprop実装。

galore_adamw: GaLoREのAdamW実装。

galore_adamw_8bit: 8ビット量子化されたGaLoREのAdamW実装。

galore_adafactor: GaLoREのAdafactor実装。

galore_adamw_layerwise: レイヤーごとのGaLoREのAdamW実装。

galore_adamw_8bit_layerwise: 8ビット量子化されたレイヤーごとのGaLoREのAdamW実装。

galore_adafactor_layerwise: レイヤーごとのGaLoREのAdafactor実装。

lomo: Lomo最適化アルゴリズム。

adalomo: Adalomo最適化アルゴリズム。

grokadamw: GrokAdamW最適化アルゴリズム。

schedule_free_adamw: スケジュールフリーのAdamW実装。

schedule_free_sgd: スケジュールフリーのSGD実装。
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

プログラミングをそれとなく続けてきて歴だけは10年。
コーディングは基本的な命令文とクラスの概念は理解。
あとはライブラリなどを使ってそれとなく。
最近はAI関連を触ってます。

目次