🧠 reasoning-minimal

Minimal code for making a reasoning model from the base model using Guided Reward Policy Optimization (GRPO).

The model is trained to output

a private chain-of-thought wrapped in <think>...</think>
a final answer wrapped in <answer>...</answer>

Two types of reward functions enforce format correctness and answer and chain-of-thought accuracy simultaneously.

✨ Highlights

Lightweight base: Qwen/Qwen2.5-0.5B-Instruct
Training on GSM8K grade-school math dataset
Optional LoRA adaptation (uncomment to enable) for low-VRAM training
Precise math checking with [math_verify]
Plug-and-play multi-reward RL via TRL’s GRPOTrainer
Integrated Weights & Biases logging and automatic inference demo

🚀 Setup & Usage

pip install torch transformers datasets peft trl math_verify wandb
python train.py --model-path-or-dir Qwen/Qwen2.5-0.5B-Instruct
python evaluation.py --model-path-or-dir outputs/Qwen/Qwen2.5-0.5B-Instruct

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.github/workflows		.github/workflows
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
evaluation.py		evaluation.py
format_utils.py		format_utils.py
reasoning_training.py		reasoning_training.py
reward_memo.md		reward_memo.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🧠 reasoning-minimal

✨ Highlights

🚀 Setup & Usage

References & Acknowledgements

About

Uh oh!

Releases

Packages

Languages

License

torotoki/reasoning-minimal

Folders and files

Latest commit

History

Repository files navigation

🧠 reasoning-minimal

✨ Highlights

🚀 Setup & Usage

References & Acknowledgements

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages