Dynamic Layer Routing for LLMs

This repository contains the source code for researching True Dynamic Layer Routing during Large Language Model fine-tuning. The research investigates whether training a lightweight Global Gating Network to dynamically drop transformer layers based on input complexity can accelerate training and inference without degrading downstream performance.

Phase 1: Core Experiments

The suite consists of three pure PyTorch fine-tuning loops built on TinyLlama-1.1B using LoRA and BFloat16 precision:

exp1_baseline_finetune.py
- Standard LoRA fine-tuning using all 22 transformer layers.
- Acts as the control group for convergence and VRAM benchmarking.
exp2_stochastic_finetune.py
- Implements Stochastic Depth Dropout (50% random layer drop during training).
- Demonstrates the "Inference Mismatch" problem when models trained with truncated depths are evaluated on full depths.
exp3_dynamic_finetune.py
- The core novelty: True Dynamic Routing.
- Integrates a lightweight Global Router (MLP) trained via REINFORCE (Policy Gradient).
- The router dynamically scores input embeddings and drops unnecessary layers per-batch during both training and inference.
- Uses a compute penalty to encourage sparsity and maximize compute efficiency.

Phase 2: Benchmarks & Trade-offs

exp4_inference_benchmark.py
- Physically benchmarks the hardware inference speed across varying active layer counts.
- Proves linear speedup in Tokens Per Second (TPS) as the dynamic router drops layers.
exp5_pareto_sweep.py
- Executes an automated hyperparameter sweep over the COMPUTE_PENALTY using the original REINFORCE router.
- Generates the data required to plot the Accuracy vs. Compute Pareto Frontier.

Phase 3: Production-Grade Gumbel Router

exp6_gumbel_router.py
- Replaces the high-variance REINFORCE estimator with a Gumbel-Softmax Straight-Through Estimator (STE) for fully differentiable, end-to-end training.
- Upgrades routing granularity from batch-level to per-sample gates (each sample independently decides which layers to execute).
- Router reads contextual hidden states (post layer 4) rather than raw embeddings.
- Integrates a Knowledge Distillation (KD) loss using the frozen Baseline (exp1) as teacher.
- Scales training to Wikitext-103-raw-v1 (10,000 samples) for 3 epochs.
- Implements model checkpointing (saves LoRA adapter + router weights on best val loss).
- Status: Completed. 3-epoch run on Wikitext-103 achieved stable convergence and high-fidelity Pareto data.

Planned Next Experiments

exp7_gumbel_pareto_sweep.py (Planned): Pareto sweep using the exp6 Gumbel-STE architecture to generate a Pareto frontier comparable to exp5 but with the improved router.
exp8_token_level_routing.py (Planned): Token-level (rather than sequence-level) routing — individual tokens independently exit or skip layers.
Evaluation Harness (Planned): Integration with EleutherAI's lm-evaluation-harness for zero-shot MMLU, GSM8K, and ARC-Challenge benchmarks.

Analysis & Visualization

plot_results.py: Automatically parses the generated metric CSVs from all experiments and generates publication-ready visualizations:
- Phase 1-2 (7 plots): Convergence lines, final bar charts, inference speedup, and the Pareto Frontier curve.
- Phase 3 (3 additional plots): Loss component breakdown (CE + KD + Gate), Gumbel temperature annealing, and a head-to-head val loss comparison across all 4 experiments.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.gitignore		.gitignore
README.md		README.md
all_experiments_val_loss.png		all_experiments_val_loss.png
baseline_metrics.csv		baseline_metrics.csv
context_for_claude.md		context_for_claude.md
dynamic_routed_metrics.csv		dynamic_routed_metrics.csv
exp1_baseline_finetune.py		exp1_baseline_finetune.py
exp1_baseline_metrics_20260502_012701.csv		exp1_baseline_metrics_20260502_012701.csv
exp1_baseline_metrics_20260502_013647.csv		exp1_baseline_metrics_20260502_013647.csv
exp1_baseline_metrics_20260508_210903.csv		exp1_baseline_metrics_20260508_210903.csv
exp2_stochastic_finetune.py		exp2_stochastic_finetune.py
exp2_stochastic_metrics_20260502_013147.csv		exp2_stochastic_metrics_20260502_013147.csv
exp2_stochastic_metrics_20260502_014256.csv		exp2_stochastic_metrics_20260502_014256.csv
exp2_stochastic_metrics_20260508_220422.csv		exp2_stochastic_metrics_20260508_220422.csv
exp2_stochastic_metrics_20260510_134453.csv		exp2_stochastic_metrics_20260510_134453.csv
exp3_dynamic_finetune.py		exp3_dynamic_finetune.py
exp3_dynamic_metrics_20260502_014743.csv		exp3_dynamic_metrics_20260502_014743.csv
exp4_inference_benchmark.py		exp4_inference_benchmark.py
exp5_pareto_sweep.py		exp5_pareto_sweep.py
exp6_gumbel_metrics_20260502_214035.csv		exp6_gumbel_metrics_20260502_214035.csv
exp6_gumbel_metrics_20260502_222314.csv		exp6_gumbel_metrics_20260502_222314.csv
exp6_gumbel_metrics_20260502_223313.csv		exp6_gumbel_metrics_20260502_223313.csv
exp6_gumbel_metrics_20260502_223456.csv		exp6_gumbel_metrics_20260502_223456.csv
exp6_gumbel_metrics_20260502_224255.csv		exp6_gumbel_metrics_20260502_224255.csv
exp6_gumbel_metrics_20260503_081502.csv		exp6_gumbel_metrics_20260503_081502.csv
exp6_gumbel_metrics_20260510_144940.csv		exp6_gumbel_metrics_20260510_144940.csv
exp6_gumbel_metrics_20260512_133955.csv		exp6_gumbel_metrics_20260512_133955.csv
exp6_gumbel_router.py		exp6_gumbel_router.py
exp6_loss_breakdown.png		exp6_loss_breakdown.png
exp6_temp_annealing.png		exp6_temp_annealing.png
exp7_benchmark_accuracy.png		exp7_benchmark_accuracy.png
exp7_efficiency_scatter.png		exp7_efficiency_scatter.png
exp7_eval_harness.py		exp7_eval_harness.py
exp7_eval_results_20260503_211315.csv		exp7_eval_results_20260503_211315.csv
exp7_eval_results_20260510_192912.csv		exp7_eval_results_20260510_192912.csv
exp7_eval_results_20260512_204207.csv		exp7_eval_results_20260512_204207.csv
exp7_eval_summary_20260503_211315.json		exp7_eval_summary_20260503_211315.json
exp7_eval_summary_20260510_192912.json		exp7_eval_summary_20260510_192912.json
exp7_eval_summary_20260512_204207.json		exp7_eval_summary_20260512_204207.json
exp7_per_layer_skip_rate.png		exp7_per_layer_skip_rate.png
exp7_perplexity_bar.png		exp7_perplexity_bar.png
exp8_fast_pareto_sweep.py		exp8_fast_pareto_sweep.py
exp8_gumbel_pareto_20260510_231644.csv		exp8_gumbel_pareto_20260510_231644.csv
exp8_gumbel_pareto_20260510_231644.png		exp8_gumbel_pareto_20260510_231644.png
exp8_gumbel_pareto_20260511_122102.csv		exp8_gumbel_pareto_20260511_122102.csv
exp8_gumbel_pareto_20260511_122102.png		exp8_gumbel_pareto_20260511_122102.png
exp8_gumbel_pareto_20260511_200850.csv		exp8_gumbel_pareto_20260511_200850.csv
exp8_gumbel_pareto_20260512_235239.csv		exp8_gumbel_pareto_20260512_235239.csv
exp8_gumbel_pareto_sweep.py		exp8_gumbel_pareto_sweep.py
exp9_ablation_no_kd.py		exp9_ablation_no_kd.py
inference_benchmark_20260502_100509.csv		inference_benchmark_20260502_100509.csv
inference_speedup_bar.png		inference_speedup_bar.png
manuscript_draft.md		manuscript_draft.md
pareto_dual_axis.png		pareto_dual_axis.png
pareto_frontier.png		pareto_frontier.png
pareto_frontier_curve.png		pareto_frontier_curve.png
pareto_sweep_bar.png		pareto_sweep_bar.png
pareto_sweep_metrics_20260502_100549.csv		pareto_sweep_metrics_20260502_100549.csv
plot_results.py		plot_results.py
routed_drop50_metrics.csv		routed_drop50_metrics.csv
scratch_test_llama.py		scratch_test_llama.py
training_loss_comparison.png		training_loss_comparison.png
training_loss_final_bar.png		training_loss_final_bar.png
training_loss_trajectory.png		training_loss_trajectory.png
validation_loss_comparison.png		validation_loss_comparison.png
validation_loss_convergence.png		validation_loss_convergence.png
validation_loss_final_bar.png		validation_loss_final_bar.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Dynamic Layer Routing for LLMs

Phase 1: Core Experiments

Phase 2: Benchmarks & Trade-offs

Phase 3: Production-Grade Gumbel Router

Planned Next Experiments

Analysis & Visualization

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Dynamic Layer Routing for LLMs

Phase 1: Core Experiments

Phase 2: Benchmarks & Trade-offs

Phase 3: Production-Grade Gumbel Router

Planned Next Experiments

Analysis & Visualization

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages