SisyphusPI

Modular Addition

( a + b ) mod N — sweeping all hyperparameters

30 / 8,640

AIs trained

0.3% complete • 0 grokked • 0.0% grok rate

ETA

4 days, 19:34:28

avg time

48.3s/model

remaining

8,610

Summary

(wd, lr) Combos

Total Sacrifices

Total Grokked

Grok Rate

0.0%

Darker green = more grokking. Grey = no data yet.

Median training steps until test accuracy > 97%. Only shown for N values with at least one grokked model.

Choose N:

N	Sacrifices	Avg Train Time (s)	Median Steps to Grok
5	3	62.23	10000.0
10	3	74.91	10000.0
15	3	85.72	10000.0
20	3	108.34	10000.0
25	3	122.66	10000.0
30	3	144.80	10000.0
35	2	164.88	10000.0
40	2	197.88	10000.0
45	2	224.43	10000.0
50	2	252.55	10000.0
55	2	290.71	10000.0
60	2	323.02	10000.0

weight_decay:

learning_rate: