Lightning-AI · Abecid · May 19, 2023 · awaelchli · May 20, 2023 · awaelchli
@@ -36,7 +36,7 @@
 save_interval = 1000
 eval_iters = 100
 log_interval = 1
-devices = 1
+devices = torch.cuda.device_count()
 
 # Hyperparameters
 learning_rate = 9e-3

@@ -31,7 +31,7 @@
 save_interval = 1000
 eval_iters = 100
 log_interval = 100
-devices = 4
+devices = torch.cuda.device_count()
-devices = torch.cuda.device_count()
+devices = "auto"
-devices = torch.cuda.device_count()
+devices = "auto"
 
 # Hyperparameters
 learning_rate = 3e-5

@@ -50,7 +50,8 @@ def main(
     out_dir: str = "out/lora/alpaca",
 ):
 
-    fabric = L.Fabric(accelerator="cuda", devices=1, precision="bf16-true")
+    devices = torch.cuda.device_count()
+    fabric = L.Fabric(accelerator="cuda", devices=devices, precision="bf16-true")
-    devices = torch.cuda.device_count()
-    fabric = L.Fabric(accelerator="cuda", devices=devices, precision="bf16-true")
+    fabric = L.Fabric(accelerator="cuda", devices="auto", precision="bf16-true")
-    devices = torch.cuda.device_count()
-    fabric = L.Fabric(accelerator="cuda", devices=devices, precision="bf16-true")
+    fabric = L.Fabric(accelerator="cuda", devices="auto", precision="bf16-true")
     fabric.launch()
     fabric.seed_everything(1337 + fabric.global_rank)