update distributed configs

huggingface · Nov 28, 2023 · f00d042 · f00d042
1 parent c27c708
commit f00d042
Show file tree

Hide file tree

Showing 4 changed files with 22 additions and 12 deletions.
diff --git a/examples/running-llamas/configs/fp16+dp=2.yaml b/examples/running-llamas/configs/fp16+dp=2.yaml
@@ -7,10 +7,7 @@ experiment_name: fp16+dp=2
 
 launcher:
   nproc_per_node: 2
-
-backend:
-  # only serves for init torch.distributed
-  deepspeed_inference: true
+  rdzv_endpoint: localhost:29511
 
 hydra:
   job:

diff --git a/examples/running-llamas/configs/fp16+gptq+exllamav1+dp=2.yaml b/examples/running-llamas/configs/fp16+gptq+exllamav1+dp=2.yaml
@@ -1,9 +1,13 @@
 defaults:
   - _base_
   - _self_
-  - override launcher: process
+  - override launcher: torchrun
 
-experiment_name: fp16+gptq+exllamav1
+experiment_name: fp16+gptq+exllamav1+dp=2
+
+launcher:
+  nproc_per_node: 2
+  rdzv_endpoint: localhost:29522
 
 backend:
   quantization_scheme: gptq
@@ -12,6 +16,9 @@ backend:
       version: 1
 
 hydra:
+  job:
+    env_set:
+      CUDA_VISIBLE_DEVICES: 0,1
   sweeper:
     params:
-      model: TheBloke/LLaMa-7B-GPTQ,TheBloke/LLaMa-13B-GPTQ
+      model: TheBloke/LLaMa-7B-GPTQ,TheBloke/LLaMa-13B-GPTQ,TheBloke/LLaMa-70B-GPTQ
diff --git a/examples/running-llamas/configs/fp16+gptq+exllamav2+dp=2.yaml b/examples/running-llamas/configs/fp16+gptq+exllamav2+dp=2.yaml
@@ -1,9 +1,13 @@
 defaults:
   - _base_
   - _self_
-  - override launcher: process
+  - override launcher: torchrun
 
-experiment_name: fp16+gptq+exllamav2
+experiment_name: fp16+gptq+exllamav2+dp=2
+
+launcher:
+  nproc_per_node: 2
+  rdzv_endpoint: localhost:29533
 
 backend:
   # for some reason core gets dumped
@@ -15,6 +19,9 @@ backend:
       version: 2
 
 hydra:
+  job:
+    env_set:
+      CUDA_VISIBLE_DEVICES: 0,1
   sweeper:
     params:
-      model: TheBloke/LLaMa-7B-GPTQ,TheBloke/LLaMa-13B-GPTQ
+      model: TheBloke/LLaMa-7B-GPTQ,TheBloke/LLaMa-13B-GPTQ,TheBloke/LLaMa-70B-GPTQ
diff --git a/examples/running-llamas/configs/fp16+tp=2.yaml b/examples/running-llamas/configs/fp16+tp=2.yaml
@@ -6,9 +6,8 @@ defaults:
 experiment_name: fp16+tp=2
 
 launcher:
-  # this is not needed since we have a resolver
-  # that takes len(cuda_devices) but just to be verbose
   nproc_per_node: 2
+  rdzv_endpoint: localhost:29544
 
 backend:
   deepspeed_inference: true