Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Bugfix : Prompt Inference 실행시, 모델의 device setting이 flag와 맞지 않는 버그 해결 #26

Open
wants to merge 1 commit into
base: main
Choose a base branch
from

Conversation

Se-Hun
Copy link

@Se-Hun Se-Hun commented Jan 3, 2023

버그 발생 상황

GPU 환경에서 기존의 코드를 동작시킬 때 아래와 같은 에러가 발생합니다.

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0! (when checking argument for argument index in method wrapper__index_select)

해결 방법

위의 에러가 발생하는 원인은 KoGPTInference 클래스의 생성자가 호출될 때 입력 받은 device 변수를 통해 GPT 모델의 device가 설정되지 않아 발생하는 문제로 보입니다.
따라서, 아래와 같은 코드를 추가하여 문제를 해결하였습니다.

class KoGPTInference:
    def __init__(
            self,
            pretrained_model_name_or_path: Optional[Union[str, os.PathLike]],
            revision: str = 'KoGPT6B-ryan1.5b-float16',
            device: str = 'cuda',
            model_parallel: bool = False,
    ):

           ...

            self.model = GPTJForCausalLM.from_pretrained(
                  pretrained_model_name_or_path,  revision=revision,
                  pad_token_id=self.tokenizer.eos_token_id,
                  torch_dtype='auto', low_cpu_mem_usage=True
              ).to(device)

           ...

Copy link
Contributor

@cosine0 cosine0 left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Single GPU를 고려하지 않은 저의 실수네요.

https://github.com/kakaobrain/kogpt/pull/26/files#diff-35c6d888319d17cc536568888b31dbf47b3610492cf2588b2a24af4dc51db2c4L38-L42

이 부분에 분기를 넣은 것은 self.model.to(device) 할 때 메모리가 터질 수 있을 것을 염려해서 self.model.parallelize()로 처음부터 여러 디바이스에 나눠서 올리려 한 것이었습니다.
@Se-Hun 님 말씀대로 이 문제를 해결할 때 모델 선언에서 .to(device)하는 대신 뒷부분에서 깔끔하게

if model_parallel:
    self.model.parallelize()
else:
    self.model.to(device)

이렇게 하거나, CPU 사용시 model_parallelize가 불가능한 점을 반영하여

if self.device != 'cpu' and model_parallelize:
    self.model.parallelize()
else:
    self.model.to(device)

이렇게 하면 좋을 것 같습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants