feedback pr2 #15

pica-git0 · 2024-12-02T04:53:10Z

No description provided.

프로젝트 폴더 구조 구성 및 베이스라인 구성

과하게 긴 evaluation 실행 시간으로 인해 evaluation이 최종 한 번만 실행되도록 변경

증강 데이터셋 실험 환경 구축

증강 데이터셋 실험 환경 구축 2차

feat: optimizer와 train lr을 같게 설정

현서님 지시대로 기존 optimizer 제거 후 SFTConfig의 optim 인자를 사용하여 adamw 8bit로 변경

qwen 데이터셋 실험 환경 optimizer 수정

한택님 SOTA 모델 파라미터 기반으로 config 파일 설정

…tput dir 변경 저장 간격을 최대한 좁혀 안정성 강화

is_augmented : 증강되었는 지 여부를 전달 데이터 증강 여부를 전달하여 기본 데이터셋와 증강 데이터셋의 차이를 고려하여 적절히 파싱하기 위해 추가

is_augmented 인자값(증강 데이터 여부)에 따라 적절히 처리하여 전처리된 데이터를 반환하는 파이프라인 구현

여러 output 병합하는 코드 추가가

다양한 로그를 저장하기 위한 폴더 세팅

--nohup 옵션을 통해 터미널 종료되어도 스크립트가 백그라운드에서 실행가능하도록 변경

https://github.com/unslothai/unsloth/ 프로젝트의 READEME.md에 존재하는 코드 복사

.gitignore

config/.keep

monologg · 2024-12-15T08:00:43Z

config/qwen2.5_32B_unlosth_bad_paragraph_config.yaml

(minor 부분인데) yaml도 formatter 돌려주는 거 권장합니다 (prettier 같은 플러그인 추천)

070b006 커밋으로 수정 제안 반영했습니다.

monologg · 2024-12-15T08:02:15Z

config/qwen_arguments.py

+
+
+@dataclass
+class Qwen32BWithUnsloth_ModelArguments(ModelArguments):


python class 명은 snakecase 사용하지 않는게 convention 입니다

Qwen32BWithUnsloth_ModelArguments -> Qwen32BWithUnslothModelArguments

6c29ded 커밋으로 문제 수정했습니다.

monologg · 2024-12-15T14:47:54Z

src/data/preprocessing.py

@@ -0,0 +1,53 @@
+from ast import literal_eval
+from typing import Dict, List, Optional
+from xmlrpc.client import Boolean


이건 안쓰인 거 같은데 남아있네요. requirements에도 없는거 같은데, 코드 돌리면 죽을 여지가 있네요

ruff 같은 툴은 다음 프로젝트에서는 꼭 사용해주세요

a516092 커밋으로 수정했습니다.

monologg · 2024-12-15T14:48:36Z

src/data/preprocessing.py

+            "question_plus": problems.get("question_plus", None),
+        }
+        # Include 'question_plus' if it exists
+        if "question_plus" in problems:
+            record["question_plus"] = problems["question_plus"]


코드 중복이 있네요.
(이미 "question_plus": problems.get("question_plus", None) 로 처리됨)

monologg · 2024-12-15T14:50:52Z

src/data/preprocessing.py

+    return records
+
+
+def prepare_records(dataset: pd.DataFrame, is_augmented: Optional[bool] = False) -> List[Dict]:


Optional을 넣으면 안될꺼 같네요 (None이 들어오는 것은 의도된 것은 아닐것임)

70c5037 커밋으로 수정했습니다.

monologg · 2024-12-15T14:51:49Z

src/data/templates.py

+    return "".join(template)
+
+
+def get_chat_template():


get_default_chat_template 이라는 함수명으로 바꾸고,
다른 스크립트에 존재했던 chat_template은 다른 명칭으로 여기에 모두 추가해주면 어떨까 합니다

90da4a9
커밋으로 수정 제안 반영했습니다.

monologg · 2024-12-15T14:52:32Z

src/models/gemma.py

+    def __init__(self, model_name="beomi/gemma-ko-2b"):
+        self.model = AutoModelForCausalLM.from_pretrained(
+            model_name,
+            torch_dtype=torch.float16,  ## 초기화 변수에 수정


float16도 __init__ 인자로 빼주세요

리뷰에 따라 수정했습니다.

리뷰에 따라 custom rule을 맨 밑으로 옮겼습니다.

리뷰어의 수정제안을 반영했습니다.

리뷰어의 수정 제안에 따라 prettier 플러그인을 통한 포매팅 적용

리뷰에 따라 snakecase를 수정하여 PascalCase 적용

리뷰와 관련해 버그 픽스스

리뷰어의 제안 반영하여 오류 상태 종료로 변경

리뷰어의 제안을 적용하여 동적 너비 조정 적용용

리뷰어의 수정제안 적용용

리뷰에 따라 불필요한 주석 제거

리뷰어의 제안에 따라 함수명 수정

- 리뷰에 따라 심각한 문제를 유발할 수 있는 부분 제거 - python 자동 import 설정으로 인한 클래스 추가로 발생

리뷰어의 수정제안에 따라 fix

) 리뷰어의 수정제안을 반영하여 메시지 템플릿 함수명 변경경

github-classroom bot and others added 30 commits November 8, 2024 09:54

Setting up GitHub Classroom Feedback

3c2d1b2

🎉 Init 1차

70586a1

feat: train data eda

d272af5

docs: Readme 초안

792475f

Init: train 관련 2차 세팅

f054fe1

Init: predict(inference) 관련 2차 세팅

00fd4b8

feat: 데이터셋에 최대 시퀀스 길이 인수로 전달

b16314a

feat: train과 inference 과정을 연속으로 실행시키는 파이프라인 스크립트 구현

36ed0cc

docs: 문서 수정

f1dca0e

feat: eval 모드에서 사용하지 않는 인수 제거

fbefb11

Merge pull request #2 from boostcampaitech7/Initialization

c029dd6

프로젝트 폴더 구조 구성 및 베이스라인 구성

feat: Qwen2.5-32B unsloth 모델 arguments 구현

799e17f

feat Qwen2.5-32B unsloth 모델 데이터셋 테스트용 config 구현

db7272f

feat: unsloth 설치 가능 버전 체크용 스크립트

082d129

feat: dataloader 데이터셋 테스트용 로더 함수 구현

c408252

feat: templates 베이스라인 기본 템플릿 반환 함수 구현

ab93f41

feat: models Qwen2.5-32B unsoth 모델 클래스 구현

8651d12

feat: 증강 데이터셋 테스트용 파이프라인 구현

cd19905

feat: 증강 데이터셋 테스트용 환경 실행 스크립트

b72db2b

feat: eval_strategy 기본값을 steps에서 epoch으로 변경

bba2cbf

과하게 긴 evaluation 실행 시간으로 인해 evaluation이 최종 한 번만 실행되도록 변경

Merge pull request #3 from boostcampaitech7/dataset-experiments

e32152e

증강 데이터셋 실험 환경 구축

feat: warmup_ratio 추가

02abef5

fix: 쌍따옴표 미삽입 fix

eccf3ad

feat: 옵티마이저 적용

80b76a3

Merge pull request #4 from boostcampaitech7/dataset-experiments

191c11f

증강 데이터셋 실험 환경 구축 2차

feat: optimizer와 train lr을 같게 설정

2ba7a38

Merge pull request #5 from boostcampaitech7/dataset-experiments

23fbb9c

feat: optimizer와 train lr을 같게 설정

fix: optimizer 수정

a9e9e16

현서님 지시대로 기존 optimizer 제거 후 SFTConfig의 optim 인자를 사용하여 adamw 8bit로 변경

Merge pull request #6 from boostcampaitech7/dataset-experiments

68a2d3a

qwen 데이터셋 실험 환경 optimizer 수정

feat: 증강 데이터셋 테스트 설정 ver2 추가

bca5c89

한택님 SOTA 모델 파라미터 기반으로 config 파일 설정

pica-git0 added 12 commits November 26, 2024 17:27

fix: 잘못된 import 제거

c5e707a

feat: qwen best 모델 설정을 save_step 100, save_strategy=steps로 변경, 그 외 ou…

10d6d3e

…tput dir 변경 저장 간격을 최대한 좁혀 안정성 강화

feat: is_augmented 인자 추가

c2d6270

is_augmented : 증강되었는 지 여부를 전달 데이터 증강 여부를 전달하여 기본 데이터셋와 증강 데이터셋의 차이를 고려하여 적절히 파싱하기 위해 추가

feat: script 증강 데이터 여부를 인수로 전달 받고 데이터 전처리기에 전달

07c5891

feat: preprocessing 데이터프레임을 전달받아 전처리하여 리턴하는 파이프라인 구현

6d2deab

is_augmented 인자값(증강 데이터 여부)에 따라 적절히 처리하여 전처리된 데이터를 반환하는 파이프라인 구현

feat: loader 기존 컬럼 데이터 전처리 부분을 새로 만든 파이프라인으로 대체

7246867

feat: notebooks 데이터 핸들링 추가

05b3a3d

여러 output 병합하는 코드 추가가

init: logs 폴더 초기화

fbef8cc

다양한 로그를 저장하기 위한 폴더 세팅

chore: run script에 nohup 모드 추가

8f92796

--nohup 옵션을 통해 터미널 종료되어도 스크립트가 백그라운드에서 실행가능하도록 변경

feat: jupyter 코드 추가

f55be3c

docs: unsloth 설치 명령어 가져오는 유틸리티 코드 추가

ec15523

https://github.com/unslothai/unsloth/ 프로젝트의 READEME.md에 존재하는 코드 복사

docs: 다른 프로젝트에서 가져온 코드에 대하여 출처와 라이센스 명시

f26372e

pica-git0 closed this Dec 9, 2024

pica-git0 reopened this Dec 11, 2024

monologg suggested changes Dec 15, 2024

View reviewed changes

pica-git0 added 15 commits December 23, 2024 23:40

fix: 모든 .keep 파일을 igonore 하도록 변경 (#15)

930e2be

리뷰에 따라 수정했습니다.

fix: custom rule을 맨 밑으로 이동동 (#15)

7991996

리뷰에 따라 custom rule을 맨 밑으로 옮겼습니다.

fix: unsloth 리포지터리의 오타 교정

f3c744a

리뷰어의 수정제안을 반영했습니다.

style: prettier formatting 적용 (#15)

070b006

리뷰어의 수정 제안에 따라 prettier 플러그인을 통한 포매팅 적용

fix: snakecase를 가진 클래스명 변경 (#15)

6c29ded

리뷰에 따라 snakecase를 수정하여 PascalCase 적용

style: black formatter 적용용

dcfb6f4

fix: argparse default to required fix (#15)

23b1f76

리뷰와 관련해 버그 픽스스

fix: sys.exit(1)로 변경하여 예외 상황 종료를 명시 (#15)

f701e8d

리뷰어의 제안 반영하여 오류 상태 종료로 변경

feat: tqdm에 dynamic_ncols 옵션을 주어 동적 너비 조정 적용 (#15)

b01b863

리뷰어의 제안을 적용하여 동적 너비 조정 적용용

feat: 어떤 객체를 출력하고 있는지 명시 (#15)

d380bb5

리뷰어의 수정제안 적용용

style: 불필요한 주석 제거 (#15)

66b5dbc

리뷰에 따라 불필요한 주석 제거

refactor: 함수명 load_datasets_V2을 load_datasets_v2으로 변경 (#15)

46fc7e8

리뷰어의 제안에 따라 함수명 수정

fix: 사용하지 않는 라이브러리 제거

a516092

- 리뷰에 따라 심각한 문제를 유발할 수 있는 부분 제거 - python 자동 import 설정으로 인한 클래스 추가로 발생

fix: is_augmented 인자 값을 True 혹은 False만 고려 (#15)

70c5037

리뷰어의 수정제안에 따라 fix

refactor: get_chat_template 함수명을 get_default_chat_template으로 변경 (#15

90da4a9

) 리뷰어의 수정제안을 반영하여 메시지 템플릿 함수명 변경경

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feedback pr2 #15

feedback pr2 #15

pica-git0 commented Dec 2, 2024

monologg Dec 15, 2024

pica-git0 Dec 23, 2024

monologg Dec 15, 2024

pica-git0 Dec 23, 2024

monologg Dec 15, 2024

pica-git0 Dec 23, 2024

monologg Dec 15, 2024

monologg Dec 15, 2024

pica-git0 Dec 23, 2024

monologg Dec 15, 2024

pica-git0 Dec 23, 2024

monologg Dec 15, 2024



		@dataclass
		class Qwen32BWithUnsloth_ModelArguments(ModelArguments):

		return records


		def prepare_records(dataset: pd.DataFrame, is_augmented: Optional[bool] = False) -> List[Dict]:

feedback pr2 #15

Are you sure you want to change the base?

feedback pr2 #15

Conversation

pica-git0 commented Dec 2, 2024

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment