요즘 핫한 LLM을 이용하여 토이프로젝트를 진행해보도록 하겠습니다. (필자도 NLP는 처음이기에 GPT의 훈련 포스트에서 잘못된 정보를 제공할 수 있습니다!!!)
가장 먼저 데이터가 필요하겠죠?
데이터는 국가에서 수집, 개방한 AI-Hub에서 받아오도록 하겠습니다.
AI-Hub 홈페이지에 접속한 후 데이터 찾기 버튼을 클릭하고나서 위 그림과 같이 다운로드순으로 데이터를 조회해줍니다!
위 데이터셋을 다운로드 해줍니다.
데이터를 다운로드 하기 위해서 회원가입 후 데이터 사용 승인을 받아야합니다. 하지만 자동승인이기 때문에 신청만 하면 바로 받을 수 있습니다 !
각 데이터들을 살펴보면 아래와 같이 원문, 번역문만 있는것이 아닌 대화체, 문어체에 따라 여러 다른 column들도 존재하는 것을 볼 수 있습니다.
다운받은 데이터를 결합해서 하나의 파일로 만들어주면 추후 데이터를 불러오고, 학습하기 쉽겠죠?
또한 우리는 한국어-영어 번역만 필요한 상황이므로 원문, 번역문만을 파싱하도록 하겠습니다.
아래 코드를 실행하여 봅시다.
import os
import pandas as pd
dir_path = './kor_eng' # 엑셀 파일이 저장된 디렉터리
files = os.listdir(dir_path)
print(files)
merge_df = pd.DataFrame()
for file in files:
df = pd.read_excel(f'{dir_path}/{file}')
df = df[['원문', '번역문']]
merge_df = pd.concat([merge_df, df])
merge_df.columns = ['ko', 'en']
merge_df.to_csv('./dataset.csv', index=False)
그럼 dataset.csv에는 총 1,602,418건의 원문, 번역문의 데이터가 저장되어 학습을 위한 데이터셋이 생성되었습니다.
'인공지능' 카테고리의 다른 글
AI-hub 공공데이터를 활용하여 한국어-영어 번역 LLM 만들기 (3) GPT 학습시키기 (0) | 2024.08.19 |
---|---|
AI-hub 공공데이터를 활용하여 한국어-영어 번역 LLM 만들기 (2) 모델 불러오기 (0) | 2024.07.11 |
Segment Anything Model(SAM) 사용하기 (0) | 2024.07.01 |
Tensorflow addons 을 이용한 F1 score 출력 (0) | 2022.10.14 |
EfficientNet B0 ~ B7 input / output shape(size), params (0) | 2022.10.12 |