본문 바로가기

인공지능

AI-hub 공공데이터를 활용하여 한국어-영어 번역 LLM 만들기 (1) 데이터 가공

요즘 핫한 LLM을 이용하여 토이프로젝트를 진행해보도록 하겠습니다. (필자도 NLP는 처음이기에 GPT의 훈련 포스트에서 잘못된 정보를 제공할 수 있습니다!!!)

가장 먼저 데이터가 필요하겠죠?

데이터는 국가에서 수집, 개방한 AI-Hub에서 받아오도록 하겠습니다.

 

https://www.aihub.or.kr/ 

 

AI-Hub

[교통물류] 상용 자율주행차 야간 자동차 전용도로 데이터 #자율주행차 # 상용 자율주행 # 상용 자율주행차 # 자율주행 데이터 #자율주행 조회수 6,847 관심등록 10 다운수 16

www.aihub.or.kr

 

AI-Hub 홈페이지에 접속한 후 데이터 찾기 버튼을 클릭하고나서 위 그림과 같이 다운로드순으로 데이터를 조회해줍니다!

 

 

위 데이터셋을 다운로드 해줍니다.

데이터를 다운로드 하기 위해서 회원가입 후 데이터 사용 승인을 받아야합니다. 하지만 자동승인이기 때문에 신청만 하면 바로 받을 수 있습니다 !

 

 

각 데이터들을 살펴보면 아래와 같이 원문, 번역문만 있는것이 아닌 대화체, 문어체에 따라 여러 다른 column들도 존재하는 것을 볼 수 있습니다.

 

다운받은 데이터를 결합해서 하나의 파일로 만들어주면 추후 데이터를 불러오고, 학습하기 쉽겠죠?

또한 우리는 한국어-영어 번역만 필요한 상황이므로 원문, 번역문만을 파싱하도록 하겠습니다.

아래 코드를 실행하여 봅시다.

import os
import pandas as pd

dir_path = './kor_eng' # 엑셀 파일이 저장된 디렉터리
files = os.listdir(dir_path)
print(files)

merge_df = pd.DataFrame()

for file in files:
    df = pd.read_excel(f'{dir_path}/{file}')
    df = df[['원문', '번역문']]
    merge_df = pd.concat([merge_df, df])

merge_df.columns = ['ko', 'en']
merge_df.to_csv('./dataset.csv', index=False)

 

그럼 dataset.csv에는 총 1,602,418건의 원문, 번역문의 데이터가 저장되어 학습을 위한 데이터셋이 생성되었습니다.