HanCow(한글명: 한우)는 아래아한글을 자동화할 수 있도록 도움을 주는 오픈소스 AI 모델입니다.

목차

  1. 기획 배경
  2. 설계 과정

기획 배경

최근 Microsoft에서는 Excel에서 Python을 공식적으로 라이브러리로 지원하고 GPT 기반의 Copliot을 Windows OS에서 기본으로 지원하는 등 기존 OA 프로그램의 작업 효율을 향상시키기 위해 다양한 업데이트를 하였다.

이에따라 범지구적으로 활용되는 Microsoft Office 프로그램들에 대한 자동화 방법은 조금만 검색해봐도 쉽게 방법을 찾을 수 있게 되었다. 하지만 한국에서는 2000년대 초에는 8~90% 점유율, 감소하고 있지만 2020년 기준으로 아직도 30% 정도의 상당한 점유율을 가진 아래아한글 프로그램을 문서 작성 프로그램으로 많이 활용한다. 이 점유율의 대부분은 공공기관이나 공기업이며 반대로 말하면 공공기관이나 공기업에서의 아래아한글 사용률은 압도적이다.

공공기관에서 사무직을 담당해본 경험으로부터 실제로도 한국 공공기관에서는 워드보다 한글을 쓰는 경우가 더 많음을 체감한다. 한글에서도 자동화 기능을 지원하지만 몇 번의 딸깍으로 쉽게 자동화할 수 있는 다른 프로그램들과 달리 한글을 사용한다해서 사용자가 직접 프로그램이 언어를 학습하고 API 문서를 읽는 것은 불공평하다고 느꼈다. 워드와 컴활 자격증을 가지고 있는 입장에서 생각해도 프로그래밍과 한글 문서작성은 결이 다르다. 러닝커브가 꽤 높으며 개인이 이 과정들을 자동화하기는 쉽지 않다는 생각이다.

웹 사이트마저도 조금의 검색을 통해 손쉽게 자동화할 수 있는데 공공기관에서 높은 점유율을 가진 한글을 손쉽게 자동화할 수 있다면 국가적인 생산성 향상에도 크게 기여할 수 있지 않을까? 하는 생각에 프로젝트를 기획하게 되었다.

설계 과정

익히 알고있는 유명한 LLM과 LMM은 수천만원대를 호가하는 GPU를 적게는 십여대부터 많게는 수천대까지 활용한다. 2021년까지 비트코인에 의한 GPU 가격 폭등은 지나갔지만 뒤늦은 AI 열풍에 GPU 가격이 하락은 커녕 계속해서 상승하면서 개인이 이러한 자원은 커녕 대체제를 갖추는 것조차 사실상 불가능하다.

이번에 모델학습을 위해서 16GB VRAM 그래픽카드를 구매했지만 여전히 리소스는 부족하다.
때문에 파인튜닝의 방법에는 여러가지가 있지만 개인 PC에서 LLM Fine-tuning을 진행하는 현실적인 방법을 고려했다.

graph LR; raw_data[Raw Data] --> |LangChain Rag| qa_pair_data_set[QA Pair Data Set] --> |Base Model| QLoRA/LoRA --> |Low-Rank Adaptation| fine-tuning_data_set[Fine-tuning Data Set]
  1. 적은 리소스를 사용하는 학습 기법 선택