종욱의 위키

 

한국어

Page history last edited by Anonymous 3 yrs ago

한국어 체언 추출기나 만들어 보려고 합니다. 원래는 형태소 분석기를 만드려고 했는데, 그닥 쓸모있는지는 모르겠습니다.

 

대충 1단계 목표는 다음과 같이 잡을까 합니다.

 

  1. 순수하게 Java로 짠다. Java는 플랫폼 중립적인데다가, 내가 잘 아는 언어다. 유니코드 지원도 꽤나 뛰어나다.
  2. 다른 사람이 쓰기 쉬워야 한다. 쓸만한 클래스 구조가 나와야 한다는 거다.
  3. 작아야 한다. 자료를 포함해서 2메가가 넘어가면 배포하기에 좀 무리가 있지 않을까 싶다. 나중에 자료가 늘어난다면 작은 버전과 큰 버전을 구분해서 배포한다.
  4. 빨라야 한다. 조사처럼 많이 쓰이는 부분은 TRIE로 캐시한다.
  5. 결과는 그럭저럭 쓸만하면 된다. 처음에는 완전한 형태소 분석기를 만들지 않아도 된다. 단어만 잘 뽑아내면 된다.
  6. 초기 경량버전은 BSD류 라이센스다. 나중에 GPL이나 상용으로 라이센스가 바뀔 수도 있다(므흣).
  7. 아무나 자료를 입력하기 쉬워야 한다. 사전 자료는 표준적으로 쓰이는 8품사 정도로만 구분한다. 연결정보는 따로 입력하지 않는다. 세부 분류는 자동으로 한다.

 

따라서 활용빈도가 높은 자료부터 넣어야 효과적이겠습니다~ 아래는 그에 대한 자료들.

 


관련 자료

 

이런저런 파일들

 

또 관련 사이트들도 있습니다~

 

관련된 자료구조로는 다음과 같은 것이 있죠

  • TRIE 구조(위키백과 참조): 사전 만들 때에, 중복되는 단어들을 요리조리 모아서 메모리 되게 조금 먹게 만드는 놈입니다. 꽤 빠르구요. 인터넷에서 좋은 것 찾기도 귀찮아서 그냥 TrieMapTrieSet이라는 클래스를 만들었습니다.

 

품사 분류는 "한국어 학습용 어휘 목록"에 쓰이는 정도로만 해도 될 것 같습니다. (그 이상 나누기도 귀찮을 겁니다) 감탄사, 고유 명사, 관형사, 대명사, 동사, 명사, 보조 용언, 부사, 분석 불능, 수사, 의존 명사, 형용사 총 12개입니다.

Comments (0)

You don't have permission to comment on this page.