한국어 체언 추출기나 만들어 보려고 합니다. 원래는 형태소 분석기를 만드려고 했는데, 그닥 쓸모있는지는 모르겠습니다.
대충 1단계 목표는 다음과 같이 잡을까 합니다.
- 순수하게 Java로 짠다. Java는 플랫폼 중립적인데다가, 내가 잘 아는 언어다. 유니코드 지원도 꽤나 뛰어나다.
- 다른 사람이 쓰기 쉬워야 한다. 쓸만한 클래스 구조가 나와야 한다는 거다.
- 작아야 한다. 자료를 포함해서 2메가가 넘어가면 배포하기에 좀 무리가 있지 않을까 싶다. 나중에 자료가 늘어난다면 작은 버전과 큰 버전을 구분해서 배포한다.
- 빨라야 한다. 조사처럼 많이 쓰이는 부분은 TRIE로 캐시한다.
- 결과는 그럭저럭 쓸만하면 된다. 처음에는 완전한 형태소 분석기를 만들지 않아도 된다. 단어만 잘 뽑아내면 된다.
- 초기 경량버전은 BSD류 라이센스다. 나중에 GPL이나 상용으로 라이센스가 바뀔 수도 있다(므흣).
- 아무나 자료를 입력하기 쉬워야 한다. 사전 자료는 표준적으로 쓰이는 8품사 정도로만 구분한다. 연결정보는 따로 입력하지 않는다. 세부 분류는 자동으로 한다.
따라서 활용빈도가 높은 자료부터 넣어야 효과적이겠습니다~ 아래는 그에 대한 자료들.
관련 자료
이런저런 파일들
또 관련 사이트들도 있습니다~
관련된 자료구조로는 다음과 같은 것이 있죠
- TRIE 구조(위키백과 참조): 사전 만들 때에, 중복되는 단어들을 요리조리 모아서 메모리 되게 조금 먹게 만드는 놈입니다. 꽤 빠르구요. 인터넷에서 좋은 것 찾기도 귀찮아서 그냥 TrieMap과 TrieSet이라는 클래스를 만들었습니다.
품사 분류는 "한국어 학습용 어휘 목록"에 쓰이는 정도로만 해도 될 것 같습니다. (그 이상 나누기도 귀찮을 겁니다) 감탄사, 고유 명사, 관형사, 대명사, 동사, 명사, 보조 용언, 부사, 분석 불능, 수사, 의존 명사, 형용사 총 12개입니다.
Comments (0)
You don't have permission to comment on this page.