ChaSen을 UTF-8용으로 설치

ChaSen을 UTF-8용으로 설치

2022-10-04 last update

5 minutes reading 문자 코드 chasen 형태소 분석

소개



이 기사에서는 형태소 분석기 ChaSen에서 UTF-8을 다루는 절차를 설명합니다.
환경은 Mac에 있는 Vagrant, bento/centos-6.7 입니다. (Mac 환경을 더럽히고 싶지 않았기 때문에 Vagrant로 만들었습니다.)

이 절차를 따르면 EUC-JP에서 읽을 수 없습니다.

설치



로컬(Mac에서 작업)



필요한 파일을 로컬로 다운로드


도서관
다운로드 페이지
검색할 파일


ChaSen
h tps : // 오 sd. jp/p 로지ぇcts/챠센-ぇ가 cy/레페아세 s/
chasen-2.4.5.tar.gz

IPADIC
h tps : // 오 sd. jp/p 로지ぇcts/이파ぢc/레페아세 s/
ipadic-2.7.0.tar.gz


scp로 Vagrant로 보내기(호스트:192.168.33.10, 사용자:vagrant)
암호는 변경하지 않으면 vagrant입니다.
scp ~/Downloads/chasen-2.4.5.tar.gz [email protected]:/home/vagrant
scp ~/Downloads/ipadic-2.7.0.tar.gz [email protected]:/home/vagrant

원격 (vagrant에서 작업)



gcc-c++ 설치


[[email protected] ~]$ sudo yum install gcc-c++ -y

Darts 설치


[[email protected] ~]$ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
[[email protected] ~]$ tar xvf darts-0.32.tar.gz
[[email protected] ~]$ cd darts-0.32
[[email protected] darts-0.32]$ ./configure
[[email protected] darts-0.32]$ make
[[email protected] darts-0.32]$ sudo make install

make에서 make: *** ターゲットが指定されておらず, makefile も見つかりません. 中止. 라는 오류가 발생하면 gcc-c++가 설치되지 않았을 수 있습니다. ( ./configure 출력에 오류가 있어야합니다)

ChaSen 설치


[[email protected] ~]$ tar xvf chasen-2.4.5.tar.gz
[[email protected] ~]$ cd chasen-2.4.5
[[email protected] chasen-2.4.5]$ ./configure
[[email protected] chasen-2.4.5]$ make
[[email protected] chasen-2.4.5]$ sudo make install

Darts가 설치되어 있지 않으면 ./configure에 오류가 발생합니다.

IPADIC 설치(UTF-8)



UTF-8 변환에 필요한 nkf를 설치합니다.
[[email protected] ~]$ sudo yum install nkf -y

사전 파일을 UTF-8로 변환한 후 make합니다.
[[email protected] ~]$ tar xvf ipadic-2.7.0.tar.gz 
[[email protected] ~]$ cd ipadic-2.7.0
[[email protected] ipadic-2.7.0]$ find -name '*.dic' | xargs nkf --overwrite -w
[[email protected] ipadic-2.7.0]$ find -name '*.cha' | xargs nkf --overwrite -w
[[email protected] ipadic-2.7.0]$ `chasen-config --mkchadic`/makemat -i w
[[email protected] ipadic-2.7.0]$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
[[email protected] ipadic-2.7.0]$ ./configure
[[email protected] ipadic-2.7.0]$ make
[[email protected] ipadic-2.7.0]$ sudo make
[[email protected] ipadic-2.7.0]$ sudo nkf -w --overwrite /usr/local/etc/chasenrc

실행



test.txt라는 파일을 UTF-8로 만듭니다.

test.txt
これは茶筅のテストです。
すもももももももものうち!
[[email protected] ~]$ chasen -iw test.txt
これ  コレ  これ  名詞-代名詞-一般     
は ハ は 助詞-係助詞        
茶筅  チャセン    茶筅  名詞-一般       
の ノ の 助詞-連体化        
テスト   テスト   テスト   名詞-サ変接続     
です  デス  です  助動詞   特殊・デス 基本形
。 。 。 記号-句点       
EOS
すもも   スモモ   すもも   名詞-一般       
も モ も 助詞-係助詞        
もも  モモ  もも  名詞-一般       
も モ も 助詞-係助詞        
もも  モモ  もも  名詞-一般       
の ノ の 助詞-連体化        
うち  ウチ  うち  名詞-一般       
! ! ! 記号-一般       
EOS
EOS

메모


  • chasen 실행에서 chasen: /usr/local/lib/chasen/dic/ipadic/cforms.cha:9-21: no basic form라는 메시지가 나오면 올바르게 UTF-8 화되지 않았습니다

    참고 링크


  • ㅇㅇㅜㅜㅜㅜㅜㅜㅜㅜㅜ 오 sd. jp/
  • install chasen 茶筅 설치