
ChaSen을 UTF-8용으로 설치
소개
이 기사에서는 형태소 분석기 ChaSen에서 UTF-8을 다루는 절차를 설명합니다.
환경은 Mac에 있는 Vagrant, bento/centos-6.7 입니다. (Mac 환경을 더럽히고 싶지 않았기 때문에 Vagrant로 만들었습니다.)
이 절차를 따르면 EUC-JP에서 읽을 수 없습니다.
설치
로컬(Mac에서 작업)
필요한 파일을 로컬로 다운로드
도서관
다운로드 페이지
검색할 파일
ChaSen
h tps : // 오 sd. jp/p 로지ぇcts/챠센-ぇ가 cy/레페아세 s/
chasen-2.4.5.tar.gz
IPADIC
h tps : // 오 sd. jp/p 로지ぇcts/이파ぢc/레페아세 s/
ipadic-2.7.0.tar.gz
scp로 Vagrant로 보내기(호스트:192.168.33.10, 사용자:vagrant)
암호는 변경하지 않으면 vagrant
입니다.
scp ~/Downloads/chasen-2.4.5.tar.gz [email protected]:/home/vagrant
scp ~/Downloads/ipadic-2.7.0.tar.gz [email protected]:/home/vagrant
원격 (vagrant에서 작업)
gcc-c++ 설치
[[email protected] ~]$ sudo yum install gcc-c++ -y
Darts 설치
[[email protected] ~]$ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
[[email protected] ~]$ tar xvf darts-0.32.tar.gz
[[email protected] ~]$ cd darts-0.32
[[email protected] darts-0.32]$ ./configure
[[email protected] darts-0.32]$ make
[[email protected] darts-0.32]$ sudo make install
make에서 make: *** ターゲットが指定されておらず, makefile も見つかりません. 中止.
라는 오류가 발생하면 gcc-c++가 설치되지 않았을 수 있습니다. ( ./configure
출력에 오류가 있어야합니다)
ChaSen 설치
[[email protected] ~]$ tar xvf chasen-2.4.5.tar.gz
[[email protected] ~]$ cd chasen-2.4.5
[[email protected] chasen-2.4.5]$ ./configure
[[email protected] chasen-2.4.5]$ make
[[email protected] chasen-2.4.5]$ sudo make install
Darts가 설치되어 있지 않으면 ./configure
에 오류가 발생합니다.
IPADIC 설치(UTF-8)
UTF-8 변환에 필요한 nkf를 설치합니다.
[[email protected] ~]$ sudo yum install nkf -y
사전 파일을 UTF-8로 변환한 후 make합니다.
[[email protected] ~]$ tar xvf ipadic-2.7.0.tar.gz
[[email protected] ~]$ cd ipadic-2.7.0
[[email protected] ipadic-2.7.0]$ find -name '*.dic' | xargs nkf --overwrite -w
[[email protected] ipadic-2.7.0]$ find -name '*.cha' | xargs nkf --overwrite -w
[[email protected] ipadic-2.7.0]$ `chasen-config --mkchadic`/makemat -i w
[[email protected] ipadic-2.7.0]$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
[[email protected] ipadic-2.7.0]$ ./configure
[[email protected] ipadic-2.7.0]$ make
[[email protected] ipadic-2.7.0]$ sudo make
[[email protected] ipadic-2.7.0]$ sudo nkf -w --overwrite /usr/local/etc/chasenrc
실행
test.txt라는 파일을 UTF-8로 만듭니다.
test.txtこれは茶筅のテストです。
すもももももももものうち!
[[email protected] ~]$ chasen -iw test.txt
これ コレ これ 名詞-代名詞-一般
は ハ は 助詞-係助詞
茶筅 チャセン 茶筅 名詞-一般
の ノ の 助詞-連体化
テスト テスト テスト 名詞-サ変接続
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS
すもも スモモ すもも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
の ノ の 助詞-連体化
うち ウチ うち 名詞-一般
! ! ! 記号-一般
EOS
EOS
메모
로컬(Mac에서 작업)
필요한 파일을 로컬로 다운로드
도서관
다운로드 페이지
검색할 파일
ChaSen
h tps : // 오 sd. jp/p 로지ぇcts/챠센-ぇ가 cy/레페아세 s/
chasen-2.4.5.tar.gz
IPADIC
h tps : // 오 sd. jp/p 로지ぇcts/이파ぢc/레페아세 s/
ipadic-2.7.0.tar.gz
scp로 Vagrant로 보내기(호스트:192.168.33.10, 사용자:vagrant)
암호는 변경하지 않으면
vagrant
입니다.scp ~/Downloads/chasen-2.4.5.tar.gz [email protected]:/home/vagrant
scp ~/Downloads/ipadic-2.7.0.tar.gz [email protected]:/home/vagrant
원격 (vagrant에서 작업)
gcc-c++ 설치
[[email protected] ~]$ sudo yum install gcc-c++ -y
Darts 설치
[[email protected] ~]$ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
[[email protected] ~]$ tar xvf darts-0.32.tar.gz
[[email protected] ~]$ cd darts-0.32
[[email protected] darts-0.32]$ ./configure
[[email protected] darts-0.32]$ make
[[email protected] darts-0.32]$ sudo make install
make에서
make: *** ターゲットが指定されておらず, makefile も見つかりません. 中止.
라는 오류가 발생하면 gcc-c++가 설치되지 않았을 수 있습니다. ( ./configure
출력에 오류가 있어야합니다)ChaSen 설치
[[email protected] ~]$ tar xvf chasen-2.4.5.tar.gz
[[email protected] ~]$ cd chasen-2.4.5
[[email protected] chasen-2.4.5]$ ./configure
[[email protected] chasen-2.4.5]$ make
[[email protected] chasen-2.4.5]$ sudo make install
Darts가 설치되어 있지 않으면
./configure
에 오류가 발생합니다.IPADIC 설치(UTF-8)
UTF-8 변환에 필요한 nkf를 설치합니다.
[[email protected] ~]$ sudo yum install nkf -y
사전 파일을 UTF-8로 변환한 후 make합니다.
[[email protected] ~]$ tar xvf ipadic-2.7.0.tar.gz
[[email protected] ~]$ cd ipadic-2.7.0
[[email protected] ipadic-2.7.0]$ find -name '*.dic' | xargs nkf --overwrite -w
[[email protected] ipadic-2.7.0]$ find -name '*.cha' | xargs nkf --overwrite -w
[[email protected] ipadic-2.7.0]$ `chasen-config --mkchadic`/makemat -i w
[[email protected] ipadic-2.7.0]$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
[[email protected] ipadic-2.7.0]$ ./configure
[[email protected] ipadic-2.7.0]$ make
[[email protected] ipadic-2.7.0]$ sudo make
[[email protected] ipadic-2.7.0]$ sudo nkf -w --overwrite /usr/local/etc/chasenrc
실행
test.txt라는 파일을 UTF-8로 만듭니다.
test.txtこれは茶筅のテストです。
すもももももももものうち!
[[email protected] ~]$ chasen -iw test.txt
これ コレ これ 名詞-代名詞-一般
は ハ は 助詞-係助詞
茶筅 チャセン 茶筅 名詞-一般
の ノ の 助詞-連体化
テスト テスト テスト 名詞-サ変接続
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS
すもも スモモ すもも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
の ノ の 助詞-連体化
うち ウチ うち 名詞-一般
! ! ! 記号-一般
EOS
EOS
메모
これは茶筅のテストです。
すもももももももものうち!
[[email protected] ~]$ chasen -iw test.txt
これ コレ これ 名詞-代名詞-一般
は ハ は 助詞-係助詞
茶筅 チャセン 茶筅 名詞-一般
の ノ の 助詞-連体化
テスト テスト テスト 名詞-サ変接続
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS
すもも スモモ すもも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
の ノ の 助詞-連体化
うち ウチ うち 名詞-一般
! ! ! 記号-一般
EOS
EOS
chasen: /usr/local/lib/chasen/dic/ipadic/cforms.cha:9-21: no basic form
라는 메시지가 나오면 올바르게 UTF-8 화되지 않았습니다