形態素解析ができるようにする①
形態素解析ができるようにします。
そもそも形態素解析とは形態素解析 – Wikipediaを見てくれればいいですが、
ようは、文章をいい具合に解析してくれるわけです。
DIYers!でのキーワード検索に使用します。
方法としていろいろありますが、今回は、
mecabを使ってみます。
まずは、mecab本体をダウンロードします。
[root@wwwXXXXXX ~]# wget http://downloads.sourceforge.net/project/mecab/mecab/0.98/mecab-0.98.tar.gz?r=http%3A%2F%2Fsourceforge.net%2Fprojects%2Fmecab%2Ffiles%2Fmecab%2F0.98%2F&ts=1291793408&use_mirror=jaist
続いてインストールします。
[root@wwwXXXXXX ~]# tar xvfz mecab-0.98.tar.gz [root@wwwXXXXXX ~]# cd mecab-0.98 [root@wwwXXXXXX mecab-0.98]# ./configure [root@wwwXXXXXX mecab-0.98]# make [root@wwwXXXXXX mecab-0.98]# make check ---(省略)--- runtests faild in FAIL: run-cost-train.sh =================== 1 of 3 tests failed =================== make[2]: *** [check-TESTS] エラー 1 make[2]: ディレクトリ `/root/mecab-0.98/tests' から出ます make[1]: *** [check-am] エラー 2 make[1]: ディレクトリ `/root/mecab-0.98/tests' から出ます make: *** [check-recursive] エラー 1
なんかエラーが出ますけど、google先生が無視していいと言い張るので、無視します。
[root@wwwXXXXXX mecab-0.98]# make install
次にmecab辞書をインストールします。
ここではIPA辞書を選択しました。
[root@wwwXXXXXX ~]# wget http://downloads.sourceforge.net/project/mecab/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz?r=http%3A%2F%2Fsourceforge.net%2Fprojects%2Fmecab%2Ffiles%2Fmecab-ipadic%2F2.7.0-20070801%2F&ts=1291794005&use_mirror=jaist [root@wwwXXXXXX ~]# tar xvfz mecab-ipadic-2.7.0-20070801.tar.gz [root@wwwXXXXXX ~]# cd mecab-ipadic-2.7.0-20070801 [root@wwwXXXXXX mecab-ipadic-2.7.0-20070801]# ./configure --with-charset=utf8 --enable-utf8-only [root@wwwXXXXXX mecab-ipadic-2.7.0-20070801]# make [root@wwwXXXXXX mecab-ipadic-2.7.0-20070801]# make install
とりあえずインストールできたので、やってみます。
[root@wwwXXXXXX ~]# mecab 明日の天気はあまりよくなさそうです。 明日 名詞,副詞可能,*,*,*,*,明日,アシタ,アシタ の 助詞,連体化,*,*,*,*,の,ノ,ノ 天気 名詞,一般,*,*,*,*,天気,テンキ,テンキ は 助詞,係助詞,*,*,*,*,は,ハ,ワ あまり 副詞,助詞類接続,*,*,*,*,あまり,アマリ,アマリ よく 副詞,一般,*,*,*,*,よく,ヨク,ヨク な 形容詞,自立,*,*,形容詞・アウオ段,ガル接続,ない,ナ,ナ さ 名詞,接尾,特殊,*,*,*,さ,サ,サ そう 名詞,接尾,助動詞語幹,*,*,*,そう,ソウ,ソー です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 。 記号,句点,*,*,*,*,。,。,。 EOS
おー、なんか解析したぞ。すげー。