MacでのMeCab(和布蕪)導入
この日記の記事を書くのを忘れてました。 ただの覚え書きです。
さて、はてなを使い始めて1ヶ月ちょっとですが、ここで「スーパーpre記法」という技を使ってみます。 正しく表示されるかな? とりあえずMacPortsは入れてあります。
$ sudo /opt/local/bin/port install mecab +utf8
おお、何とMeCabをインストールするのはこれだけです。
インストールしたら、細かいオプション等気にせず、
$ mecab < hoge.txt
とすれば、勝手に形態素解析を実施してくれます。
僕の場合は、名詞の単語の出現頻度が多いものを抽出したかったので、
$ mecab < hoge.txt | grep '名詞' | sort | uniq -c | sort | head -n 5 | awk '{print $2}'
みたいな感じでやってあげると、文章内の頻出単語上位5つが出力されます。(若干間違ってるかも・・・・) 本当はもっと細かい指定が必要なのですが、基本はこの形だと思ってます。
基本的に rb-mecabで実行するより、rubyから
result = `#{mecab_path} < "#{temp_file.path}" | grep '名詞' | sort | uniq -c | sort | head -n 5 | awk '{print $2}'`
のようにやってあげた方が、50倍は高速です^^