MeCab.Tagger の形態素解析結果のフィルタリング

身近に苦戦している人がいたのと、Python Advent Calendar 2013 @ AdventarKWatch さんの記事から知りえた高速化の技を早速使ってみたかったので。

Get only preferred sort of nouns from MeCab.Tagger ...

形態素解析器や正規表現との戦いはかなりの苦労と時間の消費を強いられるので、なるべく早いうちに知識を共有しておきたいところ。

2013-12-14 追記

品詞 ID (上の例なら node.posid で読める)というのがあって、それを使う方が無難かつコンパクトというのを、後輩が話しているのを盗み聞きした。工藤拓さんによる品詞 ID の解説のページによれば、辞書ファイルのある場所に定義ファイルが収められている。IPA 地所を使っている自分の環境の場合、以下のパスにあり、ファイルは EUC-JP でエンコードされている。

/usr/local/lib/mecab/dic/ipadic/pos-id.def