Pythonで文書解析

文書解析ライブラリ

Mecabという日本語を解析するライブラリがある。

AIというと何となく自分で考えて何かをしてくれそうなイメージがあるので、文書の自動作成とかしたいなと思った。

いきなり、そこまでは行けないので、まずは文書解析をしたいと思った。

 

とりあえず、Mecabをインストールして、ちょこちょこっとソースを書いてみた。

意外なほど日本語を分析できていて、このレベルのライブラリが無料なことに驚く・・・。

  

mecab.py

import MeCab

mecab = MeCab.Tagger ('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')

text = '梅雨前線が西日本から東北付近へのび、前線に向かって暖かく湿った空気が流れ込んでいる。'
mecab.parse('')#文字列がGCされるのを防ぐ
node = mecab.parseToNode(text)
while node:
char = node.surface
pnt = node.feature.split(",")[1]
print(char, ':', pnt)
node = node.next
結果

: *
梅雨前線 : 固有名詞
が : 格助詞
西日本 : 固有名詞
から : 格助詞
東北 : 固有名詞
付近 : 一般
へ : 格助詞
のび : 自立
、 : 読点
前線 : 一般
に : 格助詞
向かっ : 自立
て : 接続助詞
暖かく : 自立
湿っ : 自立
た : *
空気 : 一般
が : 格助詞
流れ込ん : 自立
で : 接続助詞
いる : 非自立
。 : 句点
: *
 
先頭と最後にゴミを拾っているっぽいけど。
とりあえずは使えそう。