bam6o0の記憶域

忘備録になればいいな

MeCabを久々に使った。

一年前にTwitterBotを作って以来いじってなかったMeCabとそれに伴ってシェルを使う機会があったので忘備録

テキストデータに入っている文字を出現頻度順に上位20個出力する。

$ mecab -F "\n" file | LC_ALL=C sort | LC_ALL=C uniq -c | sort -k1 -n -r | head -20 

MeCabオプション (上記""内)
%m 見出し(出現)
%f[6] 見出し(基本形)
%f[7] 読み(出現)
%f[8] 読み(基本形)
%f[0] 1階層目の品詞
%f[1] 2階層目の品詞
 空白
\n 改行
\t タブ

1つ目のsort形態素解析した結果を並び替え、uniq -cで重複文字をカウントし、2つ目のsortで重複数順に並び替える。

grep "名詞"等のコマンドにパイプして細かく細分化。

結論
パイプライン超便利