Pythonでいろいろやってみる

Pythonを使った画像処理や機械学習などの簡単なプログラムを載せています。

Janomeで形態素解析して形態素を登場回数順に並べる

日本語の形態素解析ライブラリJanomeにより形態素解析し、形態素を登場回数順に表示します。

関連記事 - 形態素解析ライブラリJanomeで分かち書きをする

環境
  • windows10 home
  • Anaconda 3/ jupyter notebook 5.6.0
  • Python 3.7.0
  • Janome 0.3.8
コード

用いた文章は首相官邸ウエブサイトにある平成31年4月1日 安倍内閣総理大臣記者会見から引用しています。

#平成31年4月1日 安倍内閣総理大臣記者会見
from janome.tokenizer import Tokenizer
import collections  # collectionsのインポート

list_a=[] 
t = Tokenizer()
for token in t.tokenize(u'本日、元号を改める政令を閣議決定いたしました。新しい元号は「令和」(れいわ)であります。これは「万葉集」にある「初春の令月にして 気淑(よ)く風和(やわら)ぎ 梅は鏡前の粉(こ)を披(ひら)き 蘭(らん)は珮後(はいご)の香を薫(かおら)す」との文言から引用したものであります。そして、この「令和」には、人々が美しく心を寄せ合う中で文化が生まれ育つという意味が込められております。「万葉集」は、1200年余り前に編さんされた日本最古の歌集であるとともに、天皇や皇族、貴族だけでなく、防人(さきもり)や農民まで、幅広い階層の人々が詠んだ歌が収められ、我が国の豊かな国民文化と長い伝統を象徴する国書であります。悠久の歴史と薫り高き文化、四季折々の美しい自然、こうした日本の国柄をしっかりと次の時代へと引き継いでいく。厳しい寒さの後に春の訪れを告げ、見事に咲き誇る梅の花のように、一人一人の日本人が明日への希望とともに、それぞれの花を大きく咲かせることができる、そうした日本でありたいとの願いを込め、「令和」に決定いたしました。 文化を育み、自然の美しさをめでることができる平和な日々に心からの感謝の念を抱きながら、希望に満ちあふれた新しい時代を国民の皆様と共に切り開いていく。新元号の決定に当たり、その決意を新たにしております。5月1日に皇太子殿下が御即位され、その日以降、この新しい元号が用いられることとなりますが、国民各位の御理解と御協力を賜りますよう、お願いいたします。政府としても、ほぼ200年ぶりとなる歴史的な皇位の継承がつつがなく行われ、国民こぞって寿(ことほ)ぐことができるよう、その準備に万全を期してまいります。元号は、皇室の長い伝統と、国家の安泰と、国民の幸福への深い願いとともに、1400年近くに渡る我が国の歴史を紡いできました。日本人の心情に溶け込み、日本国民の精神的な一体感を支えるものとなっています。この新しい元号も広く国民に受け入れられ、日本人の生活の中に深く根差していくことを心から願っています。私からは以上です。'):
    a=str(token).split()[0]  # 形態素解析結果を文字列とし、空白で分割した最初の部分を取り出す
    list_a.append(a)  #取り出した文字列をリストに追加

c = collections.Counter(list_a)  # オブジェクトlist_aのカウント
print(c.most_common(20))  # list_aのカウント結果をを登場回数の多い順に20個表示

実行結果

登場回数上位20を表示させた結果です。
「の」が35回、「、」が32回、「を」が20回となりました。

[('の', 35), ('、', 32), ('を', 20), ('に', 18), ('。', 15), ('と', 12), ('が', 12), ('ます', 11), ('(', 10), (')', 10), ('で', 9), ('は', 8), ('て', 8), ('国民', 7), ('元号', 6), ('た', 6), ('「', 6), ('」', 6), ('0', 6), ('こと', 5)]

ブログランキングに参加しています

にほんブログ村 IT技術ブログへ
にほんブログ村