Pythonでいろいろやってみる

Pythonを使った画像処理や機械学習などの簡単なプログラムを載せています。

形態素解析ライブラリJanomeで分かち書きをする

Janome形態素解析ライブラリで、日本語の形態素解析が可能です。形態素解析とは文章を最小単位に分け品詞や活用形の分類をすることです。例えば以下のようになります。

今日はいい天気です
→今日(名詞) / は(助詞) / いい(形容詞) / 天気(名詞) / です(助動詞)

Janome公式記載のコードをコピぺしてやってみました。

環境
  • windows10 home
  • Anaconda 3/ jupyter notebook 5.6.0
  • Python 3.7.0
  • Janome 0.3.8
コード
#日本国憲法第十四条
from janome.tokenizer import Tokenizer
t = Tokenizer()
for token in t.tokenize(u'すべて国民は、法の下に平等であつて、人種、信条、性別、社会的身分又は門地により、政治的、経済的又は社会的関係において、差別されない。'):
    print(token)
実行結果
すべて      名詞,副詞可能,*,*,*,*,すべて,スベテ,スベテ
国民        名詞,一般,*,*,*,*,国民,コクミン,コクミン 
は          助詞,係助詞,*,*,*,*,は,ハ,ワ
、          記号,読点,*,*,*,*,、,、,、
法          名詞,一般,*,*,*,*,法,ホウ,ホー 
の          助詞,連体化,*,*,*,*,の,ノ,ノ
下          名詞,一般,*,*,*,*,下,シタ,シタ
に          助詞,格助詞,一般,*,*,*,に,ニ,ニ
平等        名詞,形容動詞語幹,*,*,*,*,平等,ビョウドウ,ビョードー
で          助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
あ          フィラー,*,*,*,*,*,あ,ア,ア
つて        名詞,一般,*,*,*,*,つて,ツテ,ツテ
、          記号,読点,*,*,*,*,、,、,、
人種        名詞,一般,*,*,*,*,人種,ジンシュ,ジンシュ
、          記号,読点,*,*,*,*,、,、,、
信条        名詞,一般,*,*,*,*,信条,シンジョウ,シンジョー
、          記号,読点,*,*,*,*,、,、,、
性別        名詞,一般,*,*,*,*,性別,セイベツ,セイベツ
、          記号,読点,*,*,*,*,、,、,、
社会        名詞,一般,*,*,*,*,社会,シャカイ,シャカイ
的          名詞,接尾,形容動詞語幹,*,*,*,的,テキ,テキ
身分        名詞,一般,*,*,*,*,身分,ミブン,ミブン
又は        接続詞,*,*,*,*,*,又は,マタハ,マタワ
門地        名詞,一般,*,*,*,*,門地,モンチ,モンチ
により      助詞,格助詞,連語,*,*,*,により,ニヨリ,ニヨリ
、          記号,読点,*,*,*,*,、,、,、
政治        名詞,一般,*,*,*,*,政治,セイジ,セイジ
的          名詞,接尾,形容動詞語幹,*,*,*,的,テキ,テキ
、          記号,読点,*,*,*,*,、,、,、
経済        名詞,一般,*,*,*,*,経済,ケイザイ,ケイザイ
的          名詞,接尾,形容動詞語幹,*,*,*,的,テキ,テキ
又は        接続詞,*,*,*,*,*,又は,マタハ,マタワ
社会        名詞,一般,*,*,*,*,社会,シャカイ,シャカイ
的          名詞,接尾,形容動詞語幹,*,*,*,的,テキ,テキ
関係        名詞,サ変接続,*,*,*,*,関係,カンケイ,カンケイ
において    助詞,格助詞,連語,*,*,*,において,ニオイテ,ニオイテ
、          記号,読点,*,*,*,*,、,、,、
差別        名詞,サ変接続,*,*,*,*,差別,サベツ,サベツ
さ          動詞,自立,*,*,サ変・スル,未然レル接続,する,サ,サ
れ          動詞,接尾,*,*,一段,未然形,れる,レ,レ
ない        助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
。          記号,句点,*,*,*,*,。,。,。
コード
#青空文庫 おれは二十面相だ 江戸川乱歩
from janome.tokenizer import Tokenizer
t = Tokenizer()
for token in t.tokenize(u'「そのエジプトの部屋には、いろいろなものがおいてあるのでしょう。そういうものの中に、かくれることはできませんか。たとえば、ミイラの棺なんか、人間がかくれようとおもえば、かくれられるのでしょう。」'):
    print(token)
実行結果
「          記号,括弧開,*,*,*,*,「,「,「
その        連体詞,*,*,*,*,*,その,ソノ,ソノ
エジプト    名詞,固有名詞,地域,国,*,*,エジプト,エジプト,エジプト
の          助詞,連体化,*,*,*,*,の,ノ,ノ
部屋        名詞,一般,*,*,*,*,部屋,ヘヤ,ヘヤ
に          助詞,格助詞,一般,*,*,*,に,ニ,ニ
は          助詞,係助詞,*,*,*,*,は,ハ,ワ
、          記号,読点,*,*,*,*,、,、,、
いろいろ    名詞,形容動詞語幹,*,*,*,*,いろいろ,イロイロ,イロイロ
な          助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
もの        名詞,非自立,一般,*,*,*,もの,モノ,モノ
が          助詞,格助詞,一般,*,*,*,が,ガ,ガ
おい        動詞,自立,*,*,五段・カ行イ音便,連用タ接続,おく,オイ,オイ
て          助詞,接続助詞,*,*,*,*,て,テ,テ
ある        動詞,非自立,*,*,五段・ラ行,基本形,ある,アル,アル
の          名詞,非自立,一般,*,*,*,の,ノ,ノ
でしょ      助動詞,*,*,*,特殊・デス,未然形,です,デショ,デショ
う          助動詞,*,*,*,不変化型,基本形,う,ウ,ウ
。          記号,句点,*,*,*,*,。,。,。
そういう    連体詞,*,*,*,*,*,そういう,ソウイウ,ソーユウ
もの        名詞,非自立,一般,*,*,*,もの,モノ,モノ
の          助詞,連体化,*,*,*,*,の,ノ,ノ
中          名詞,非自立,副詞可能,*,*,*,中,ナカ,ナカ
に          助詞,格助詞,一般,*,*,*,に,ニ,ニ
、          記号,読点,*,*,*,*,、,、,、
かくれる    動詞,自立,*,*,一段,基本形,かくれる,カクレル,カクレル
こと        名詞,非自立,一般,*,*,*,こと,コト,コト
は          助詞,係助詞,*,*,*,*,は,ハ,ワ
でき        動詞,自立,*,*,一段,連用形,できる,デキ,デキ
ませ        助動詞,*,*,*,特殊・マス,未然形,ます,マセ,マセ
ん          助動詞,*,*,*,不変化型,基本形,ん,ン,ン
か          助詞,副助詞/並立助詞/終助詞,*,*,*,*,か,カ,カ
。          記号,句点,*,*,*,*,。,。,。
たとえば    接続詞,*,*,*,*,*,たとえば,タトエバ,タトエバ
、          記号,読点,*,*,*,*,、,、,、
ミイラ      名詞,一般,*,*,*,*,ミイラ,ミイラ,ミイラ
の          助詞,連体化,*,*,*,*,の,ノ,ノ
棺          名詞,一般,*,*,*,*,棺,カン,カン
なんか      助詞,副助詞,*,*,*,*,なんか,ナンカ,ナンカ
、          記号,読点,*,*,*,*,、,、,、
人間        名詞,一般,*,*,*,*,人間,ニンゲン,ニンゲン
が          助詞,格助詞,一般,*,*,*,が,ガ,ガ
かくれよ    動詞,自立,*,*,一段,未然ウ接続,かくれる,カクレヨ,カクレヨ
う          助動詞,*,*,*,不変化型,基本形,う,ウ,ウ
と          助詞,格助詞,引用,*,*,*,と,ト,ト
おもえ      動詞,自立,*,*,五段・ワ行促音便,仮定形,おもう,オモエ,オモエ
ば          助詞,接続助詞,*,*,*,*,ば,バ,バ
、          記号,読点,*,*,*,*,、,、,、
かくれ      動詞,自立,*,*,一段,未然形,かくれる,カクレ,カクレ
られる      動詞,接尾,*,*,一段,基本形,られる,ラレル,ラレル
の          名詞,非自立,一般,*,*,*,の,ノ,ノ
でしょ      助動詞,*,*,*,特殊・デス,未然形,です,デショ,デショ
う          助動詞,*,*,*,不変化型,基本形,う,ウ,ウ
。          記号,句点,*,*,*,*,。,。,。
」          記号,括弧閉,*,*,*,*,」,」,」

コード
#平成31年4月1日 安倍内閣総理大臣記者会見
from janome.tokenizer import Tokenizer
t = Tokenizer()
for token in t.tokenize(u'それぞれの花を大きく咲かせることができる、そうした日本でありたいとの願いを込め、「令和」に決定いたしました。'):
    print(token)

実行結果
それぞれ    名詞,副詞可能,*,*,*,*,それぞれ,ソレゾレ,ソレゾレ
の          助詞,連体化,*,*,*,*,の,ノ,ノ
花          名詞,一般,*,*,*,*,花,ハナ,ハナ
を          助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
大きく      形容詞,自立,*,*,形容詞・イ段,連用テ接続,大きい,オオキク,オーキク
咲かせる    動詞,自立,*,*,一段,基本形,咲かせる,サカセル,サカセル
こと        名詞,非自立,一般,*,*,*,こと,コト,コト
が          助詞,格助詞,一般,*,*,*,が,ガ,ガ
できる      動詞,自立,*,*,一段,基本形,できる,デキル,デキル
、          記号,読点,*,*,*,*,、,、,、
そうした    連体詞,*,*,*,*,*,そうした,ソウシタ,ソーシタ
日本        名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン
で          助詞,格助詞,一般,*,*,*,で,デ,デ
あり        動詞,自立,*,*,五段・ラ行,連用形,ある,アリ,アリ
たい        助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
と          助詞,格助詞,引用,*,*,*,と,ト,ト
の          助詞,連体化,*,*,*,*,の,ノ,ノ
願い        名詞,一般,*,*,*,*,願い,ネガイ,ネガイ
を          助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
込め        動詞,自立,*,*,一段,連用形,込める,コメ,コメ
、          記号,読点,*,*,*,*,、,、,、
「          記号,括弧開,*,*,*,*,「,「,「
令和        名詞,固有名詞,一般,*,*,*,令和,レイワ,レイワ
」          記号,括弧閉,*,*,*,*,」,」,」
に          助詞,格助詞,一般,*,*,*,に,ニ,ニ
決定        名詞,サ変接続,*,*,*,*,決定,ケッテイ,ケッテイ
いたし      動詞,非自立,*,*,五段・サ行,連用形,いたす,イタシ,イタシ
まし        助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た          助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。          記号,句点,*,*,*,*,。,。,。

ブログランキングに参加しています

にほんブログ村 IT技術ブログへ
にほんブログ村