Sufaryで自分マイニング ブログでよく使う単語を発見する
検索プログラムのSufaryはときどきデスクトップで使っている。先日、作者のたつを氏がこんな実験をしていた。
・[を] 自分マイニング! - Blogでよく使うフレーズは?
http://nais.to/~yto/clog/2005-01-18-3.html
自分のブログの記事から特徴的な言葉遣いを抽出するテキストマイニングの実験。
・SUFARY
http://nais.to/~yto/tools/sufary/
Unix用だが、Windowsでもコンパイルできる。
Safaryは検索するだけでなく、文書の索引データをn-gramで高速に作成できる。
n-gramとは言語処理の手法の一つで、nの部分には数字が入る。文章を1文字ずつずらしながらn文字分のパターンを抽出する。
たとえば、「こんにちは」を3-gramで処理すると、
「こんに」
「んにち」
「にちは」
というパターンを切り出せる。(厳密には日本語文字は1文字2バイトなのでこの例は6-gram)。
この機能を使って、私のブログの過去ログ520日分すべてを対象に、パターン分析を行った。
・日本語(2バイト)文字のみを対象とする。
・言語処理におけるゴミ(記号や修正不能な文字化け等)を除外する
・明らかにひとつの単語である場合は重複を削除。
実例:
「132 ュニケーション」 「132 ミュニケーショ」 「132 コミュニケーシ」
の場合、回数が同一で「コミュニケーション」であると特定できるので、先頭語を含む「132 コミュニケーシ」を採用し他を捨てる。
こうした処理の結果、以下のようなことばの登場回数ランキングが発見された。
■3文字のランキング
1位 955 がある
2位 950 います
3位 876 ではな
4位 874 サイト
5位 859 されて
6位 839 ていた
7位 812 った。
8位 806 ない。
9位 781 ネット
10位 770 ように
3文字ではまだ実際にどのような文章の一部だったのか特定が難しい。とりあえず、カタカナとしてサイトとネットは多く使ったようだ。
■4文字のランキング
1位 877 っている
2位 856 である。
3位 825 れている
4位 711 います。
5位 702 されてい
6位 612 ではない
7位 575 ることが
8位 503 すること
9位 482 いうこと
10位 463 るという
トップは「〜と、なっている」「持っている」「分かっている」のような使い方の一部だった。2位は文末の「である」。
■5文字のランキング
1位 462 されている
2位 430 ということ
3位 410 ことができ
4位 404 している。
5位 377 れている。
6位 331 ています。
7位 301 のではない
8位 287 ることがで
9位 286 ネットワー
10位 279 もしれない
「されている」、「ということができる」、「している」、「かもしれない」。5文字と次の6文字くらいが語尾の結び方の特徴が顕著に現れている。
■6文字のランキング
1位 287 ることができ
2位 278 かもしれない
3位 273 ことができる
4位 251 ンターネット
5位 251 インターネッ
6位 230 と思います。
7位 226 のではないか
8位 215 されている。
9位 208 ネットワーク
10位 204 コミュニティ
「〜することができる」、「〜かもしれない」、「〜と思います」、「〜のではないか
」、「〜されている」、インターネット、ネットワーク、コミュニティ。よく使うフレーズの数々。
■7文字のランキング
1位 250 インターネット
2位 184 ることができる
3位 152 かもしれない。
4位 144 ことができる。
5位 135 アプリケーショ
6位 133 マーケティング
7位 132 コミュニケーシ
8位 130 インタフェース
9位 125 のではないかと
10位 113 することができ
「インターネット・アプリケーション・マーケティング」が私のカタカナ3種の神器だと判明。そういうタイトルの本でも書いてみようか...。それが売れたら2冊目は「ネットワーク・コミュニティ・インタフェース」で決まり。
なお2文字の漢字単語を調べたところ、以下のような状況になった。
■2文字の漢字単語
1位 867 会議
2位 728 検索
3位 649 世界
4位 616 著者
5位 556 時間
6位 555 技術
7位 544 自分
8位 513 研究
9位 485 科学
10位 460 紹介
「会議」は昨年の無敵会議の影響。「著者」は書評内でよく使うため。
典型的な私の文章というのは、
「
インターネット検索の技術は、コミュニティのマーケティングに利用することができるアプリケーションなのかもしれない、と著者は世界会議で自分の研究を紹介している。」
こんなかんじであることがわかる。そのまま過去に書いていそうな気もする。
この調査、最初は自分の文章の癖が分かって面白かったのだが、だんだんと「自分らしさ」に自家中毒を起こしそうな気分になってきた。もっと語彙や文体に広がりを持ちたい今日この頃である。
トラックバック(0)
このブログ記事を参照しているブログ一覧: Sufaryで自分マイニング ブログでよく使う単語を発見する
このブログ記事に対するトラックバックURL: http://www.ringolab.com/mt/mt-tb.cgi/1541