Marketing: 2005年1月アーカイブ
検索プログラムのSufaryはときどきデスクトップで使っている。先日、作者のたつを氏がこんな実験をしていた。
・[を] 自分マイニング! - Blogでよく使うフレーズは?
http://nais.to/~yto/clog/2005-01-18-3.html
自分のブログの記事から特徴的な言葉遣いを抽出するテキストマイニングの実験。
・SUFARY
http://nais.to/~yto/tools/sufary/
Unix用だが、Windowsでもコンパイルできる。
Safaryは検索するだけでなく、文書の索引データをn-gramで高速に作成できる。
n-gramとは言語処理の手法の一つで、nの部分には数字が入る。文章を1文字ずつずらしながらn文字分のパターンを抽出する。
たとえば、「こんにちは」を3-gramで処理すると、
「こんに」
「んにち」
「にちは」
というパターンを切り出せる。(厳密には日本語文字は1文字2バイトなのでこの例は6-gram)。
この機能を使って、私のブログの過去ログ520日分すべてを対象に、パターン分析を行った。
・日本語(2バイト)文字のみを対象とする。
・言語処理におけるゴミ(記号や修正不能な文字化け等)を除外する
・明らかにひとつの単語である場合は重複を削除。
実例:
「132 ュニケーション」 「132 ミュニケーショ」 「132 コミュニケーシ」
の場合、回数が同一で「コミュニケーション」であると特定できるので、先頭語を含む「132 コミュニケーシ」を採用し他を捨てる。
こうした処理の結果、以下のようなことばの登場回数ランキングが発見された。
■3文字のランキング
1位 955 がある
2位 950 います
3位 876 ではな
4位 874 サイト
5位 859 されて
6位 839 ていた
7位 812 った。
8位 806 ない。
9位 781 ネット
10位 770 ように
3文字ではまだ実際にどのような文章の一部だったのか特定が難しい。とりあえず、カタカナとしてサイトとネットは多く使ったようだ。
■4文字のランキング
1位 877 っている
2位 856 である。
3位 825 れている
4位 711 います。
5位 702 されてい
6位 612 ではない
7位 575 ることが
8位 503 すること
9位 482 いうこと
10位 463 るという
トップは「〜と、なっている」「持っている」「分かっている」のような使い方の一部だった。2位は文末の「である」。
■5文字のランキング
1位 462 されている
2位 430 ということ
3位 410 ことができ
4位 404 している。
5位 377 れている。
6位 331 ています。
7位 301 のではない
8位 287 ることがで
9位 286 ネットワー
10位 279 もしれない
「されている」、「ということができる」、「している」、「かもしれない」。5文字と次の6文字くらいが語尾の結び方の特徴が顕著に現れている。
■6文字のランキング
1位 287 ることができ
2位 278 かもしれない
3位 273 ことができる
4位 251 ンターネット
5位 251 インターネッ
6位 230 と思います。
7位 226 のではないか
8位 215 されている。
9位 208 ネットワーク
10位 204 コミュニティ
「〜することができる」、「〜かもしれない」、「〜と思います」、「〜のではないか
」、「〜されている」、インターネット、ネットワーク、コミュニティ。よく使うフレーズの数々。
■7文字のランキング
1位 250 インターネット
2位 184 ることができる
3位 152 かもしれない。
4位 144 ことができる。
5位 135 アプリケーショ
6位 133 マーケティング
7位 132 コミュニケーシ
8位 130 インタフェース
9位 125 のではないかと
10位 113 することができ
「インターネット・アプリケーション・マーケティング」が私のカタカナ3種の神器だと判明。そういうタイトルの本でも書いてみようか...。それが売れたら2冊目は「ネットワーク・コミュニティ・インタフェース」で決まり。
なお2文字の漢字単語を調べたところ、以下のような状況になった。
■2文字の漢字単語
1位 867 会議
2位 728 検索
3位 649 世界
4位 616 著者
5位 556 時間
6位 555 技術
7位 544 自分
8位 513 研究
9位 485 科学
10位 460 紹介
「会議」は昨年の無敵会議の影響。「著者」は書評内でよく使うため。
典型的な私の文章というのは、
「
インターネット検索の技術は、コミュニティのマーケティングに利用することができるアプリケーションなのかもしれない、と著者は世界会議で自分の研究を紹介している。」
こんなかんじであることがわかる。そのまま過去に書いていそうな気もする。
この調査、最初は自分の文章の癖が分かって面白かったのだが、だんだんと「自分らしさ」に自家中毒を起こしそうな気分になってきた。もっと語彙や文体に広がりを持ちたい今日この頃である。
年末年始気分でいつもと違う風味の記事を続けます。
2003年度の無敵会議ベストサイト「FuturePlanningNetwork」がこんな企画を実行している。「未来を創造するのに役立つブログ」、「ビジネスパーソンに影響を与えているブログ」を読者投票で決めようというオンラインイベント。
・日本のアルファブロガーを探せ2004
http://www.future-planning.net/x/modules/news/article.php?storyid=311
回答フォームから
「
(1)「会社のオフィスでは『3つだけ』しかブログを読んではいけない」と言われたら、どれを読みますか
・ブログ名1と(簡単な理由)
・ブログ名2と(簡単な理由)
・ブログ名3と(簡単な理由)
(2)上記の3つのブログを除いて、2004年にあなたが最も影響されたブロガーの記事を教えてください。
・URL
・簡単な理由
」
という質問に答えると投票に参加できる。ブログを持っている場合にはトラックバックでも有効。
無敵会議が終わった後、一昨年の優勝サイトのFPNが、こうした企画をやっていただけるのは、遺志を継いでいただけた気がして(死んでないけど)とても感激。
■アルファブロガー?主観と客観
アルファブロガーという言葉は誰が言い出したのか調べてみると、米国NewsWeekらしい。ネットにトレンドを生み出す先端ブロガーのこと。私も参加しているNECのヌーベルブログの目指すコンセプトはアルファブログそのものだったことに気がつく。
・MSNBC - The Alpha Bloggers
http://www.msnbc.msn.com/id/6693381/site/newsweek/
・ネット世論・ネットのトレンドを生み出すアルファブロガー [絵文録ことのは]04-12/23
http://kotonoha.main.jp/2004/12/23alpha-blogger.html
・Ad Innovator: アルファブロガーの台頭
http://adinnovator.typepad.com/ad_innovator/2004/12/post_2.html
FPN - ニュースコミュニティ- アルファブロガー企画にあたって。
http://www.future-planning.net/x/modules/news/article.php?storyid=317
影響力のネットワークを分析するという意味では、社会ネットワーク論やシステム論の方面では古くから研究が行われている。次の2冊の本など人間関係の本質を知るのに参考になった。
・書評:人脈作りの科学―「人と人との関係」に隠された力を探る
http://www.ringolab.com/note/daiya/archives/002338.html
・書評:つながりの科学―パーコレーション
http://www.ringolab.com/note/daiya/archives/000406.html
・JSAI2004 Human Network
http://www.carc.aist.go.jp/HUMANNET/
人工知能学会の論文・プロジェクトの共著、共同関係を分析して影響力ある研究者を特定した試み。
また、ブログについては引用関係を抽出しやすいため、Blogdexのようなランキング自動作成サイトが、毎日、客観的なデータを発表している。
・blogdex - the weblog diffusion index
http://blogdex.net/
ブログの引用状況から最も影響力のあるブログを毎日計算して発表する老舗ランキングサイト。
・blogmap - トップページ
http://1470.net/bm/
Blogdexの日本語版のようなもの。
・feed meter - ブログ RSS フィードの人気度と更新頻度を計測するメーター
http://feedmeter.net/
RSSのダウンロード数、引用関係から人気ブログランキングを発表する。
だが、今回のアルファブロガー企画は、主観で選ぶのが基本であるようだ。人間の関係において主観というのは非常に大きな影響要素だと思う。機械的計算では選び出せないブログが発見されると面白い。20日まで投票を受け付けているが、その後の発表が楽しみ。
■私の投票サイト
さて、私も投票してみる。毎日読むのは海外のブログが多いので、日本のサイトは良く知らないのだが、3つならば書ける。
(1)「会社のオフィスでは『3つだけ』しかブログを読んではいけない」と言われたら、どれを読みますか
・ブログ名1と(簡単な理由)
・優雅なブログが最高の復讐である
http://d.hatena.ne.jp/walkinglint/
長文引用と大量の短評。私の代わりにブログを読んでまとめてくれる超高性能ブログリーダーエージェントソフト(?)として活用させていただいているから。ここ一箇所読めば10や20のブログを読んだのと同じ。
・ブログ名2と(簡単な理由)
松岡正剛の千夜千冊
http://www.isis.ne.jp/mnn/senya/senya.html
1000冊を超えても続く編集の神様松岡正剛氏による書評ブログ。あまりの読書量と背景知識にめまいがする。憧れ。だが、濃すぎるが故に毎日は読まない(読めない)。
・ブログ名3と(簡単な理由)
www.textfile.org - テキストとプログラミングの寡黙な情報集
http://www.hyuki.com/tf/
寡黙の裏にある抜群の技術センスと洞察力。相当たくさんの候補から選んで慎重にコメントしているはずだと推測。考えるきっかけ、深く調べる起点を与えてくれる。
(2)上記の3つのブログを除いて、2004年にあなたが最も影響されたブロガーの記事を教えてください。
・URL
・簡単な理由
・いやな法則
http://namazu.org/~satoru/misc/nasty-laws.html
他のどこにも書いていない真実だから。年下なのだけれど著者の高林氏の瞬間洞察力は(たまに)非常な尊敬に値すると思うから。何日か昨年は行動を共にして本物と確認できたから。