2003年12月22日

連想の技術、プライミング効果、履歴からお薦めWebページこのエントリーを含むはてなブックマークこのエントリーをはてなブックマークに追加


スポンサード リンク

■連想パターンとプライミング効果

昨日、紹介したESP Gameは、ネットコミュニティを使って連想語をデータベース化する試みだった。インターネット広告では、検索キーワードに応じた連動広告が注目されている。集めた連想語データはビジネスにすぐにも使えそうだ。ESP Gameで集まる内容が気になる。

日本人の大学生1000人に、ある言葉(刺激語)を提示したとき、どんな言葉(反応語)を最初に連想するかをデータ収集した実験がある(「連想基準表」東京大学出版会、梅本、1969)。ここにサンプルを引用してみる。

priming_t01.JPG

・連想基準表
http://bookweb.kinokuniya.co.jp/guest/cgi-bin/wshosea.cgi?W-NIPS=987022508X

米国人の大学生を対象として同種の調査もある(Postman、Keppel、1970)。
n=1008
priming_t04.JPG

ある言葉を見たり聞いたりすると、次の言葉の連想内容に影響が及ぶことをプライミング効果と呼ぶ。賛成と反対、予防と注射、空腹と食物のように、刺激語同士が連想関係にある場合に発生する。

国と言語が異なっても、連想するパターンが一位は同一であることが興味深い。主な連想のパターンには以下のようなタイプが存在している。

priming_t03.JPG

また反応速度をパターン別に調べた結果は以下のような表になる。

priming_t02.JPG
上記の例は「人間の言語情報処理 言語理解の認知科学、1994、安陪-桃内-金子-李)より引用。

反意語関係のプライミング効果が著しく高い。人は連想を行わせると反対語があるときには真っ先に思い浮かべてしまうということだ。だから、広告表現で、テーマパークのとしまえんが「史上最悪の遊園地」という新聞広告を出したことがあったが、これなどは、反意語「史上最高」を連想させてしまうプライミング効果を狙ったものと考えられる。

これは音声上でも働く効果だ。先日書評を書いた広告の本にも、足すと14になる計算を繰り返させた後に「なにか野菜の名前を挙げてください」と聞くと、米国人の多くが「にんじん」と答えるという。14→14金(Gold)→14カラット(carat)→にんじん(carrot)という発音上の連想なのだそうだ。

インターネットの利用にこういったプライミング効果を活用できないだろうか。

■Googleキーワードで調べる検索エンジンユーザの連想語

Googleはキーワード広告主のために、あるキーワードと同時にどんなキーワードが一緒に検索されているか、調べるツールを提供している。

・Google AdWords キーワードアドバイス
https://adwords.google.co.jp/select/main

これを使うとこんなことが分かる。

・クリスマスの同時検索語
ソング、素材、ディナー、素材、イルミネーション、壁紙、リース、壁紙、プレゼント、、イラスト、イベント、料理、ヒッキーの、ナイトメアビフォア、画像、の約束、ホワイト、島

・「忘年会」の同時検索語
ゲーム、挨拶、幹事、予約、案内、プラン、のお知らせ、会場、大阪、余興、案内状、新宿、芸、司会、ホテル

・「長い」の同時検索語
髪、世界一、橋、世界一、名前、亜麻色の、亜麻色の髪、夜、一番 日、単語、ファイル名、髪を、英単語、日曜日、脚

・「医者」の類似キーワード
病院、クリニック、医院、医師、歯医者、名医、倫子、国立、歯科、産婦人科、病院、検索、看護、学会、介護、整形外科、内科、整体、皮膚科、眼科、小児科

どうやらネット上の検索では、反意語関係以外が検索されているようだ。どの連想関係パターンが、検索エンジン利用において、最も多いのか調べる研究があったら更に面白い。(もし存在していたら教えてください)

Webサイトの運営者はこれらのデータから、ユーザの傾向を調べ、検索順位が上がるように自分のページ内容を変更することができる。また、客を呼び込むためのキーワード広告を購入することができる。

■ネットサーフィンの履歴から最適な情報を推薦する

ページに書かれている言葉から連想できる、別のページをユーザにお薦めする技術は、たくさん研究されてきた(私の会社の開発部門も含む)。今、この分野で必要なのは、ユーザが今何を探しているかという文脈を、正しく推測して、連想されるものを機械提案する技術だろう。

ブラウザの過去履歴と、そして今何を見ているかは、ユーザの情報探索の文脈を知る上で重要な情報になりそうだ。ユーザは目的を持って情報を探すが、直近に見るページの影響(プライミング効果)を受けている。クリスマスのプレゼントを探していたはずが、関連ページを読んでいるうちに、いつの間にかサンタの由来を調べていたりする。あるいは、もっと良い方法が直前のページで分かり、別の方法を探したりする。今○○を探していますと明確に自分も分からないことさえある。

今、そして最近見たページは、最新の関心に関係を取り出す文脈データとして向いている。Webの閲覧履歴から最適な情報を提案する技術では、こんな研究がある。

・Using Document Access Sequences to Recommend Customized Information
(Web履歴から最適情報を推薦する)
http://www.cs.indiana.edu/~leake/papers/p-01-09.pdf

ここでは、WordSieveという原理を使ってユーザの関心キーワードを抽出する。仕組みはこの表の通りで、3つのフィルターから構成される。1番目のフィルターはユーザの見ているWebページに最も頻度が多く出てきた単語をみつける。2番目のフィルターは過去に見たページ群で最も多く出てきた単語をみつける。3番目のフィルターは過去にあまり出てこなかった単語をみつける。
calvin02.JPG
3つの種類の単語のパターンを数学的に計算することで、ユーザが今最も欲しがっているキーワードを含むWebページをユーザに推薦する。研究者たちは、Calvinという専用ブラウザーを試作している。ユーザが使えば使うほど賢い提案ができるブラウザーだ。

calvin01.JPG

今見ているページと閲覧履歴から、活性化している連想キーワードを色分けして表示。
calvin03.JPG

これは巨大なキーワードデータベースを持たなくても、効果的な提案ができる優れたやり方であると論文は結論している。連想語とプライミング効果の研究によって、見たいページを次々に見られる未来のブラウザーが誕生しようとしている。

・Real Time User Context Modeling for Information Retrieval Agents
http://www.cs.indiana.edu/~leake/papers/p-01-09.pdf
同じ研究者によるキーワード抽出部の研究。

・WordSieve: Learning task differentiating keywords automatically
http://research.microsoft.com/~sdumais/SIGIR2003/ExtendedAbstracts/BAUER_bauer.pdf
キーワード抽出手法には幾つかある。WordSieveアルゴリズムの優位性を主張するマイクロソフトリサーチの論文。TD/IDF法などとの対比。

・語の活性度に基づくキーワード抽出法(人工知能学会論文誌17巻4号F、2002)
http://www.miv.t.u-tokyo.ac.jp/papers/matumuraJSAI-PAI.pdf
日本の研究。著者の主張をキーワードとして取り出すKeyGraphの取り組み。KeyGraphについては後日記事に書きたい。


スポンサード リンク

Posted by daiya at 2003年12月22日 23:59 | TrackBack このエントリーを含むはてなブックマークこのエントリーをはてなブックマークに追加
Daiya Hashimoto. Get yours at bighugelabs.com/flickr
Comments