キャッチコピーは、対象物の「ユニークさや素晴らしさ」を短い文章で簡潔かつ効果的に表現することで、人々の興味をかき立てるものです。キャッチコピーの用途は多岐にわたるため、その分析や生成は一般に難しい問題です。
私たちは、スローガンの自動生成に関する研究を行いました。本研究の目的は、統計的な自然言語処理を適用することで、ユーザーの注意を引くスローガンを自動的に生成することです。そのために、(1)日本語キャッチコピーコーパス、(2)大規模N-gramコーパス、(3)ソーシャルネットワークサービス(SNS)上の嗜好情報を利用しました。ここでは、自然言語処理などのエンジニアリングと認知科学の両者を考慮しています。
最初の研究では、キャッチコピーの特徴を調査し、その特徴に基づいた生成システムを提案しました。当時、最大級の規模であった日本語キャッチコピーコーパスを構築し、文構造や単語の出現頻度などを自然言語処理ツールを用いて統計的に分析しました。その結果、キャッチコピーはテーマごとに表現が異なり、特定の単語が含まれていることなどを見出すことができました。これらの結果を知識として用い、これらの特徴を模倣したキャッチコピー生成システムを提案しました。
次の研究ではキャッチコピー特有の間接的な表現に着目しました。これは従来手法では困難であったことです。具体的にはキャッチコピーの中には、”とても固くて丈夫です!”ではなく、”象が踏んでも壊れない!”のような間接的な表現が使われているものがあります。このような表現を生成するために、提案システムはウェブから知識を獲得し、キャッチコピーコーパスの規模を拡大しました。
集大成の研究として、この間接キャッチコピー生成システムを実世界の問題への適用を行いました。提案システムは、SNSを利用してキャッチコピー候補を生成します。提案システムは、SNSを利用してスローガン候補を生成し、線形回帰を用いたBag-of-Wordsモデルを用いて好ましい候補を選択することが可能となりました。主観評価実験により、システム生成のキャッチコピーは、人間が選択したスローガンに匹敵することが示されました。