原文:http://www.niemanlab.org/2011/10/word-clouds-considered-harmful/
2003年に書かれたウィリアム・ギブスンのSF小説 “Pattern Recognization”の中で、主人公ケイス・ポラードは精神的に異常なキャラクターとして描かれていた。 彼女は「ブランドもの」にアレルギーがあった。衣服のロゴデザインが目に映れば虫唾が走る。ミシュランのタイヤのマスコットキャラクター、ビバンダムを目にした時などは最悪の気分になるような人物だった。
もちろんこれは風刺だけれども、私も Word Cloud を見ていると、同じような気持ちになることがある。 何かを物語るビジュアライゼーションとしてWord Cloudが使われているのを見ると、特に、内臓がキリキリする。
Word Cloudについてご存知ないのであれば、軽く説明をする。 Word Cloudは、ある文章における頻出語を抜き出し、リサイズを行い、曖昧でもいいから単語をごちゃまぜに(アーティスティックに)配置することでその文章における各単語の意味合いや強さを示す手法だ。
この技術は、1990年代に「タグ・クラウド」として初出した(“Tag clouds are the new mullets”に有名な説明がある…そこではWord Cloudは一過性の流行りとして扱われている)。 当初のそれは、ブックマークのキーワードの可視化に使われていた。
近頃では、Wordleというサービスが生まれ、Word Cloudの生成はとても簡単になった。 これは加速するビジュアライゼーションに対するニーズを(安易に)満たしてくれるものとなって、私の内臓を痛めつけることになった。
で、Word Cloudの何がダメだと言いたいのか? それを理解するには、我々が努力しているデータ・ジャーナリズムについての原則を理解してもらうことが助けになる。 ニューヨーク・タイムズ社では、「ビジュアライゼーションは報道/報告(Reporting)である」として、ニュースの語り口をより効果的にする他のいくつかの重要の要素、原則と共に強く信じられている。いくつか、というのは、以下だ:
データの中にある物語を見出すために、全ての余計な情報を取り除く、物語性・語り口(ナラティブ)
読者が記事のベースとなる知識を理解するためのコンテクスト
我々の出した結論に誤りや欠陥がないか、確度を上げるための調査をすること
読者から物語を読む能力を失わせるなら、「よくわからないけど何か目新しいビジュアライゼーション」や、「奇妙なインタフェース」を用いることに何の価値もないということ
もちろん、Word Cloudの手法は、こういった要素については全て無視している。
実例がある。6ヶ月前、私は、ニューヨークのハッカー達に対して、我々がいかにしてWikileaks War Logsにおける民間人の死者数をビジュアライゼーションしたかについて講演を行う貴重な機会を得た。 本当は、もっと私の講演は「我々がやったビジュアライゼーションの手法を見てくれ!」といった感じにしたかった。しかし、良いデータ・ジャーナリズムの原則については、それではいくらかしか触れることが出来ない。良いものと悪いものを示す、相反する実例があればベストなのだが、それは何だろうか?Goofus and Gallantのようにわかりやすい例があれば良いのだが・・・。
好例があった。Word Cloudだ。以下の2つは、同じデータセットから生まれたビジュアライゼーションだが、違いは明白だ。
Mapping a Deadly Day in Baghdad from The New York Times
word cloud of titles in the Iraq war logs from Fast Company
言っておくと、Fast Companyを特にあげつらって批判しているわけではなく、ここで指摘することは複数のニュースに見られる傾向だ。 記事を書く記者たちは、取り上げている問題の奥底についての知識に限界があるから、Word Cloudのようなものを安易に使ってしまう。こういう視覚化は、読者からすれば、カップの底に残った茶葉を読んでいるかのようだ。元のデータの意味するところに対して、読者に残されたものは、我々が大事に感じているビジュアライゼーションの原則についてことごとく失敗している虚仮威しの何かでしかない。
まず、手始めに、Word Cloudが扱えるのは雑なテキスト解析の結果のみであるということに注視すべきだ。これは、あるプロテインについて知りたいときに、アミノ酸の含有量しか書かれていないのと同じようなものだ。これにはひどく困惑させられるし、惑わされる。
私は、オバマ政権のティーパーティー運動についてのWord Cloudを作成したことがあるが、上位二件の頻出語は胡散臭いことに「like」と「policy」だった。もちろん、これはしつこく出てくる「don’t」を除外した結果だ。(また、いくつかのストップワード…’a’,’the’などもWord Cloudに対して支配的に振る舞うので、これらも除外だ) フレーズや語幹に基づいたテキスト解析なら、より正確な結論が出せる。 前述したWar LogsにおけるWord Cloudの作成において、”車”と”爆破”が同じサイズで描かれている時、これは「車が爆破した死亡事故がいくつかあった」ことを示すのだろうか、それとも、「車による死と爆破による死が同じ件数あった」ことを示すのだろうか? あまり使われていない単語同士の比較を行いたいときはどうすれば? また、文章のテーマを語る重要な単語を取りこぼすこともあるかもしれないー「車両」とか「トラック」とか、もしかしたら「ボンゴ」も、全て同じことを言っているのに、別のカウントになるのだ。
そう、Word Cloudにおける最も重要な問題は、「視覚化の手法としてテキスト解析を行うことが適切であるとは言えないシチュエーションでWord Cloudが使われてしまうこと」にある。「いや、Word Cloudを使えば、単語の意味や使われ方、論点が理解できるじゃないか」と論じる人もいるだろう(これについては代替できる手法があるとここで論じてきた)が、しかし、イラク戦争のように複雑な話題に対して、何かを説明するための資料としてWord Cloudを用いるのは本当に馬鹿げたことだ。彼らが表現しようとしているものを、表現したものから読み取れないじゃないか。 (訳注:Word Cloudは文中での単語の使われ方を連想させるかもしれないが、それが著者の意図したものとなる保証はないし、ある複雑な、横断的なデータセットに対してそれを行うと、著者の意図を表現するメディアにはならない、ということか)
読者はどうだ?Word Cloudは読者にデータの裏にあるコンテクストを示してはくれない。 たとえば、”LN”が”Local National”,”COP”が”Combat Outpost"として使われていたとして、読者はどうやってWord Cloudからそれを読み取ればいい? 最も面白いデータというのは、得てして、読者がスラスラと読むためにはいくつか説明や翻訳を必要とするものだが、その観点で見てWord Cloudは何もやっていない。
更に言うと、物語性(ナラティブ)はどこにいった? 我々のビジュアライゼーションでは、あらゆるイラク戦争の記録にまつわるナラティブから、1つを選び出し、データを表現するために用いた。より問題を鮮明にするために。
Word Cloudは、これに反して、そういったナラティブを明らかにするには、ステレオグラムを見るかのように目を細めなければいけない。この時、読者は、「イラク占領」が「たくさんのIED(即製爆弾)」や「爆発」に関係していることはわかる。そこまでだ。誰のためにもならないニュースだ。
Word Cloudが読者を迷わせてしまうかもしれない例をもう一つ挙げると、イラク戦争後の「サージ戦略」(訳注:Wikipedia)における宗教セクト的殺害の驚くべき増加を目の当たりにして、我々は混乱を覚えるだろう。それは「セクト」という単語は、他の多くの記事でも目にするものだからだ。しかし我々はすぐに、我々が今まで知っていた「セクト」という単語はもっと暴力とは関係ない、官僚が使うような意味合いでのものだったと理解するだろう。例えば、軍の新規採用における筆記事項に”The Sect Of Detainees”(訳注:わからない)があるのとは、意味合いが違うのだ。 もちろん、我々がビジュアライジングしたバグダッドでの恐ろしい暴力は、「セクト」という単語に関するものだが、「セクト」という単語はその頃の記事のテキストの中では一度も指し示されていない。だから、もし我々が今の今までWord Cloudを使ってイラク戦争をビジュアライジングしていたならば、我々はセクトと暴力は全く関係がないと考えていたかもしれない。
結論を述べると: 考察の一環(Insight)としてWord Cloudが使われているのを見ると、私は内面的に(Inside)少しずつ死んでいくようだ。まあ、それについてはあなたも理解してくれただろうから、少しはマシな気持ちだ。それでもちょっとだけ、Word Cloudが気になっているようなら、もう用意してあるから安心してくれ。
ヤコブ・ハリスはニューヨーク・タイムズのシニア・ソフトウェア・アーキテクトだ。
この記事は、テキスト・ビジュアライゼーションについて調べている時に見つけた。 今の今まで、有効なテキスト・ビジュアライゼーションにお目にかかったことが無い気がするのだが、タグクラウド(Word Cloud)については悪くないと少し思っていた。
しかし、良く考えてみれば、Word Cloudは確かにちょっとアーティスティック過ぎるかもしれない。基本的な仕組みはフォントのリサイズのみで、配置や配色にはあまり気を配らないし、気を配ったところで見る者に与える情報は記事本文のコンテクストを説明してはくれない。インフォグラフィックとしてはいいのかもしれないけど。
そもそも、テキストというメディア自体がハイコンテクストなメディアだから、特徴量抽出しても良いビジュアライゼーションは出来ないよ、という考え方に、僕は、最近は傾いてきた。メタデータがあれば楽なのだが。