2020年07月09日

横軸カテゴリの折れ線グラフの有用性


 何度かツイッターで議論になったり話題にしたお話ですが、まとまった議論はしていませんでしたし、ネットでもこのあたりの議論をしている人はみかけないようなので、ここに書いておこうと思います。折れ線グラフのお話です。

2020年東京都知事選 図8 宇都宮健児候補の得票率と2019年参院選立憲民主党/共産党比例区得票率

折れ線原理主義者
 上の図は前エントリに登場した折れ線グラフです。このように横軸に自治体などを置いたグラフを描くと、折れ線を入れるなという意味のコメントを寄せてくる人が稀にいます。

 これをお読みの多くの方は何を言っているかわからないかもしれませんが、そういう人が実際にときどき現れます。ある先生は「レーダーチャートだと文句言われないのに折れ線グラフだと文句言われることってありますものね一緒やん全体的な形で比べやすいように示したいだけやんみたいな」とおボヤキになられていました。別のある先生は、そういった方々のことを「折れ線原理主義者」と呼んでいました。このエントリでもそう表現することにします。

 なぜ折れ線を入れるなという話になるかというと、折れ線グラフは横軸が特に時系列の場合に使うものであって、横軸がカテゴリ等の場合に使うなという「マナー」みたいなものが一部にあるためです。折れ線というのは、2つの点の間を線形補完するもので、折れ線が通過する値自体がデータとしての意味を持つ・・・と一部の人が頑なに主張しているのです。まあネット上では、そういう根本の理解もなく、どこかの誰かの「賢そうな言説」を真似ているだけの場合がほとんどかもしれませんが。
 



時系列データは離散しているから折れ線を描く
 何だか意味がわからないという場合には、例を見てもらったほうがよいでしょう。というわけで、最近のエントリにはてなブックマークで寄せられた例をご紹介します。

(アカウント名省略) 横軸が離散値のデータを折れ線グラフにするな!!!!! 中央区と荒川区の平均取ったら目黒区になんのか!?!?!?!?!?


 はいごめんなさい。意味が分かりませんね。

 解説すると、離散値はいわゆる離散変数のことだと思われます。後に見るように本来これはカテゴリ変数等と言及するところだったのだと思いますが、この問題の理解のためにこのまま続けます。離散変数とは、定義というか言い方はいろいろあるのですが、特に個数のような整数値を取る変数を連続変数と分けて扱いたいときに用いる言葉です。たとえば「時間」のようなものが連続変数です。

 それでは、月別売り上げの「月」や実験開始からの経過日数の「日」などはどうでしょうか。これらは時系列データと呼びます。時系列データは内包する意味(時間)は連続的ですが、データの形式としては離散変数です。時間軸上に出現するデータをどう表現するか、どうまとめるかという問題に対し、時間を期間で区切って集計したり代表値をとることで人間が容易に扱えるようにしたものが時系列データです。

 折れ線グラフに関して横軸が時系列データの際に折れ線を引く(データ間を線形補完する)要求があるのは、横軸が連続的(時間)なのにデータそのものは飛び飛びになっている(離散している)からです。


折れ線にしてよい基準の混乱
 数値が連続か離散かで問題となるのは、本来は横軸ではなく縦軸です。下記スレッドで質問者は3つの例(体重、ドーナツの個数、最低賃金)を出しています。回答者とこれへのコメントを読むと、この順に妥当そうではありますが、意見は分かれています。

Is it wrong to use line plots for discrete data?

 カネという連続変数っぽい内容の最低賃金が離散的というのは変更時点で数値がジャンプするため(不連続だから)です。この場合、線形補完は適切でなく階段グラフが相応しいでしょう。ドーナツは個数なので離散的ですが連続的に考えてもよいとか、いろいろ考え方がありますね。こうして議論になっており、判断に混乱が生じていることからわかるように、折れ線グラフにするな/してよい問題は、原理主義者にとってすらも簡単に解決できる問題でないことがわかります。

 ここで判断のポイントとなり混乱の元ともなっているのは、線分の意味です。たとえば横軸月別データで気温が縦軸にあれば、データ間の線分はその月の中間の日々での気温を意味する、という感じです。ただ実際上、そのような意味を込めて線が引かれなさそうな場合はかなりあります。

 たとえばある国の政治や選挙を扱う本には、選挙結果の時系列折れ線グラフがよく掲載されています。でもこれ、ある党の議席数や得票率は選挙の時に決まるものですから、最低賃金と同じように(原理主義者からすれば)線形補完はおかしいとなりそうです。あるいは、その本の執筆者は線形補完するために折れ線グラフにしているのでしょうか。2007年に衆院選が行われたら与野党拮抗していたはず、というように。

 同じように線分の意味を考慮していなさそうな折れ線グラフは無数に流通しています。でもこれは果たして由々しき事態なのでしょうか? 判断が混乱しがちなのに、折れ線にしてよい/いけないを判断することに何の意義があるのでしょうか?


悪いグラフとは
 折れ線原理主義者が折れ線にしてよい/いけないという判断に拘るのは、線形補完に強い意味を見出しているためでした。その一部が、「線形補完でない折れ線グラフ」を認めないという立場からネットで折れ線グラフ自警団として活動しているのが原理主義者の実態だと思います。

 そしてこの際、縦軸よりも横軸のほうが(意味があるかどうかはともかく)問題にしやすいので、先に見たようなコメントが付くようです。引用したコメント主は離散値という単語で、おそらく横軸が名義変数やカテゴリ変数と呼ばれる折れ線グラフを「摘発」したかったのだと思います。要するに横軸に数字ではなく文字が並んでいたら「出動」するのです。

 しかし、横軸がカテゴリの折れ線グラフは、一体何が問題なのでしょうか。これを考えるために、何が良く何が悪いのかという基準をまず考えましょう。

 人がグラフを作る目的はいろいろでしょうが、守られるべき基本原則は同じです。そのグラフの意味が正しく伝わるように描くこと、です。意図をもって錯誤させるようなグラフがご法度なのは当然のこと、意図せず誤解させるようなグラフも描かないようにしましょうということです。

 グラフに関してよく言われている禁忌事項や「マナー」の類も、通常はこの原則に従って策定されています。たとえば棒グラフの縦軸を途中省略したり下端を0以外にしてはいけないのは、棒の長さ=量という読み手の理解を裏切るためです。散布図でこれが許されるのは、普通の人は点に量を見出さないからです。その図で展開される議論にも絶対的な量(0から見たその値の大きさ)は関係ないことも多いでしょう。




横軸カテゴリ折れ線グラフをどうやったら誤解できるというのか
 それでは、自治体を横軸に折れ線グラフを描いた場合、どのような誤解を招くでしょうか。もう一度、先ほどのコメントを引用してみましょう。

(アカウント名省略) 横軸が離散値のデータを折れ線グラフにするな!!!!! 中央区と荒川区の平均取ったら目黒区になんのか!?!?!?!?!?


 中央区と荒川区は横軸上隣接していないので、折れ線で繋がっていません。たとえば年ごとの時系列データの折れ線グラフで2001年と2019年の平均値を2010年の値として議論することはないのと同じように、この指摘は平たく言って意味不明です。少なくともこのコメント主は何も誤解していないはずです。もう少し頑張って「立川市と武蔵野市の市境に住んでいる人は23%が立憲民主党に投票した」と誤解を開陳したとしても、脳みそご愁傷さまと思われるだけでしょうけど。

 原理主義者がわざわざ誤解しようとしてもできなかったのですから、通常の意味でこのようなグラフは悪いグラフではないはずです。


折れ線形状比較の利点
 とはいえ、何でもかんでも折れ線にしろというつもりはありません。通常、横軸カテゴリの場合に棒グラフが推奨されるのは、そちらのほうが直感的に理解しやすいからです。下記の教師向けの教本には、やはりカテゴリ間の折れ線は意味がないから棒グラフがよいと書かれています。このような単純に数量を見たいだけの場合には棒グラフのほうがよいでしょう。

Patrick Barmby, Lynn Bilsborough, Tony Harries and Steve Higgins, 2009, Primary Mathematics: Teaching for Understanding, Berkshire: Open University Press.(※グーグルブックス)

 ただし、いろいろ検索して見たところ、「折れ線ではなく棒グラフにして」という例はこういう単純な数量確認のものしかありませんでした。それでは、小中学生読者を想定していない先のような例ではどうでしょうか。次の図を見てください。先ほどの図から折れ線を抜いたものです。

image010.png

 この図から、前回記事に書いたようなことを発見したり理解できる人はどれくらいいるでしょうか。たとえば宇都宮候補のデータの凸凹が共産党より立民に似ていることは、折れ線があったほうが理解しやすいでしょう。

 このように、横軸に多くの項目があり、その情報を使いながら縦方向にデータの形状を比較するという需要があるときに、折れ線グラフ以上の利便性の高い図はあるでしょうか。散布図で相関は確認できますが、すべての地名を入れると見難いはずです。

 このように線形補完ではなく形状比較のために折れ線グラフを用いるのは、実務上非常に有効な手段です。

 別の例でも確認して見ます。下記の図3では都道府県を合計特殊出生率順に並べたうえ(よい工夫です)で、出生順位別の合計特殊出生率の傾向を見ています。そして表4の左側には図3の元データがあります。こ図と表、どちらが都道府県間のデータの傾向を掴みやすいでしょうか。

別府志海・佐々井司「都道府県別にみた女性の年齢(5歳階級)別出生率および合計特殊出生率:2017」『人口問題研究』第74巻第4号(2018年)(pdf)

 このように、折れ線の形状から全体の傾向が理解できる、速やかにポイントを把握できることが、横軸カテゴリの折れ線グラフの強みです。先のスレッドで1番目の回答者が紹介した"Profile Comparison"がこれにあたります。散布しただけでわかりにくい場合に線分を入れる有用性についてコメントしている人もいますね。

 線分に意味を見出せない最低賃金や選挙結果の折れ線グラフも同じで、線分が通過している値に意味があるわけではなく、形状から傾向を確認するために使われているのだと考えられます。どの時期に自民党政権への支持が下げ止まったのか、といったことを視覚的に把握するためにです。こういう利用法がだいぶ前から普及しているわけですから、折れ線にすべき/すべきでないといちいち判断する必要は、もともとなかったのではないかと思いますが。


データの可視化需要に対応した横軸カテゴリ折れ線グラフ
 データを可視化して傾向を知りたいときに形状比較のために折れ線グラフを描くという需要は、現代では無数にあります。

 たとえばアンケート調査の年代別・項目別選択割合を見るとき、クロス表で見るより折れ線で見たほうが傾向把握は容易いです。このとき連続的に解釈することもできる年代を横軸にせずに、項目を横軸にすることもあります。ネット調査だとテーブル形式で20項目くらい無料でひとつの質問に収めることができたりすることがありますが、20項目折れ線で載せるとさすがに見難いので、属性のほうを折れ線にしてしまうのです。

 因果関係を云々したい場合には要因側(属性)を横軸にしますが、形状比較から何かを発見したいのなら拘る必要はありません。ついでに言えば、折れ線は4つまでといった「マナー」もカラーで描けるウェブ向けであれば守る必要のないものです。

 結局、どのようなグラフを描くかはデータの内容、グラフで伝えたいこと、媒体の性質、紙幅、想定読者層などを勘案して分析者が決めるべきものです。折れ線原理主義者に合わせて先ほどのような線分無しグラフを見せたところで世の中にとって有益ではありません。そんなことをするのは、読み手のことが見えていないダメな分析者です。

 もしみなさんのところに折れ線原理主義者や自警団が現れたら、代案を提示してもらったり、折れ線無しグラフを読み取ってもらったらよいでしょうか。有益な答えは期待できないかもしれませんが。


 以上、大した調査をせずに書いた部分もあるので、何か間違いや勘違いがあればお知らせいただければ幸いです。
posted by suga at 07:10 | 日記