2020年08月08日

多重共線性(Multicollinearity)は何が問題なのか――日本の選挙研究の実例から


 今回は多重共線性(Multicollinearity、マルチコ)について実例を元に解説したいと思います。

 マルチコは、よく問題になるなる言われるわりに、実際に問題になっているのを見たことがないという方も多いでしょう。院生同士の研究会でマウントの取り合いに使われるくらいの存在かもしれません。

 たまたまツイッターを見ていたら、神戸大学の藤村直史先生がよい材料を提供してくださっていたので、感謝しつつこれを使います。

Fujimura, N. (2020). Effect of Malapportionment on Voter Turnout: Evidence from Japan's Upper House Elections. Election Law Journal: Rules, Politics, and Policy: Published Online:7 Jul 2020. (pdf)

htmlの別ソース

 選挙がテーマですが、広くデータ分析を行っているみなさん、データ・サイエンティスト等を目指すみなさんに参考となると思います。こういう生の実例が手に入ることは珍しいですし。

 ただ、先に述べておきますが、自分は方法を開発するような立場の人間ではないので、以下の記述に間違いや誤解を生む内容が含まれているかもしれません。わかりやすい言い回しに努めていますので、厳密でない単純な言い方になっているところもあります。あと、うまく言語化できず珍妙な表現になっている場合もあります。

 それでよろしければ、長いですがお読みいただければと思います。続きを読む
タグ:参院選
posted by suga at 06:42 | 分析記事

2020年07月10日

東京都新型コロナウイルス第1波・第2波(?)自治体別比較


 昨日の記事のご反響をいただくなかで、棒グラフが有効な例を描きたいと思ったのでやってみただけなんですが、この手の記事を見かけなかった気がするこよもあり、描いた図をお裾分けしておきます。

図1 自治体別新型コロナウイルス患者数(第1波、第2波?比較)
続きを読む
posted by suga at 23:28 | 日記

2020年07月09日

横軸カテゴリの折れ線グラフの有用性


 何度かツイッターで議論になったり話題にしたお話ですが、まとまった議論はしていませんでしたし、ネットでもこのあたりの議論をしている人はみかけないようなので、ここに書いておこうと思います。折れ線グラフのお話です。

2020年東京都知事選 図8 宇都宮健児候補の得票率と2019年参院選立憲民主党/共産党比例区得票率

折れ線原理主義者
 上の図は前エントリに登場した折れ線グラフです。このように横軸に自治体などを置いたグラフを描くと、折れ線を入れるなという意味のコメントを寄せてくる人が稀にいます。

 これをお読みの多くの方は何を言っているかわからないかもしれませんが、そういう人が実際にときどき現れます。ある先生は「レーダーチャートだと文句言われないのに折れ線グラフだと文句言われることってありますものね一緒やん全体的な形で比べやすいように示したいだけやんみたいな」とおボヤキになられていました。別のある先生は、そういった方々のことを「折れ線原理主義者」と呼んでいました。このエントリでもそう表現することにします。

 なぜ折れ線を入れるなという話になるかというと、折れ線グラフは横軸が特に時系列の場合に使うものであって、横軸がカテゴリ等の場合に使うなという「マナー」みたいなものが一部にあるためです。折れ線というのは、2つの点の間を線形補完するもので、折れ線が通過する値自体がデータとしての意味を持つ・・・と一部の人が頑なに主張しているのです。まあネット上では、そういう根本の理解もなく、どこかの誰かの「賢そうな言説」を真似ているだけの場合がほとんどかもしれませんが。
 続きを読む
posted by suga at 07:10 | 日記

2020年07月07日

宇都宮健児候補と山本太郎候補の自治体別得票率からわかること(2020年東京都知事選データ分析)


(7/10、わかりにくいのでタイトル変えました)

 引き続き、野党系2候補について簡単にデータを見て議論してみます。前回の記事は下記ですが、連続はしていないのであちらを読まなくてもこちらのお話を理解することはできます。まあ今回は、文章は大したことを言っておらず、図がお役に立てればという感じです。

小池百合子圧勝の簡単なデータ分析(2020年東京都知事選挙)

 今回の都知事選では、告示直前に山本太郎候補が出馬を表明したために、革新系の野党系2候補間で票割れが起きることが危惧されました。実際には、2候補合わせてもまったくもって1位に全く届かないという結果となったので、単純に両勢力とも支持不足が敗因なのは明らかですが、それでもデータを観察することで得られる示唆はあります。そういうわけで、地域別得票構造を観察して、そこから何が言えそうか考えていきたいと思います。

2020東京都知事選 図7 野党系候補得票率と2019年参院選れいわ新選組比例区得票率続きを読む
posted by suga at 22:50 | 分析記事

小池百合子圧勝の簡単なデータ分析(2020年東京都知事選)


 2020年東京都知事選挙は現職の小池百合子都知事の圧勝に終わりました。ツイッターなどでは野党側の敗因についての分析というか個人的主張が溢れていて、勝ったほうの分析があまりないようなので簡単にデータで示しておきたいと思います。

2020年東京都知事選挙 図1 小池百合子自治体別得票率(2016年、2020年比較、折れ線)続きを読む
posted by suga at 17:49 | 分析記事