【Pythonデータサイエンス入門,matplotlib】統計を利用して日本の人口について見てみよう③

環境

macOS Sierra 10.12.6
ターミナル
Anaconda
Python 3.6.4

Anacondaをインストールすればデータサイエンスに必要なライブラリが使えるので、
ぜひインストールしましょう。

Anacondaのインストール手順についてはこちら
MacにAnacondaをインストールする

matplotlibとは

データ可視化ツールのうちのひとつです。
データ分析を行う際に使います。

たった数行のPythonコードで簡単な棒グラフ、折れ線グラフ、散布図などを表示することができます。
matplotlib→https://matplotlib.org/
参考:matplotlibで日本語対応(文字化け解決),Mac

当記事で使うデータ

総務省統計局の人口推計のデータを参照します。
転載について記載するよう書いてあったので記載しておきます。

「人口推計」(総務省統計局)(http://www.stat.go.jp/data/jinsui/pdf/201802.pdf)(2018年3月8日に利用)

さまざまな値を求めてみよう:平均値・中央値・分位数

前回:【Pythonデータサイエンス入門,matplotlib】統計を利用して日本の人口について見てみよう②

さて、前回の続きで、男性の人口でさまざまな値を求めてみましょう。

まず、元となるデータはageリストとpopulationリストですね。

populationの最大値・最小値を求める

前回、最大値は求めましたが、おさらいの意味もこめて最小値とともに求めてみましょう。

2番目に大きい、2番めに小さいを求める

平均値を求める

あまり有用なデータとは言えないかもしれませんが、populationリストの要素の平均値を調べてみます。

sum()を使ってpopulationの要素を合計し、len()でpopulationのリストの長さを出しています。
平均値を求めるのは簡単ですね。

中央値を求める

平均値では、100歳以上や95-99歳の人も含まれています。
中央値は、データの大きさとして真ん中に位置するデータのことを指します。
データの個数が奇数個の場合はぴったり真ん中の値が存在することになるので、それが中央値となります(たとえば1,2,3,4,5という数の集まりの真ん中は3)。
データの個数が偶数個の場合は、真ん中に位置するデータ2つの平均値となります(たとえば1から6まである数なら3と4の平均、すなわち3.5が中央値)。

median.pyを編集したフォルダでPythonの対話型インタープリタを立ち上げて実行してみましょう。

では、3042はどの年齢層でしょうか。

分位数を求める

中央値を一般化したのが分位数です。
中央値は50%にあたる数で、分位数は特定のパーセンテージにある値がどれかを示します。