Visualisasi IPM vs Pengeluaran Perkapita Provinsi di Indonesia dengan Scatter Plot

Dalam hal ini visualisasi merupakan penggambaran tentang bagaimana hubungan antara suatu data dengan data lainnya. Data yang akan digunakan diperoleh dari website Badan Pusat Statistika. Disini, hubungan antara IPM vs Pengeluaran Perkapita akan dicari tahu menggunakan data pada tahun 2018.

Istilah yang digunakan:

  • IPM (Indeks Pembangunan Manusia) : menjelaskan bagaimana penduduk dapat mengakses hasil pembangunan dalam memperoleh pendapatan, kesehatan, pendidikan, dan sebagainya.
  • Pengeluaran Perkapita : biaya yang dikeluarkan untuk konsumsi semua anggota rumah tangga selama sebulan dibagi dengan banyaknya anggota rumah tangga didalamnya.

Data Preprocessing

Diawali dengan memuat data CSV yang dipakai menggunakan fungsi read_csv pada library pandas.  Kemudian membuat subset yang hanya berisikan data pada tahun 2018 dengan nama prov2018 dan populasi2018.

prov2018 = prov_data[['AHH_2018', 'EYS_2018', 'MYS_2018', 
                    'Pengeluaran_2018', 'IPM_2018']]
populasi2018 = populasi['2018']

Subset dari kedua dataset tersebut lalu digabungkan dengan fungsi concat pada library pandas. Penggabungan yang dilakukan berdasarkan kesamaan nama provinsi pada kedua dataset.

data2018 = pd.concat([prov2018, populasi2018.rename('populasi_2018')], axis=1).reindex(prov2018.index)

Dari hasil penggabungan, perlu kita lakukan pemeriksaan apakah ada missing value. Dan ternyata ada dua provinsi yang memiliki missing value pada kolom populasi_2018. Missing value yang ada masih bisa diisi dengan cara manual, dengan mengambil nilai data dari dataset populasi2018.

data2018.loc['KEPULAUAN RIAU', 'populasi_2018'] = populasi2018.loc['KEP. RIAU']
data2018.loc['D I YOGYAKARTA', 'populasi_2018'] = populasi2018.loc['DI YOGYAKARTA']

Langkah selanjutnya kita perlu cek tipe data yang akan digunakan, dan semisal tipe data tersebut tidak sesuai, maka kita perlu melakukan penyesuaian. Dalam hal ini, penyesuaianya seperti perlu kita hilangkan terlebih dulu elemen spasi dan koma sebelum diubah ke tipe float.

pengeluar18 = pengeluar18.str.replace(' ','').astype('float')
pop18 = pop18.str.replace(' ','')
.str.replace(',','.').astype('float')

Visualisasi

Library python yang digunakan untul plotting ini adalah matplotlib. Dan untuk tipe ploting yang dipilih adalah scatter plot.

plt.style.use('seaborn-dark')
plt.scatter(pengeluar18, ipm18, alpha=0.5, s = pop18/100, c='c', linewidths=1 ,edgecolor='b')
plt.title('Pembangunan Indonesia 2018')
plt.xlabel('Pengeluaran per Capita (Rupiah)')
plt.ylabel('IPM (Poin)')
plt.xticks([5000, 10000, 15000], ['5k', '10k', '15k'])
plt.grid()
plt.show()

Variabel yang digunakan dalam ploting adalah Pengeluaran Perkapita pada  sumbu x dan IPM pada sumbu y. Serta kita juga melakukan pengaturan pada ukuran bubble, yang mana ukurannya mengikuti jumlah populasi suatu provinsi.

Kesimpulan

Berdasarkan gambar grafik yang dihasilkan dapat dilihat adanya hubungan linear positif antara IPM dengan Pengeluaran Perkapita.suatu Provinsi