파이썬 데이터 분석 – 데이터 분석(타이타닉 데이터 분석①)

회의를 시작할 때 mpg 및 타이타닉 데이터를 분석합니다.

혼자 공부할 때 연습했던 자료라서 어렵지 않아요.


이 연구를 통해 알게 된 것은 타이타닉 데이터를 다운로드하지 않고도 사용할 수 있다는 것입니다!

오션 라이브러리존재하다 기본적으로 제공행위 문서가지다 ‘거대한‘아직 데이터가 있습니다.

*seaborn은 파이썬 시각화의 대표주자로 matplotlib 기반 운영 패키지입니다.

import pandas as pd
import numpy as np
import seaborn as sns


sns.get_dataset_names()

get_dataset_names()제공된 기본 데이터 이름을 통해 확인할 수 있습니다.


df = sns.load_dataset('titanic')
df


15열

생존하다 생존(0 = 사망, 1 = 생존)
친절한 룸 클래스
성별 성별
나이 나이
동포 승선한 형제자매 및 배우자 수
요리하다 탑승한 어린이 및 부모 수
요금 비용
배를 타다 탑승 초기
-C: 쉘부르
-Q: 퀸스타운
-S : 사우샘프턴
수업 룸 클래스
– 1학년: 1학년
– 두 번째: 레벨 2
– 3등 : 3등급
WHO 남자, 여자, 아이
성인 남성 성인 남성
올바른: 성인 남성
오류: 기타
갑판 객실 번호 이니셜
탑승동 탑승 지점 이름
살다 생존하다
아니오: 죽음
예: 생존
홀로 혼자 탑승할지


“계급”이 높을수록 평균 연령이 높습니다.

df_class = df.groupby('class').agg(mean_age = ('age','mean'))
df_class


예상대로 일등석의 평균연령이 가장 높다는 것을 알 수 있다.

레벨이 높을수록 더 많은 생존자가 있습니다.


df_hclass = df.query("alive == 'yes'").groupby('class').agg( alive = ('class','count'))
df_hclass.plot.bar(rot=0)
print(df_hclass)



1등석이 생존자가 가장 많았지만,
Second보다 Third에 더 많은 생존자가 있음을 알 수 있습니다.

남성 생존율이 여성 생존율보다 높습니까?

df_survied = df.groupby('sex').agg(mean_survived = ('survived', 'mean'))
print(df_survied * 100)
print(df_survied.plot.bar(rot=0))



여성의 생존율이 남성의 경우 약 19%, 여성의 경우 약 74%로 더 높다는 것을 알 수 있습니다.

승선한 가족과 생존율 사이에 관계가 있습니까?

df('Family') = df('sibsp')+df('parch') +1
df

sibsp+parch 추가 “가족”이라는 새 변수에 추가

동포 승선한 형제자매 및 배우자 수
요리하다 탑승한 어린이 및 부모 수


sns.countplot( x = 'Family', hue="survived", palette=palette1 ,data=df);

팔레트는

팔레트 1 = 소셜 네트워크.팔레트(‘쌍’)

나는 이것을 추가했다


혼자 타는 사람(1)의 사망률이 가장 높다는 것을 알 수 있습니다.