회의를 시작할 때 mpg 및 타이타닉 데이터를 분석합니다.
혼자 공부할 때 연습했던 자료라서 어렵지 않아요.
이 연구를 통해 알게 된 것은 타이타닉 데이터를 다운로드하지 않고도 사용할 수 있다는 것입니다!
오션 라이브러리존재하다 기본적으로 제공행위 문서가지다 ‘거대한‘아직 데이터가 있습니다.
*seaborn은 파이썬 시각화의 대표주자로 matplotlib 기반 운영 패키지입니다.
import pandas as pd
import numpy as np
import seaborn as sns
sns.get_dataset_names()
get_dataset_names()제공된 기본 데이터 이름을 통해 확인할 수 있습니다.
df = sns.load_dataset('titanic')
df
15열
생존하다 | 생존(0 = 사망, 1 = 생존) |
친절한 | 룸 클래스 |
성별 | 성별 |
나이 | 나이 |
동포 | 승선한 형제자매 및 배우자 수 |
요리하다 | 탑승한 어린이 및 부모 수 |
요금 | 비용 |
배를 타다 | 탑승 초기 -C: 쉘부르 -Q: 퀸스타운 -S : 사우샘프턴 |
수업 | 룸 클래스 – 1학년: 1학년 – 두 번째: 레벨 2 – 3등 : 3등급 |
WHO | 남자, 여자, 아이 |
성인 남성 | 성인 남성 올바른: 성인 남성 오류: 기타 |
갑판 | 객실 번호 이니셜 |
탑승동 | 탑승 지점 이름 |
살다 | 생존하다 아니오: 죽음 예: 생존 |
홀로 | 혼자 탑승할지 |
“계급”이 높을수록 평균 연령이 높습니다.
df_class = df.groupby('class').agg(mean_age = ('age','mean'))
df_class
예상대로 일등석의 평균연령이 가장 높다는 것을 알 수 있다.
레벨이 높을수록 더 많은 생존자가 있습니다.
df_hclass = df.query("alive == 'yes'").groupby('class').agg( alive = ('class','count'))
df_hclass.plot.bar(rot=0)
print(df_hclass)
1등석이 생존자가 가장 많았지만,
Second보다 Third에 더 많은 생존자가 있음을 알 수 있습니다.
남성 생존율이 여성 생존율보다 높습니까?
df_survied = df.groupby('sex').agg(mean_survived = ('survived', 'mean'))
print(df_survied * 100)
print(df_survied.plot.bar(rot=0))
여성의 생존율이 남성의 경우 약 19%, 여성의 경우 약 74%로 더 높다는 것을 알 수 있습니다.
승선한 가족과 생존율 사이에 관계가 있습니까?
df('Family') = df('sibsp')+df('parch') +1
df
sibsp+parch 추가 “가족”이라는 새 변수에 추가
동포 | 승선한 형제자매 및 배우자 수 |
요리하다 | 탑승한 어린이 및 부모 수 |
sns.countplot( x = 'Family', hue="survived", palette=palette1 ,data=df);
팔레트는
팔레트 1 = 소셜 네트워크.팔레트(‘쌍’)
나는 이것을 추가했다
혼자 타는 사람(1)의 사망률이 가장 높다는 것을 알 수 있습니다.