Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 비지도학습
- programmablesearchengine
- 파이썬웹개발
- 딥러닝
- 판다스
- 파이토치기본
- NLP
- pandas
- python 정렬
- MachineLearning
- sklearn
- 파이토치
- OpenAIAPI
- chatGPT
- langchain
- 챗gpt
- fastapi #python웹개발
- 파이썬
- deeplearning
- pytorch
- HTML
- 랭체인
- fastapi
- fastapi #파이썬웹개발
- konlpy
- Python
- 머신러닝
- 판다스 데이터정렬
- 사이킷런
- 자연어분석
Archives
- Today
- Total
Data Navigator
[R] 통계청 2013년 발표 연령, 남녀, 경력별 월급 데이터셋을 이용한 기술적 분석 본문
과목 : 02.분석용 데이터 구축¶
In [104]:
df <- read.csv('../R Test/R_examples/example_salary.csv')
In [105]:
str(df)
'data.frame': 100 obs. of 7 variables: $ 연령 : chr "-19" "20-24" "25-29" "30-34" ... $ 월급여액..원. : chr "1346534 " "1584214 " "1922043 " "2130988 " ... $ 연간특별급여액..원.: chr "151840 " "115375 " "268058 " "335710 " ... $ 근로시간..시간. : chr "169.5" "180.1" "178.0" "180.8" ... $ 근로자수..명. : chr "15042 " "74251 " "143338 " "103585 " ... $ 경력구분 : chr "1년미만" "1년미만" "1년미만" "1년미만" ... $ 성별 : chr "남" "남" "남" "남" ...
In [106]:
head(df)
연령 | 월급여액..원. | 연간특별급여액..원. | 근로시간..시간. | 근로자수..명. | 경력구분 | 성별 | |
---|---|---|---|---|---|---|---|
<chr> | <chr> | <chr> | <chr> | <chr> | <chr> | <chr> | |
1 | -19 | 1346534 | 151840 | 169.5 | 15042 | 1년미만 | 남 |
2 | 20-24 | 1584214 | 115375 | 180.1 | 74251 | 1년미만 | 남 |
3 | 25-29 | 1922043 | 268058 | 178.0 | 143338 | 1년미만 | 남 |
4 | 30-34 | 2130988 | 335710 | 180.8 | 103585 | 1년미만 | 남 |
5 | 35-39 | 2414345 | 352816 | 181.4 | 65385 | 1년미만 | 남 |
6 | 40-44 | 2372214 | 233728 | 182.9 | 55422 | 1년미만 | 남 |
In [ ]:
컬럼명을 영어로 변경¶
In [107]:
names(df) <- c('age','salary','specialSalary','workingTime','numberOfWorker','career','sex')
head(df)
age | salary | specialSalary | workingTime | numberOfWorker | career | sex | |
---|---|---|---|---|---|---|---|
<chr> | <chr> | <chr> | <chr> | <chr> | <chr> | <chr> | |
1 | -19 | 1346534 | 151840 | 169.5 | 15042 | 1년미만 | 남 |
2 | 20-24 | 1584214 | 115375 | 180.1 | 74251 | 1년미만 | 남 |
3 | 25-29 | 1922043 | 268058 | 178.0 | 143338 | 1년미만 | 남 |
4 | 30-34 | 2130988 | 335710 | 180.8 | 103585 | 1년미만 | 남 |
5 | 35-39 | 2414345 | 352816 | 181.4 | 65385 | 1년미만 | 남 |
6 | 40-44 | 2372214 | 233728 | 182.9 | 55422 | 1년미만 | 남 |
데이터에 있는 문자열 공백 제거¶
In [102]:
library(stringr)
In [103]:
str_squish(df)
Warning message in stri_replace_all_regex(string, pattern, fix_replacement(replacement), : "argument is not an atomic vector; coercing"
- 'c("-19", "20-24", "25-29", "30-34", "35-39", "40-44", "45-49", "50-54", "55-59", "60-", "-19", "20-24", "25-29", "30-34", "35-39", "40-44", "45-49", "50-54", "55-59", "60-", "-19", "20-24", "25-29", "30-34", "35-39", "40-44", "45-49", "50-54", "55-59", "60-", "-19", "20-24", "25-29", "30-34", "35-39", "40-44", "45-49", "50-54", "55-59", "60-", "-19", "20-24", "25-29", "30-34", "35-39", "40-44", "45-49", "50-54", "55-59", "60-", "-19", "20-24", "25-29", "30-34", "35-39", "40-44", "45-49", "50-54", "55-59", "60-", "-19", "20-24", "25-29", "30-34", "35-39", "40-44", "45-49", "50-54", "55-59", "60-", "-19", "20-24", "25-29", "30-34", "35-39", "40-44", "45-49", "50-54", "55-59", "60-", "-19", "20-24", "25-29", "30-34", "35-39", "40-44", "45-49", "50-54", "55-59", "60-", "-19", "20-24", "25-29", "30-34", "35-39", "40-44", "45-49", "50-54", "55-59", "60-")'
- 'c(1346534, 1584214, 1922043, 2130988, 2414345, 2372214, 2354052, 2145866, 2083157, 1670852, 1652158, 1792533, 2162605, 2276212, 2619221, 2569419, 2545490, 2298994, 2264538, 1714010, 1414136, 1875815, 2329024, 2519343, 2759442, 2827420, 2621065, 2495111, 2153536, 1759854, 2483000, 2239079, 2396300, 2850779, 3154395, 3309231, 3157228, 2857472, 2545153, 1974552, NA, 2177278, 2458617, 2854599, 3358258, 3806865, 4047478, 4064286, 3835999, 3144527, 1242026, 1501757, 1715331, 1881262, 1643936, 1460618, 1407778, 1356059, 1266070, 1117605, 1614128, 1703021, 1926257, 2021023, 1814147, 1622139, 1505378, 1443682, 1382884, 1172399, 1809095, 1854096, 2109702, 2201773, 2100852, 1818857, 1661907, 1559168, 1444562, 1245540, 1966014, 2017535, 2200182, 2487925, 2518856, 2106003, 1887288, 1758735, 1751487, 1548036, NA, 1685204, 2316881, 2551896, 2926565, 3002440, 2874035, 2575219, 2465273, 2182715)'
- 'c(151840, 115375, 268058, 335710, 352816, 233728, 224996, 166779, 165352, 122337, 1355014, 2225371, 4216409, 3446843, 3293102, 2477687, 2395252, 1875009, 1953017, 1145849, 282969, 2922272, 5822113, 5167805, 4259247, 3698934, 2947414, 2848512, 2514897, 1176707, NA, 7061945, 6519536, 8639942, 7292091, 5944339, 4840913, 4272066, 3222472, 1701636, NA, 1574013, 5267026, 7455326, 9419272, 11694108, 13252036, 12716896, 10205683, 3507610, 430322, 143708, 210036, 180575, 141326, 77911, 88609, 73158, 65589, 10667, 4749160, 2731604, 2707987, 1942159, 1434570, 1103861, 934670, 743343, 565542, 299639, 5586868, 5407722, 4027023, 3039131, 2160337, 1722998, 1256709, 1045037, 813493, 423826, 8118143, 9680388, 6212956, 5284495, 3868935, 2803385, 2281919, 1897412, 1369063, 806919, NA, 1970720, 6244175, 6920045, 8114053, 7495832, 5324288, 4800348, 3950269, 2054945)'
- 'c(169.5, 180.1, 178, 180.8, 181.4, 182.9, 182.2, 182.5, 181.3, 191.7, 193.6, 194.8, 181.6, 181.8, 185.1, 184, 186.9, 187.8, 187.6, 192.3, 191.1, 190.5, 182, 177.4, 181.4, 184.1, 186.8, 187.6, 188, 193.6, 226, 198.9, 185.2, 176.7, 174.3, 177.5, 181.3, 183.3, 184.2, 190.1, NA, 201.3, 186.6, 183.6, 174.5, 174.4, 176.2, 178.2, 178.1, 177.4, 151.7, 165.3, 165.4, 162.6, 165, 167.2, 172.4, 168.8, 161, 148, 170.9, 172, 167, 167.3, 169.8, 174, 176.1, 171.7, 169.5, 151.2, 188.2, 176.1, 166.8, 165.6, 170, 177.3, 179.5, 175.4, 170, 155.1, 194.2, 180.4, 170, 164.2, 167.3, 174.7, 181.9, 183.5, 180.5, 169.1, NA, 179.4, 171.2, 167.6, 164.4, 166.9, 174.6, 180.1, 180.4, 173.3)'
- 'c(15042, 74251, 143338, 103585, 65385, 55422, 37819, 37814, 32106, 37912, 3801, 66087, 279633, 238199, 123924, 99512, 69938, 60795, 52151, 60986, 147, 8799, 118480, 202527, 101201, 76376, 52698, 48056, 34147, 44971, 12, 2621, 47532, 352266, 257333, 147778, 92043, 82198, 50482, 58812, NA, 1914, 12123, 82520, 348837, 533852, 456593, 439450, 246685, 150523, 17300, 109940, 87237, 51270, 40592, 52903, 42279, 33970, 21539, 18737, 9428, 124923, 191733, 91241, 69379, 88912, 73750, 63293, 38107, 30253, 466, 31200, 125485, 72705, 46876, 59520, 53953, 43137, 25092, 21106, 425, 10016, 109175, 166040, 69567, 70603, 65253, 56112, 27707, 20282, NA, 1886, 13731, 95100, 139405, 127340, 96050, 91643, 50502, 28105)'
- 'c("1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "1~3년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "3~5년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "5~10년미만", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상", "10년이상")'
- 'c("남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "남", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여", "여")'
데이터 타입을 integer와 double로 변환¶
In [108]:
df$salary <- as.integer(df$salary)
df$specialSalary <- as.integer(df$specialSalary)
df$workingTime <- as.double(df$workingTime)
df$numberOfWorker <- as.integer(df$numberOfWorker)
Warning message in eval(expr, envir, enclos): "강제형변환에 의해 생성된 NA 입니다" Warning message in eval(expr, envir, enclos): "강제형변환에 의해 생성된 NA 입니다" Warning message in eval(expr, envir, enclos): "강제형변환에 의해 생성된 NA 입니다" Warning message in eval(expr, envir, enclos): "강제형변환에 의해 생성된 NA 입니다"
In [109]:
head(df)
age | salary | specialSalary | workingTime | numberOfWorker | career | sex | |
---|---|---|---|---|---|---|---|
<chr> | <int> | <int> | <dbl> | <int> | <chr> | <chr> | |
1 | -19 | 1346534 | 151840 | 170 | 15042 | 1년미만 | 남 |
2 | 20-24 | 1584214 | 115375 | 180 | 74251 | 1년미만 | 남 |
3 | 25-29 | 1922043 | 268058 | 178 | 143338 | 1년미만 | 남 |
4 | 30-34 | 2130988 | 335710 | 181 | 103585 | 1년미만 | 남 |
5 | 35-39 | 2414345 | 352816 | 181 | 65385 | 1년미만 | 남 |
6 | 40-44 | 2372214 | 233728 | 183 | 55422 | 1년미만 | 남 |
평균: 2,171,578원¶
In [110]:
meanTotal <- round(mean(df$salary, na.rm =TRUE))
meanTotal
2171578
중앙값: 2,120,345원¶
In [111]:
medianTotal <- round(median(df$salary, na.rm =TRUE))
medianTotal
2120345
In [112]:
quantile(df$salary, na.rm =TRUE)
- 0%
- 1117605
- 25%
- 1689658.25
- 50%
- 2120345
- 75%
- 2519221.25
- 100%
- 4064286
In [113]:
min(df$salary, na.rm =TRUE)
1117605
경력별 월급 평균 / 표준편차¶
In [132]:
library(dplyr)
library(reshape2)
In [156]:
df %>% group_by (career) %>%
summarise('월급평균' = mean(salary, na.rm=TRUE), '표준편차' = sd(salary, na.rm=TRUE))
`summarise()` ungrouping output (override with `.groups` argument)
career | 월급평균 | 표준편차 |
---|---|---|
<chr> | <dbl> | <dbl> |
1~3년미만 | 1905012 | 421333 |
10년이상 | 2907119 | 690977 |
1년미만 | 1730835 | 408110 |
3~5년미만 | 2028015 | 460791 |
5~10년미만 | 2360463 | 507245 |
In [162]:
sf <- df %>% group_by (career, age, sex) %>%
filter(career == '10년이상') %>%
summarise(salary = min(salary, na.rm=TRUE))
sf
Warning message in min(salary, na.rm = TRUE): "min에 전달되는 인자들 중 누락이 있어 Inf를 반환합니다" Warning message in min(salary, na.rm = TRUE): "min에 전달되는 인자들 중 누락이 있어 Inf를 반환합니다" `summarise()` regrouping output by 'career', 'age' (override with `.groups` argument)
career | age | sex | salary |
---|---|---|---|
<chr> | <chr> | <chr> | <dbl> |
10년이상 | -19 | 남 | Inf |
10년이상 | -19 | 여 | Inf |
10년이상 | 20-24 | 남 | 2177278 |
10년이상 | 20-24 | 여 | 1685204 |
10년이상 | 25-29 | 남 | 2458617 |
10년이상 | 25-29 | 여 | 2316881 |
10년이상 | 30-34 | 남 | 2854599 |
10년이상 | 30-34 | 여 | 2551896 |
10년이상 | 35-39 | 남 | 3358258 |
10년이상 | 35-39 | 여 | 2926565 |
10년이상 | 40-44 | 남 | 3806865 |
10년이상 | 40-44 | 여 | 3002440 |
10년이상 | 45-49 | 남 | 4047478 |
10년이상 | 45-49 | 여 | 2874035 |
10년이상 | 50-54 | 남 | 4064286 |
10년이상 | 50-54 | 여 | 2575219 |
10년이상 | 55-59 | 남 | 3835999 |
10년이상 | 55-59 | 여 | 2465273 |
10년이상 | 60- | 남 | 3144527 |
10년이상 | 60- | 여 | 2182715 |
20-24 여자 가 월급이 가장 작은 그룹임¶
In [161]:
df[which(df$salary == '1685204'),]
age | salary | specialSalary | workingTime | numberOfWorker | career | sex | |
---|---|---|---|---|---|---|---|
<chr> | <int> | <int> | <dbl> | <int> | <chr> | <chr> | |
92 | 20-24 | 1685204 | 1970720 | 179 | 1886 | 10년이상 | 여 |
In [163]:
df2 = read.csv('../R Test/R_examples/example_salary.csv')
head(df2)
연령 | 월급여액..원. | 연간특별급여액..원. | 근로시간..시간. | 근로자수..명. | 경력구분 | 성별 | |
---|---|---|---|---|---|---|---|
<chr> | <chr> | <chr> | <chr> | <chr> | <chr> | <chr> | |
1 | -19 | 1346534 | 151840 | 169.5 | 15042 | 1년미만 | 남 |
2 | 20-24 | 1584214 | 115375 | 180.1 | 74251 | 1년미만 | 남 |
3 | 25-29 | 1922043 | 268058 | 178.0 | 143338 | 1년미만 | 남 |
4 | 30-34 | 2130988 | 335710 | 180.8 | 103585 | 1년미만 | 남 |
5 | 35-39 | 2414345 | 352816 | 181.4 | 65385 | 1년미만 | 남 |
6 | 40-44 | 2372214 | 233728 | 182.9 | 55422 | 1년미만 | 남 |
컬럼명 변경 : 한글에서 영문명으로 변경¶
In [165]:
names(df2) <- c('age','salary','specialSalary','workingTime','numberOfWorker','career',
'sex')
head(df2)
age | salary | specialSalary | workingTime | numberOfWorker | career | sex | |
---|---|---|---|---|---|---|---|
<chr> | <chr> | <chr> | <chr> | <chr> | <chr> | <chr> | |
1 | -19 | 1346534 | 151840 | 169.5 | 15042 | 1년미만 | 남 |
2 | 20-24 | 1584214 | 115375 | 180.1 | 74251 | 1년미만 | 남 |
3 | 25-29 | 1922043 | 268058 | 178.0 | 143338 | 1년미만 | 남 |
4 | 30-34 | 2130988 | 335710 | 180.8 | 103585 | 1년미만 | 남 |
5 | 35-39 | 2414345 | 352816 | 181.4 | 65385 | 1년미만 | 남 |
6 | 40-44 | 2372214 | 233728 | 182.9 | 55422 | 1년미만 | 남 |
데이터 타입 변환¶
In [167]:
df2$salary <- as.integer(df2$salary)
df2$specialSalary <- as.integer(df2$specialSalary)
df2$workingTime <- as.double(df2$workingTime)
df2$numberOfWorker <- as.integer(df2$numberOfWorker)
Warning message in eval(expr, envir, enclos): "강제형변환에 의해 생성된 NA 입니다" Warning message in eval(expr, envir, enclos): "강제형변환에 의해 생성된 NA 입니다" Warning message in eval(expr, envir, enclos): "강제형변환에 의해 생성된 NA 입니다" Warning message in eval(expr, envir, enclos): "강제형변환에 의해 생성된 NA 입니다"
월급 표준화(scale) 작업¶
In [174]:
scaledSal <- scale(df2$salary)
head(scaledSal)
-1.289 |
-0.918 |
-0.390 |
-0.063 |
0.379 |
0.313 |
데이터프레임에 표준화 작업 값 추가한 새로운 데이터프레임 생성¶
In [175]:
df3 <- cbind(df2, scaledSal = scaledSal)
head(df3)
age | salary | specialSalary | workingTime | numberOfWorker | career | sex | scaledSal | |
---|---|---|---|---|---|---|---|---|
<chr> | <int> | <int> | <dbl> | <int> | <chr> | <chr> | <dbl> | |
1 | -19 | 1346534 | 151840 | 170 | 15042 | 1년미만 | 남 | -1.289 |
2 | 20-24 | 1584214 | 115375 | 180 | 74251 | 1년미만 | 남 | -0.918 |
3 | 25-29 | 1922043 | 268058 | 178 | 143338 | 1년미만 | 남 | -0.390 |
4 | 30-34 | 2130988 | 335710 | 181 | 103585 | 1년미만 | 남 | -0.063 |
5 | 35-39 | 2414345 | 352816 | 181 | 65385 | 1년미만 | 남 | 0.379 |
6 | 40-44 | 2372214 | 233728 | 183 | 55422 | 1년미만 | 남 | 0.313 |
In [176]:
df4 <- read.csv('../R Test/R_examples/example_cancer.csv', stringsAsFactors = TRUE )
head(df4)
age | sex | height | weight | dateOfoperation | cancerStaging | hospitalization | diseaseCode | |
---|---|---|---|---|---|---|---|---|
<int> | <fct> | <fct> | <fct> | <fct> | <fct> | <int> | <fct> | |
1 | 75 | 남 | 161 | 64 | 2011-06-22 | I | 48 | C187 |
2 | 52 | 여 | 176.6 | 75.3 | 2011-05-19 | IV | 17 | C187 |
3 | 67 | 여 | 154 | 65.6 | 2011-05-31 | III | 10 | C187 |
4 | 62 | 남 | 162 | 57 | 2011-06-21 | I | 11 | C187 |
5 | 70 | 남 | 171 | 65 | 2011-06-09 | II | 10 | C182 |
6 | 76 | 여 | 171 | 87 | 2011-06-16 | III | 10 | C189 |
In [177]:
avg <- mean(df4$age)
avg
63.5079191698525
age 특징확인 : 최소값, 사분위값, 평균, 최대값¶
In [180]:
summary(df4$age)
Min. 1st Qu. Median Mean 3rd Qu. Max. 18 55 64 64 72 102
In [182]:
quantile(df4$age)
- 0%
- 18
- 25%
- 55
- 50%
- 64
- 75%
- 72
- 100%
- 102
boxplot 으로 시각화¶
In [181]:
boxplot(df4$age)
In [203]:
# IQR 길이 boxplot 선의 길이
lenIQR <- IQR(df4$age,na.rm=T)
lenIQR
17
In [204]:
# IQR 위치 25%, 75% 의 위치값
pos_IQR <- quantile(df4$age, probs=c(0.25,0.75), na.rm = T)
pos_IQR
- 25%
- 55
- 75%
- 72
In [205]:
str(pos_IQR)
Named num [1:2] 55 72 - attr(*, "names")= chr [1:2] "25%" "75%"
In [208]:
# 아웃라이어 위치값
bottom_line <- pos_IQR[[1]] - lenIQR*1.5 #boxplot 하단 선의 값 25% - IRQ*1.5
top_line <- pos_IQR[[2]] + lenIQR*1.5 #상 위치값 75% + IQR*1.5
In [209]:
bottom_line
top_line
29.5
97.5
In [ ]:
boxplot.stats( )를 이용해서 아웃라이어 추출¶
In [200]:
out <- boxplot.stats(df4$age, coef = 1.5)$out
out
- 29
- 28
- 29
- 25
- 24
- 28
- 29
- 28
- 24
- 102
- 25
- 28
- 25
- 28
- 29
- 29
- 29
- 27
- 28
- 21
- 25
- 18
- 29
- 26
- 29
- 28
- 25
- 25
- 22
- 27
- 22
- 28
- 29
- 29
- 28
- 27
- 25
- 29
- 28
- 25
- 28
- 27
- 21
- 98
- 29
- 28
- 27
- 22
- 29
- 28
- 26
- 20
- 21
- 29
- 27
- 20
- 28
- 26
- 29
- 22
- 28
- 29
df4의 age 값에서 아웃라이어 위치 추출¶
In [194]:
out <- boxplot.stats(df4$age)$out
outlier <- which(df4$age %in% c(out))
outlier
- 426
- 531
- 902
- 1042
- 1299
- 1783
- 1916
- 2800
- 2913
- 3005
- 3063
- 3079
- 3130
- 3608
- 4002
- 4176
- 4305
- 4357
- 4380
- 4865
- 4881
- 5435
- 5853
- 5872
- 6027
- 6139
- 6172
- 6291
- 6298
- 6312
- 6354
- 6458
- 6663
- 6712
- 7574
- 7854
- 8759
- 8777
- 9042
- 9244
- 9921
- 10026
- 10265
- 10571
- 11385
- 11392
- 11419
- 11639
- 11661
- 12339
- 13068
- 13088
- 13380
- 14886
- 15193
- 15528
- 15610
- 16321
- 16451
- 17050
- 17380
- 17719
df4에서 아웃라이어가 있는 행 만 표시¶
In [195]:
df4[outlier, ]
age | sex | height | weight | dateOfoperation | cancerStaging | hospitalization | diseaseCode | |
---|---|---|---|---|---|---|---|---|
<int> | <fct> | <fct> | <fct> | <fct> | <fct> | <int> | <fct> | |
426 | 29 | 남 | 162 | 70.6 | 2011-05-17 | II | 24 | C184 |
531 | 28 | 남 | 151.4 | 44.9 | 2011-08-02 | I | 8 | C187 |
902 | 29 | 남 | 165.8 | 57.3 | 2011-09-06 | II | 9 | C187 |
1042 | 25 | 여 | 176.9 | 73.6 | 2011-11-10 | II | 10 | C184 |
1299 | 24 | 남 | 161 | 64.1 | 2011-08-05 | IV | 19 | C187 |
1783 | 28 | 여 | 154 | 61 | 2011-05-27 | IV | 7 | C188 |
1916 | 29 | 남 | 172 | 55 | 2011-10-27 | III | 11 | C19 |
2800 | 28 | 남 | 163.5 | 63.3 | 2011-11-07 | IV | 57 | C19 |
2913 | 24 | 남 | 175 | 79 | 2011-03-23 | II | 19 | C20 |
3005 | 102 | 여 | 150.8 | 62.5 | 2011-06-24 | IV | 16 | C20 |
3063 | 25 | 여 | 170.9 | 54.6 | 2011-11-18 | III | 10 | C20 |
3079 | 28 | 남 | 168.5 | 70 | 2011-12-26 | III | 9 | C187 |
3130 | 25 | 여 | 168.2 | 61.4 | 2011-04-06 | III | 10 | C189 |
3608 | 28 | 남 | 162 | 62 | 2011-11-01 | I | 16 | C20 |
4002 | 29 | 남 | 173.1 | 92.6 | 2011-09-08 | IV | 16 | C19 |
4176 | 29 | 남 | 156.3 | 63.5 | 2011-06-24 | III | 8 | C182 |
4305 | 29 | 남 | 149.5 | 36.9 | 2011-08-05 | III | 8 | C187 |
4357 | 27 | 여 | 156.3 | 52.4 | 2011-04-12 | II | 10 | C189 |
4380 | 28 | 여 | 180.8 | 91.3 | 2011-04-08 | I | 18 | C189 |
4865 | 21 | 남 | 167 | 69 | 2011-01-24 | I | 13 | C188 |
4881 | 25 | 남 | 148 | 56 | 2011-01-20 | II | 10 | C189 |
5435 | 18 | 남 | 170.4 | 80.9 | 2011-12-22 | III | 10 | C184 |
5853 | 29 | 남 | 165 | 70.4 | 2011-09-26 | I | 10 | C20 |
5872 | 26 | 남 | 168.5 | 75.1 | 2011-10-19 | III | 9 | C189 |
6027 | 29 | 여 | 169.4 | 72.8 | 2011-06-21 | II | 10 | C19 |
6139 | 28 | 남 | 165.6 | 74.7 | 2011-03-29 | II | 25 | C189 |
6172 | 25 | 여 | 161.9 | 62.1 | 2011-03-25 | III | 21 | C20 |
6291 | 25 | 남 | 170.9 | 73.5 | 2011-05-18 | III | 11 | C182 |
6298 | 22 | 여 | 154.5 | 63.9 | 2011-05-13 | I | 11 | C20 |
6312 | 27 | 남 | 151.4 | 53.6 | 2011-05-11 | III | 11 | C20 |
⋮ | ⋮ | ⋮ | ⋮ | ⋮ | ⋮ | ⋮ | ⋮ | ⋮ |
6663 | 29 | 여 | 156.9 | 66.3 | 2011-07-01 | I | 8 | C183 |
6712 | 29 | 남 | 175.6 | 62.1 | 2011-07-12 | III | 12 | C20 |
7574 | 28 | 남 | 161.9 | 51.3 | 2011-02-17 | IV | 17 | C187 |
7854 | 27 | 여 | 167.6 | 73 | 2011-04-06 | I | 10 | C184 |
8759 | 25 | 남 | 165 | 80 | 2011-04-21 | I | 9 | C20 |
8777 | 29 | 여 | 165 | 69.1 | 2011-04-14 | II | 36 | C182 |
9042 | 28 | 여 | 164 | 60 | 2011-04-05 | IV | 19 | C186 |
9244 | 25 | 여 | 140.5 | 47 | 2011-10-04 | III | 13 | C19 |
9921 | 28 | 남 | 170 | 76 | 2011-07-27 | IV | 26 | C20 |
10026 | 27 | 남 | 161 | 51 | 2011-06-15 | III | 21 | C182 |
10265 | 21 | 여 | 168 | 52 | 2011-05-03 | II | 11 | C20 |
10571 | 98 | 여 | 165 | 57 | 2011-08-29 | III | 24 | C187 |
11385 | 29 | 여 | 168 | 62.8 | 2011-01-19 | III | 15 | C186 |
11392 | 28 | 남 | 160 | 75.2 | 2011-12-09 | III | 22 | C20 |
11419 | 27 | 남 | 162.9 | 59.8 | 2011-09-05 | I | 21 | C187 |
11639 | 22 | 남 | 146 | 60 | 2011-03-15 | II | 16 | C189 |
11661 | 29 | 여 | 167 | 82 | 2011-02-15 | I | 15 | C187 |
12339 | 28 | 여 | 158.1 | 52.8 | 2011-11-24 | II | 13 | C187 |
13068 | 26 | 남 | 152.9 | 62.2 | 2011-05-03 | III | 13 | C20 |
13088 | 20 | 남 | 152.6 | 62.1 | 2011-06-27 | I | 22 | C187 |
13380 | 21 | 남 | 170.8 | 77.9 | 2011-01-07 | III | 10 | C20 |
14886 | 29 | 남 | 165.7 | 60.8 | 2011-10-21 | III | 15 | C19 |
15193 | 27 | 여 | 152.4 | 48.7 | 2011-02-25 | III | 11 | C20 |
15528 | 20 | 남 | 167 | 78 | 2011-12-14 | I | 11 | C187 |
15610 | 28 | 여 | 168 | 48.8 | 2011-03-10 | IV | 41 | C187 |
16321 | 26 | 여 | 152 | 56.3 | 2011-08-01 | II | 12 | C182 |
16451 | 29 | 남 | 178 | 68 | 2011-01-23 | IV | 3 | C20 |
17050 | 22 | 남 | 173 | 57 | 2011-01-19 | II | 31 | C20 |
17380 | 28 | 남 | 158 | 60.6 | 2011-03-04 | II | 10 | C187 |
17719 | 29 | 여 | 162 | 72.2 | 2011-08-02 | IV | 12 | C187 |
아웃라이어만 있는 데이터프레임 생성¶
In [197]:
outliers <- df4[outlier, ]
head(outliers)
age | sex | height | weight | dateOfoperation | cancerStaging | hospitalization | diseaseCode | |
---|---|---|---|---|---|---|---|---|
<int> | <fct> | <fct> | <fct> | <fct> | <fct> | <int> | <fct> | |
426 | 29 | 남 | 162 | 70.6 | 2011-05-17 | II | 24 | C184 |
531 | 28 | 남 | 151.4 | 44.9 | 2011-08-02 | I | 8 | C187 |
902 | 29 | 남 | 165.8 | 57.3 | 2011-09-06 | II | 9 | C187 |
1042 | 25 | 여 | 176.9 | 73.6 | 2011-11-10 | II | 10 | C184 |
1299 | 24 | 남 | 161 | 64.1 | 2011-08-05 | IV | 19 | C187 |
1783 | 28 | 여 | 154 | 61 | 2011-05-27 | IV | 7 | C188 |
In [ ]:
In [ ]:
In [ ]:
In [ ]:
In [ ]:
'DataAnalysisProject' 카테고리의 다른 글
[NLP, 키워드 빈도 분석] 고양시 관광 관련 인스타그램 수집 자료 분석 (0) | 2021.03.28 |
---|---|
[R] 한국 복지 패널 데이타를 이용한 통계 기반 데이터 분석 (0) | 2021.01.16 |
[R] 한국KBO 자료를 통한 안타(H)과 병살타(GDP)의 회귀분석 (0) | 2021.01.16 |