전공 수업 중에 알게 된 공공 데이터 사이트에서 흥미로운 데이터를 찾았다.
1. 데이터 소개
[의무교육 이외의 공식적인 교육훈련 실시율]
-데이터 수: 500개
-조사 연도: 2021년
-분류: 규모별(대규모, 소규모, 중규모), 업종별(금융, 비금융, 제조)
-행: 규모와 업종의 조합(9개)+합계(1개) 총 10개
-열: 4개(규모, 업종, 사례수, 실시율)
[의무교육 이외의 공식적인 교육훈련 실시율], 이 데이터는 제목에서 알 수 있듯이 법으로 정해진 의무교육 이외에 행해지는 공식교육의 실시율을 보여주는 데이터이다. 법정의무 교육은 강제적으로 행해지는 교육이기 때문에 별로 의미가 없다고 생각했다. 핵심은 그 이외에 행해지는 교육훈련이다. 강제된 교육훈련이 아니라 자체적으로 행해지는 교육훈련의 실시율을 보면 그 조직이 얼마나 교육에 관심이 있는지 간접적으로 알 수 있다고 생각했다.
더 재밌는 것은 이것을 규모별 업종별로 구분했다는 것이다. 즉, 규모에 따라 업종에 따라 교육에 대한 관심도가 어떻게 달라지는지 볼 수 있다. 그리고 규모가 교육 실시율에 더 많은 영향을 주는지 업종이 더 많은 영향을 주는지도 직관적으로 판단이 가능하다.
2. 데이터 분석
1) 데이터 불러오기
> library(dplyr)
> library(ggplot2)
> Edu_im <- read.csv("The offical education enrollment rate.csv",fileEncoding="euc-kr")
> Edu_im
산업별.1. 산업별.2. X2021 X2021.1
1 산업별(1) 산업별(2) 사례수 (개) 의무교육 이외의 공식적인 교육훈련 실시율 (%)
2 전체 소계 500 34.6
3 제조 소규모 256 29.7
4 제조 중규모 110 40.0
5 제조 대규모 26 53.8
6 금융 소규모 8 50.0
7 금융 중규모 12 33.3
8 금융 대규모 6 50.0
9 비금융 소규모 45 37.8
10 비금융 중규모 30 20.0
11 비금융 대규모 7 71.4
>
> class(Edu_im)
[1] "data.frame"
2) 전처리
Edu_im$X2021.1 <- as.numeric(Edu_im$X2021.1) #character to numeric
Edu_im$X2021 <- as.numeric(Edu_im$X2021)
Edu_im$X2021.1 <- (Edu_im$X2021.1)*0.01 #convert to percent
class(Edu_im$X2021.1) #check class
class(Edu_im$X2021)
Edu_im <- mutate(Edu_im,rate_num=X2021*X2021.1) #append the rate_num column
Edu_im$rate_num <- round(Edu_im$rate_num) #change to integer
사례수와 실시율이 숫자로 보이지만 사실 숫자가 아니라 문자로 되어 있었다. 문자는 계산이 불가능하기 때문에 숫자로 모두 변환시켜 줬다. 그리고 규모별, 업종별로 따로 그룹화해서 실시율을 계산할 것이기 때문에 비율이 아닌 정확한 개수가 필요했다. 그래서 rate_num이라는
column을 추가해서 사례수와 실시율을 사용하여 실시하는 기업의 수를 구하였다.(실시율=(실시하는 기업의 수/사례수)*100)
3) 전처리(그룹화)
# Data frame of Education implementation rates by industry
Edu_im_indus <- Edu_im %>%
group_by(산업별.1.) %>%
summarise(sum_all=sum(X2021),
sum_rate_num=sum(rate_num),
indus_rate=(sum(rate_num)/sum(X2021))*100)
Edu_im_indus<- Edu_im_indus[-3,] #remove NA row
Edu_im_indus[c(3,4),] <- Edu_im_indus[c(4,3),] #move the total row down
Edu_im_indus
# Data frame of Education implementation rates by scale
Edu_im_scale <- Edu_im %>%
group_by(산업별.2.) %>%
summarise(sum_all=sum(X2021),
sum_rate_num=sum(rate_num),
indus_rate=(sum(rate_num)/sum(X2021))*100)
Edu_im_scale <- Edu_im_scale[-2,] #remove NA row
Edu_im_scale[c(2,4),] <- Edu_im_scale[c(4,2),] #move the total row down
Edu_im_scale
names(Edu_im_indus) <- names(Edu_im_scale) #standardize column names
Edu_im_new <- rbind(Edu_im_scale,Edu_im_indus) #merge another data frame
Edu_im_new <- Edu_im_new[-4,]
Edu_im_new <- Edu_im_new[-7,]
앞서 말한 것 처럼 규모별, 업종별로 그룹화해서 실시율을 계산할 것이기 때문에 group_by와 summarise를 함께 사용해서 그룹화한 후 다시 실시율을 계산하였다. 산업별 업종별로 따로 데이터 프래임을 만들었기 때문에 한 번에 다시 보기 위해 rbind를 사용하여 행으로 합쳐줬다.
4) 시각화
ggplot(Edu_im_new,mapping=aes(x=산업별.2.,y=indus_rate))+
geom_col()+
ylab("(%)")+ # naming y-axis
theme(axis.text.x = element_text(margin = margin(.3,0,0,0, "cm"),
size = 15,
family = "AppleSDGothicNeo-Bold"),#apply korean fonts
axis.title.x=element_blank(),#remove x-axis
axis.title.y=element_text(angle=0) #turn y-axis label
)
긴 전처리 시간이 끝나고 시각화를 할 차례가 왔다. 시각화는 간단하게 바 형태의 그래프를 사용하여 실시율을 한눈에 볼 수 있게 했다. 한글이 들어가있어서 폰트를 설정한다고 조금 고생했지만(맥북의 한계...) 구글링으로 쉽게 해결했다. 결과는 다음과 같이 나왔다.
3. 결론
규모를 어떻게 측정한지는 모르지만 대규모인 기업의 교육 실시율이 가장 높은 것으로 나타났다. 그다음으로는 중규모 소규모 순이다. 업종별로 보자면 금융-비금융, 제조 순이었다. 비금융과 제조 사이에는 유의미한 차이가 없었다. 업종과 규모를 비교해 보자면 규모의 편차가 업종의 편차보다 직관적으로 더 컸다. 즉, 규모가 교육 실시율에 좀 더 많은 영향을 준다는 것을 알 수 있다.
4. 시사점
어느 지역 기업인지, 규모를 어떤 기준으로 나눴는지, 사실 데이터에 대해 모르는 사실이 너무 많아서 단정 짓지는 못하지만 결론을 바탕으로 감히 예상해보겠다.
조직원의 수가 많을 수록 공식적인 교육 시간을 따로 만들어서 교육을 실시할 확률이 높다고 생각한다. 정보를 개개인에게 따로 전달하기도 어려울뿐더러 사람이 많아질수록 이해관계가 복잡해져서 통제하기가 어려워지기 때문이다. 그래서 규모가 큰 기업은 교육의 필요성을 알고 많이 실시하는 것이다.
하지만 규모가 작아지면 가벼운 워크샵이나 심지어 회식에서도 교육은 가능하다. 그냥 대충 이야기로 끝낼 수도 있기 때문이다.
그런데 여기서 눈여겨 볼 점은 규모가 말해주는 것은 비단 조직원의 수뿐만이 아니라는 것이다. 규모는 기업이 가진 자본을 간접적으로 말해주기도 한다. 만약 사람 수에 비례해서 실시율이 달라진다고 생각한다면 대규모와 중규모의 차이 중규모와 소규모의 차이가 비슷해야 한다. 하지만 대규모와 중규모의 차이는 크지만 중규모와 소규모의 차이는 크지 않다.
결국, 대기업과 중소기업 사이에 양극화 된 자본의 차이가 이러한 결과를 만든 게 아닐까 조심스럽게 예상해 본다. 금융권이 교육실시율이 높은 이유도 비슷한 맥락일 것이다.
"교육에는 돈이 필요하다." 라는 말은 많이 들었지만, 이렇게 데이터로 직접 보니 더 실감이 난다. 기업교육을 제대로 하려면 대기업에 가야 한다는 선배들의 말이 거짓은 아니었나 보다.
교육의 실시 여부가 돈에 많은 영향을 받는 만큼, 기업 교육 하는 사람들은 성과를 명확하게 보여줘야 한다. 그래야 투자가 이뤄지기 때문이다. 교육이 기업의 성과로 이어졌는지 평가하기는 쉽지 않다. 그리고 인간의 잠재력을 길러주는데 목적이 있는 HRD가 기업의 성과에 집중하다 보면 존재 자체에 모순이 생길 수도 있다. 실제로 학교에서 프로젝트를 하다가 방향성을 잃는 가장 핵심적인 부분이다.
"인풋은 장기적인 잠재력 개발인데 아웃풋은 수치로 환산된 단기적인 성과여야 한다." 이 모순적인 문장을 어떻게 받아들이고 해결해야 할지 고민이 많다. 언젠가는 해답을 찾을 날이 오지 않을까?
'HR analytics' 카테고리의 다른 글
[데이터로 보는 인사이야기] People Analytics (0) | 2023.05.12 |
---|---|
교육방법에 따른 교육 참여율을 산업별로 알아보자 (2) | 2023.03.24 |