전체 글 10

[데이터로 보는 인사이야기] People Analytics

1. "끝"에서 시작하기 최근, 학교 동기들과 함께 있는 카카오톡 방에 블로그 글 하나가 올라왔다. " IBM은 약 8,000개의 일자리를 AI로 대체할 계획입니다."라는 글이었다. 8,000이라는 숫자가 주는 위압감이 있었지만, 이미 AI가 인간의 일자리를 대체한다는 말은 수도 없이 들어와서 그러려니 했다. 하지만 HR이 이러한 변화에 가장 먼저 직면하게 될 것이라는 문장을 보니 남의 일이 아님을 깨닫게 되었다. HR을 AI로 대체한다는 것도 충격이었지만 그것을 주창하는 기업이 IBM이라는게 더 충격이었다. IBM은 HR분야, 비즈니스 컨설팅, 솔루션 분야의 선두주자이기 때문이다. 그런 기업이 HR이 가장 먼저 AI로 대체될 것이라고 하니 그 영향력이 더 컸다. 자본주의 시대가 도래하고 경영자와 노동자..

HR analytics 2023.05.12

R을 이용한 의사결정 나무(decision tree). 내 맘대로 인공지능

학교에서 데이터 마이닝 수업을 듣다가 의사결정 나무라는 간단한 인공지능기법을 알게 되었다. 내 인생에서. 인공지능, 즉 AI 분야는 살면서 절대로 이해할 수 없는 미지의 세계라고 생각했다.(아직 많이 부족하지만...) 하지만 우연히 연이 닿아 이렇게 의사결정 나무라는 것을 배우게 되었다. 데이터 마이닝 수업을 들으면서 드는 생각은 사람들은 참 똑똑하다는 것이다. 어떻게 그런 의문을 가졌는지도 신기하고 또 그것을 해결하는 방법까지 고안해 내는 능력이 같은 인간으로서 참 대단하다고 생각했다. 또 아직은 내가 그들에 비해 너무 부족하다고 생각이 든다. 그래서 오늘은 학교에서 배운 것을 바탕으로 내 맘대로 인공지능을 사용해보려 한다. 내가 하는 방법이 맞는지는 장담할 수 없다. 말 그대로 내 맘대로이기 때문이다..

R study 2023.03.31

교육방법에 따른 교육 참여율을 산업별로 알아보자

1. 데이터 소개 -조사 일시: 2007~2017년 -자료갱신일: 2019년 -데이터 수: 10,005개 -분류: 산업별(제조업, 금융업, 비금융업), 교육방법(집체식 사내 교육훈련, 집체식 사외 교육훈련, 인터넷 학습, 우편통신 훈련, 국내 연수, 해외 연수, 외부 업체로 부터 기술지원) HRD 관련 데이터를 찾다가 이라는 데이터를 발견했다. 데이터를 눈으로 훑고 있었는데 신기한 교육방법을 밝견했다. 바로 "우편통신 훈련"이다. 교육 관련 학과에 다니지만 처음 들어본 교육 방법이다. 어쩔 수 없이 chatGPT에게 물어봤다. 우편통신 훈련은 우편을 이용하여 진행되는 교육 방법으로, 우편을 통해 교재와 문제지를 배송하고, 이를 수신한 학습자가 문제를 푸는 방식으로 이루어집니다. 이 방식은 대면 교육이 어..

HR analytics 2023.03.24

기업의 규모와 업종별 교육 실시율

전공 수업 중에 알게 된 공공 데이터 사이트에서 흥미로운 데이터를 찾았다. 1. 데이터 소개 [의무교육 이외의 공식적인 교육훈련 실시율] -데이터 수: 500개 -조사 연도: 2021년 -분류: 규모별(대규모, 소규모, 중규모), 업종별(금융, 비금융, 제조) -행: 규모와 업종의 조합(9개)+합계(1개) 총 10개 -열: 4개(규모, 업종, 사례수, 실시율) [의무교육 이외의 공식적인 교육훈련 실시율], 이 데이터는 제목에서 알 수 있듯이 법으로 정해진 의무교육 이외에 행해지는 공식교육의 실시율을 보여주는 데이터이다. 법정의무 교육은 강제적으로 행해지는 교육이기 때문에 별로 의미가 없다고 생각했다. 핵심은 그 이외에 행해지는 교육훈련이다. 강제된 교육훈련이 아니라 자체적으로 행해지는 교육훈련의 실시율을..

HR analytics 2023.03.17

성동구 어느 동이 치킨&호프 집이 제일 많을까?

책에서는 서대문구를 분석하고 있지만 현재 내가 살고 있는 성동구를 분석해 보는 게 더 재밌을 것 같아서 약간 바꿔보았다. 데이터는 localdata라는 곳에서 가지고 왔는데, 생각보다 잘 정제되고 재밌는 데이터들이 많아서 앞으로 유용하게 쓸 것 같다고 생각했다. 내가 가지고 온 데이터는 다음과 같다. 서울 특별시 데이터 서울특별시_일반 음식점 데이터 서비스명부터 영업유무, 위치, 전화번호까지 많은 변수들이 있다. 데이터 개수도 폐업 영업 모두 합해서 30만 개 정도 되는 꽤 많은 데이터 양을 가지고 있다. library("readxl") library("dplyr") library("treemap") 엑셀 파일을 가지고 오는 것이기 때문에 readxl이라는 패키지를 사용했다. 그리고 오늘의 하이라이트는 ..

R study 2023.03.10

"몇 살 때 월급을 가장 많이 받을까?"(데이터 분석 연습)

오늘은 쉽게 배우는 R데이터 분석에 나오는 분석 예제 중 하나를 풀어봤다. "몇 살 때 월급을 가장 많이 받을까?"에 대한 내용을 분석해 봤다. 분석에 앞서서 분석할 데이터가 필요하기 때문에, 책에서 제공하는 데이터를 사용하였다. 데이터에 대한 내용은 다음과 같다. 한국보건사회연구원에서 가구의 경제활동을 연구해 정책 지원에 반영할 목적으로 발간하는 조사 자료이다. 2006년~2015년까지 전국에서 7000여 가구를 선정해 매년 추적 조사하 자료이며, 경제활동, 생활실태, 복지욕구 등 수천 개 변수에 대한 정보를 담고 있다. 데이터를 R로 가지고 오기위해서는 다음과 같은 작업이 선행되어야 한다. library(foreign) library(dplyr) library(ggplot2) library(readx..

R study 2023.03.03

데이터 변형(Filter rows with filter())

1. Find all flights that 오늘은 flights 데이터를 분석해 봤다. 분석이라기보다는 데이터를 알아보는 것에 더 초점을 맞췄다. 전공시간을 생각해 보면 함수만 배웠지 데이터의 구조를 보고 어떤 정보를 담고 있는지 알아보는 시간은 부족했던 것 같다. 이번 기회에 flights 데이터를 집중적으로 살펴보고자 한다. flights 데이터는 "nycflights13" 이라는 패키지안에 있는 데이터이다. 이 데이터에 대한 소개를 잠시 알아보자. On-time data for all flights that departed NYC (i.e. JFK, LGA or EWR) in 2013 번역해보면 2013년 기준으로 뉴욕의 3개 공항에 있었던 모든 비행 데이터이다. > flights # A tibb..

R study 2023.02.24

데이터 시각화(Geometric objects)

1. Run this code in your head and predict what the output will look like. Then, run the code in R and check your predictions ggplot(data = mpg, mapping = aes(x = displ, y = hwy, color = drv)) + geom_point() + geom_smooth(se = FALSE) 이 코드에서 눈여겨볼 점은 Aesthetic을 ggplot에 맵핑했다는 것이다. 이렇게 되면 뒤에 여러 개의 geom을 붙였을 때 굳이 다 변수를 설정하지 않아도 된다. 즉, 전역 변수로 설정이 돼서 geom을 빈칸으로 놔둬도 데이터가 적용이 된다는 것이다. 데이터를 mpg로 하고 x값에 dis..

R study 2023.02.23

데이터 시각화(facet)

1. Take the first faceted plot in this section ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy)) + facet_wrap(~ class, nrow = 2) What are the advantages to using faceting instead of the colour aesthetic? What are the disadvantages? How might the balance change if you had a larger dataset? color Aesthetic 대신에 facet 기능을 사용하면 범례별로 따로 데이터를 볼 수 있다는 장점이 있다. color Aesthetic을 이용하면 한눈에 모..

R study 2023.02.22

데이터 시각화(Aesthetic Mappings)

1. What’s gone wrong with this code? Why are the points not blue? library(tidyverse) ggplot(data=mpg)+ geom_point( mapping=aes(x=displ,y=hwy,color="blue") ) Aesthetic이라는 개념을 약간이나마 이해하는데 이 문제가 많은 도움을 줬다. Aesthetic은 시각적인 표현을 나타내는 것이다. "심미성"이라고 번역되지만 한국어임에도 직관적이지 못한 표현이다. 그냥 간단하게 데이터를 눈에 보이게 해주는 장치라고 이해했다.(아닐 수도 있다...) 이 문제의 요점은 Aesthetic이 데이터를 어떻게 보여주는지에 대한 것이다. Aesthetic은 대게 mapping과 함께 쓰인다. 여기서 ..

R study 2023.02.22