빅데이터분석기사
공지 분류

제3회 빅분기 실기 스터디 안내

작성자 정보

  • ◆딥셀◆ 작성
  • 작성일

컨텐츠 정보

본문

'제3회 빅데이터분석기사-실기' 시험이 12/04(토)에 예정되어 있습니다. 2회 실기시험에 합격하지 못하셨거나, 3회 필기시험에 합격하신 분들이 이 시험을 준비하시겠죠. 3회부터는 이전 사례가 있기 때문에 조금은 더 방향성을 이해할 수 있을 것 같습니다. 다만 난이도가 더 높아 질 가능성도 있을 것 같습니다.

3회 시험을 준비하는 데 필요한 정보를 정리해 봅니다. 그리고 여기 딥셀 AI 캠퍼스에서 준비하고자 하는 계획도 정리해 봅니다. 저희 사정에 따라 변경이 될 수도 있지만 아래와 같은 내용으로 함께 준비해 보겠습니다.

죄송하지만 R에 대해서는 저희 역량으로는 커버가 안되는 점 양해 바랍니다.


<단답형>

머신러닝과 관련된 내용을 중점적으로 공부해야 할 것 같습니다. 머신러닝에서 사용되는 기법과 알고리즘, 용어, 간단한 계산까지 집중해서 준비하는 것이 좋을 것 같습니다.

--> 머신러닝 관련된 개념과 기법, 알고리즘 등에 대한 연습문제를 50개 정도 만들어 보겠습니다. 다른 분들도 같이 많들어서 공유하면 좋을 것 같습니다.


<제1유형>

pandas의 사용을 확실하게 잘 할 수 있어야 할 것 같습니다.

--> 빅분기 준비를 위한 pandas 튜토리얼과 연습문제 풀이를 차근차근 만들어 보겠습니다. 코딩 초보자 분들이 요청하신다면 파이썬 기초 준비 자료도 함께 준비해 보겠습니다. 2회 준비에서는 시간이 너무 촉박하여 파이썬 기초는 다루지 못했습니다. 3회 준비는 기간이 6개월 정도 있으므로 코딩 초보들도 제대로 준비할 수 있는 시간이 될 것 같습니다. 요청하시는 분이 없으시면 필요 없는 것으로 알고 생략하겠습니다.


<제2유형>

예제와 같이 머신러닝으로 분류 문제를 주어진 시간 내에 확실하게 해결할 수 있도록 준비해야 할 것 같습니다. 그러기 위해서는 파이썬과 pandas, sklearn을 능숙하게 다룰 수 있어야 할 것 같습니다. 준비 방법은 2회 예제를 가지고 하면 될 것 같습니다. 

--> 2회의 예제문제를 해결하는 방법에 대해서 조금 더 자세하게 다루고 시험 볼 때, 어떻게 하는 것이 가장 좋을 지, 시험 요령을 정리해 보겠습니다. 준비하는 분들은 검색이나 참고 자료 없이 짧은 시간 내에 풀 수 있도록 연습할 수 있도록 유사 연습 문제를 만들어 보겠습ㄴ다.


이상과 같은 내용을 참고하여 시간을 가지고 차근차근 준비하는 것이 필요할 것 같습니다. 좋은 성과들을 기원합니다. 이 게시판의 취지는 함께 공부하는 것입니다.

많은 참여 부탁드립니다.

관련자료

댓글 7

래리슨님의 댓글

  • 래리슨
  • 작성일
저도 10/4일의 실기시험을 준비하고 있습니다.
많은 도움이 기대합니다.

초보자라 어떻게 기여를 할지 막막하기는 합니다만, 최선을 다하여 협력하겠습니다.

◆딥셀◆님의 댓글

  • ◆딥셀◆
  • 작성일
아직 실기시험 안내 공지가 안 떴네요.(확실한 것은 안내 공지를 보고 판단해야 할 것 같습니다.)
지난 시험 공지를 우선 참고 하시는 것도 좋을 것 같습니다.
https://www.dataq.or.kr/www/board/notice/list.do 19번 글

작업형 제1유형은 데이터 마님 사이트를 참고하시면 좋습니다.
https://www.datamanim.com/dataset/03_dataq/main_p1.html

제2유형은 아래 제 글을 참고 하시고 자신만의 모범 답안을 만들어 외우시면 도움이 됩니다.
https://deepcell.kr/bbs/board.php?bo_table=bigbungi&wr_id=23

보통 시험장에서 인터넷을 사용할 수 없으므로 웹크롤링은 나오지 않을 확률이 높습니다.(공지에서 확인 필요)

시험 시간이 넉넉하지 않으니 제2유형의 경우 표준적인 코드의 틀을 만들어서 어느 정도는 외워야 합니다.
시험 시간에 우왕좌왕하면 제시간에 못 끝냅니다.
물론 실수 없이 잘 하면 시간이 부족하지는 않습니다.

참고 하시기 바랍니다.
그리고 건투를 빕니다.

이준규님의 댓글의 댓글

  • 이준규
  • 작성일
제2유형 참고 링크에서에서 문의입니다 이곳이 조금더 최신글이라 여기 답글에 적으니 양해부탁드립니다.
 
원핫인코딩 (더미화) 후 train 에만 있는 범주를 test 프레임 에 범주 추가시 
추가된 해당 col 열 은 dataframe 맨뒤쪽에 붙여지는걸로 알고 있습니다 이렇게 되면 열의 순서가 뒤죽박죽이되지 않나 여쭤봅니다

ex) 주구매상품_기타 라는 속성이  train 30번째 index에 있고  test에는 없을시  test[cols]= 0 이라하면
test 프레임에는 주구매상품_기타 라는 범주가 맨마지막에 붙어 72번째 index에 붙어 순서가 하나씩 밀려서
모델훈련이 되지 않을까 조심히 예상합니다

추가) 범주형 x특성치를 더미화 후 정규화 (minmax , std) 를 해도 괜찮을까요  혹시나 정규화는 범주가 아닌 연속형에만 하는건지 헷갈리네요 ㅠㅠ

◆딥셀◆님의 댓글의 댓글

  • ◆딥셀◆
  • 작성일
답변을 늦게 올려서 죄송합니다. 지적해 주신 내용이 맞습니다. 제가 좀 빼먹었네요. 정확하게 할려면 소팅을 한 번 해주면 될 것 같은데(train 데이터와 test 데이터가 같게), 제가 요즘 바빠서 확인하면서 할 시간이 없네요.
다행이 순서가 좀 안 맞아도 결과에는 큰 영향을 안 미치는 것 같습니다.

그리고 더미화된 데이터는 정규화 하지 않는 것이 맞지만, 정규화를 해도 별로 달라 지는 것이 없으므로 일괄적으로 해도 결과에는 별 영향을 미치지 않습니다. 제대로 할 때는 정규화 하지 마시고 결과만 볼 거라면 해도 상관 없습니다.

이준규님의 댓글의 댓글

  • 이준규
  • 작성일
감사합니다!~~ , 더미화 전에 특성치끼리 행 결합하여서 더미 후 다시 분리하면 소팅과정이 필요없긴하더라고요

◆딥셀◆님의 댓글의 댓글

  • ◆딥셀◆
  • 작성일
그런 방법이 있군요. 그렇게 하면 좋겠네요.
해보시면 아시겠지만 상관관계가 크지 않아서 결과에는 크게 영향을 미치지 않는 것 같습니다.
코릴레이션을 구해서 상관관계가 큰 변수들만 골라서 해 보았는데도 결과는 크게 달라지지 않더라구요.
내일이 시험이네요. 이제 새로운 것을 공부할 시간은 없을 것 같으니 전체 정리하시고 시험에 대비 잘 하시기를 바랍니다.
유형2의 경우는 참고 자료 없이 전체를 코딩해야 하므로 자기만의 답안을 만들어서 외워서 입력하고 실행하는 과정을 반복해서 연습을 하시는 것이 좋을 것 같습니다.
그리고 중간 값들을 확인하는 방법들도 연습하시고요. 주피터가 아니므로 전체 코드를 실행해야 하니까 적절하게 주석처리와 print()문을 활용하여서 중간 확인을 하는 방법을 연습하시면 좋을 것 같습니다.
시험이기 때문에 실수를 하지 않는 것이 중요하고, 실수하지 않기 위해서는 연습이 필요합니다.
좋은 결과 얻으시기를 기원합니다.

래리슨님의 댓글

  • 래리슨
  • 작성일
감사합니다.
예시 코드를 많이 공유해 주시면 도움이 많이 될 것 같습니다.
복된 나날이 되시길 기원합니다.

최근글


새댓글


알림 0