데이터마이닝
Posts
24 posts2. 데이터 수집 및 탐색
강의 내용은 추후 업로드 예정입니다. 강의 자료:

Lab 1-2. RStudio 살펴보기
R과 RStudio를 설치하면, 아래 그림과 같은 화면이 나타납니다. R은 interpreter 언어기 때문에 콘솔창의 > 이 표시 옆에 코드를 타이핑 해서 데이터 분석이 가능합니다. 예를 들어 아래와 같이 입력하면 2가 출력되게 됩니다.> 1+1 코드의 재활용을 수월하게 하기 위해서는 스크립트로 저장해야 하는데, 아래 그림 처럼 스크립트 입력 창을 띄울 수 있습니다. 이 화면에서 코드를 실행시키려면, 실행 시키려는 코드를 두고 run을 누르시거나 컨트롤+엔터(맥북은 cmd+enter)를 누르시면 됩니다. 작업을 하다보면 어떤 변수를 선언했는지 어떤 데이터가 있는지 궁금하실텐데, 오른쪽 상단에 Environment 창에서 확인하실 수 있

Lab 1-1. R과 RStudio의 설치
저희가 빅데이터 분석을 위해 사용할 분석 엔진은 R입니다. R을 편하게 사용하기 위한 개발 도구로 R Studio (IDE, 통합 개발 환경)가 있습니다. 이번 시간에는 R과 R studio를 설치해보겠습니다. 설치 순서는 R (https://www.r-project.org)를 설치한 후 RStudio (https://www.rstudio.com)를 설치하겠습니다. 1. https://www.r-project.org 사이트로 이동하셔서,2. Download R 링크를 클릭합니다. 3. 지역별로 여러 mirror사이트가 나오는데 이중 하나로 이동합니다. (한국 서버도 있습니다.)4. 각자 저희 OS에 맞는 링크를 클릭합니다.5. install R for the first

빅데이터 분석의 개론
빅데이터는 기존 소프트웨어나 데이터베이스로 처리할 수 없는 크기의 데이터를 처리하는 기술을 말합니다.[1] 무엇이 데이터를 빅데이터로 만드는가? 그것은 데이터의 크기 방대함 (volume), 종류의 다양함 (variety), 발생하는 속도 (velocity)에 의해 결정됩니다. 빅데이터가 뜨게 된 결정적인 이유는 Hadoop 의 등장 때문입니다. 대용량의 데이터에 대해 분산 저장하고 분산 처리하기 때문에, 과거처럼 사양이 높은 서버급 컴퓨터의 추가 증설없이 대용량 데이터를 처리할 수 있게되었습니다. 빅데이터 분석의 과정은 과거 전통적인 데이터 분석과 크게 다르지 않습니다. 데이터 분석의 라이프 사이클[2]은 아래와 같습니다. 이 과정 중 여전히 데이터를 전처리(preprocessing)하는데에 많



