<오늘 배운 것> 1. 데이터 처리 과정에서의 R의 역할 1. 데이터 처리 과정 – 5단계 과정과 정의1)문제 정의-데이터 마이닝-분석 방향 기획-방법론 검토:후보 아이템 히스토그램 시각화, 피어슨 상관 계수 기반 분석2)데이터 수집-수동 수집-직접 데이터 수집, 데이터 세트 구입(설문 조사, 관찰)-자동 수집:프로그래밍의 자동화(쿠로 링, 센서 기반)-데이터 파악:데이 타규마ー, 데이터 속성 값, 3)전 처리-흠측치 처리:missing value값이 없을 경우 처리-이상치 처리:error value, 잘못된 값 처리-속성 선별:분석에 필요한 속성만 선별하는 작업4)분석-통계 분석:통계학에 근거한 분석 법-시각화:히스토그램, box plot, 원그림 표, 그래프 5)결과 정리-분석 결과의 해석:통계, 시각화 자료를 토대로 가설을 세울지를 예측-리포트의 정리:데이터 처리 과정의 요약 및 분석 결과에 의거 주장-시위 시연 2.R의 역할-문제 정의를 제외한 모든 과정에서 사용 가능1) 문제정의 – 데이터마이닝 – 분석방향기획 – 방법론검토 : 후보 아이템 히스토그램 시각화, 피어슨 상관계수 기반 분석 2) 데이터 수집 – 수동 수집 : 직접 데이터 수집, 데이터 세트 구매 (설문조사, 관찰) – 자동 수집 : 프로그래밍을 통한 자동화 (크롤링, 센서 기반) – 데이터 파악 : 데이터 귀머, 데이터 속성값, 3) 전처리 – 결측치 처리 : missing value, 값이 없는 경우 처리 – 이상치 처리 : error value, 잘못된 값 처리 – 속성 선별 : 분석에필요한속성만을선별하는작업 4)분석 – 통계분석 : 통계학에 근거한 분석법 – 시각화 : 히스토그램, box plot, 원도표, 그래프 5) 결과 정리 – 분석결과 해석 : 통계, 시각화 자료를 기반으로 가설 수립 여부 예측 – 보고서 정리 : 데이터 처리 과정 요약 및 분석 결과에 따른 주장 – 데모 시연 2.R의 역할 – 문제 정의를 제외한 모든 과정에서 사용 가능3. project생성:오른쪽 위의 프로젝트 버튼->new project버튼->new directory버튼(프로젝트명을 써서 create project를 클릭)4. 유용한 환경 설정을 알아보고 1. 유용한 환경 설정-환경 설정 범위-global options:모든 프로젝트 2)Rstudio환경 내에서 실행되는 모든 프로젝트에 이용:각 프로젝트별로3. project 생성 : 우측 상단의 프로젝트 버튼 -> new project 버튼 -> new directory 버튼 (프로젝트명을 쓰고 create project 클릭) 4. 유용한 환경설정 알아보기 1. 유용한 환경설정 – 환경설정 범위 – global options : 모든 프로젝트 2) Rstudio 환경 내에서 실행되는 모든 프로젝트에 이용 : 각 프로젝트별로1)softwrap기능:자동 줄바꿈.1개의 코드가 길어지면 다음 행의 하이라이트 기능의 tools->global option->code->”soft-wrap R soruce file”클릭 2)line하이라이트:source창에서 선택된 행의 하이라이트 기능의 tools->global option->code->dieplay탭->”hilight selected line”클릭 3)글꼴 및 배경 설정:폰트 유형/사이즈의 변경, 다양한 배경 템플릿의 tools->-global opearpions-pions,배경 값 조정 4)텍스트 인코딩 방식의 설정:한국어가 깨져경우에 확인해야 하는 설정 tools->project options->code editing->text encoding->UTF-8로 변경 2. 유용한 단축 키-ctrl+s:저장-ctrl+shift+n: 새로운 소스 파일의 읽기-ctrl+shift+c:코드 주석화(범위를 지정하고 여러줄로 가능)-ctrl+1~9:화면, 창:2:plose윈도, 창:pl, 5개, 창,8:environment창)-ctrl+shift+enter:소스 코드 실행-ctrl+alt+k:모든 단축 키를 확인 5. 데이터 타입을 알아보고 1.데이터 타입-object, class 1)Object(객체)-R이 다룰 가장 기초적인 구조, 한국어의 “형태소”와 유사-데이터 값은 객체에 포함된다2)Class-객체의 타입-class확인:class()함수 사용(R은 데이터를 처리할 때 Class에 의해서 분류하고 기본적인 수치(2), Nicer(타입), 수치, 숫자를 나타내는 데이터 타입(실수)2)Integer-정수형 타입, 정수 값만을 나타내는 데이터 유형, 메모리 관리에 효율적 기본적으로는 numeric형으로 선언, integer에서 저장 시 값 뒤에 “L”기입 3)Logical-논리형 타입 정말 거짓말을 나타내는 데이터 유형, T/F, TRUE/FALSE의 2종류로 나타내는 4)Character-문자형 타입, 문자형 타입 또는 문자열을 나타내는 데이터형”/”으로 둘러다 5)Comp-Expection데이터형 데이터형-Extype-Exteger데이터, 실제 수치+허 수치 i의 형태로 표현 3.특별한 데이터 객체 1)Inf(Infinity)-무한으로 큰 값을 나타내는 데이터 객체, 일반적인 계산에 사용 가능, 1/0에서도 표현 2)Na(Not Available)-흠측치를 나타내는 데이터 객체, Na처리를 위한 다양한 함수 존재 3)NaN(Not a Number)-수치로 표현할 수 없는 값을 나타내는 데이터 객체-0/0/0에서 표현-흠측 값으로 처리되는 6.데이터 종류 1.실세계의 데이터 세트 데이터 세트 데이터 세트 데이터 세트모-매우 다양한 종류의 데이터 세트가 존재-데이터 양이 매우 많은 2.데이터의 종류1)차원-1차원 구조:단일 주제 데이터를 모은 구조-2차원 구조:복수의 테마 데이터를 모은 구조, 시각화에 최적-n차원 구조:n-1차원 데이터를 모은 구조2)구성-단일형:하나의 타입만으로 구성된 데이터 다중형:다양한 타입으로 구성된 데이터 3)값-범주형:데이터 값이 이산적, 논리 값 또는 문자로 표현산술 연산 불가능(수치이지도 계산적 의미 없음)-수형:데이터 값이 연속적 수치로 표현, 산술 연산 가능, 수형은 범주형도 표현 가능7.R자료 구조 1.R자료 구조4. 패키지 설치 확인 library()-package창 활용-설치되지 않은 패키지의 로딩 시 에러 리턴 5. 패키지 관련 함수 1)update.packages(“패키지 이름”):해당 패키지를 최신 버전으로 업데이트 2)update.pakages():모든 패키지를 업데이트 3)remove.packages(” 파는 지키이림”):해당 패키지를 삭제<Q&A>Q1. 벡터치는 하나의 자료형에서만 이뤄져야 한다고 이해했지만 c()에서 벡터를 생성할 때 안에 서로 다른 자료형이 들어와도 오류가 나오지 않는 이유 A1. 자동 자료형 변환에 의해서 입력하는 데이터 형태가 달라도 결과적으로는 동일한 자료형에 변환되어(가능한 데이터만)오류가 나오지 않는다.Q2. class(TRUE)를 입력하면 결과적으로 “logical”이 나오는데 a라는 변수에 TRUE을 할당한 뒤(a<-TRUE)b<-class(a)을 하면 class(b)이 “character”이 나오고, c<-print(a)을 하면 class(c)이 “logical”이 나온다.위의 논리의 차이점은 무엇인가?A2. class(a)의 결과치는 “logical”이다.class(a)의 결과 값을 b에 할당하는 것이며, 이것은 character형이어서 classI(b)은 출력시에 “character”이 나온다.<오늘 잘 한 점>오늘은 지난주 나를 반성하면서 정말 졸려도 극복하고 집중해서 강의를 들은 것 같다.사실 R가 학창 시절에 들어 본 과목이고, 내용이 어려운 부분이 없는 분이라 그런지도 모른다.ww<앞으로 개선해야 할 점&더 공부해야 할 부분>아무리 배웠다고 해도 거의 5년이 지나고;잘 생각나지 않는 부분이 많았다.그것과 비슷하지만 다른 SAS가 아직 머릿속에 남아 있어 더 그렇다고 생각한다.아직 대학 강의 자료가 남아 있어 잠시 보며 예습을 사전에 하지 않으면!