R Mid-term
setwd(), getwd()
1 | setwd("C:/Users/SW05/Downloads") |
summary(), str()
1 | > summary(air) |
Data 취사 선택
indexing - []
1 | name[which(조건식),c('name1','name2',...)] |
1 | > Cars93[which(MPG.city>30),c('Model','Origin')] |
subset(select=, subset=)
1 | subset(name,select=c(name1,name2,...),subset=(조건식)) |
1 | > subset(Cars93,select=Model,subset=(MPG.city>30)) |
sort(), order()
1 | > Temp |
- indexing 안에
order()
read.table(), read.csv()
.txt
를 열어서 Data 확인
1 | text1=read.table('Data.txt',header=T,na.strings='.') |
- 결측값 처리 -
na.strings='.'
- 문자형 변수
factor
로 읽게 -header=T
factor()
- 성별이 1, 2로 되어 있으면 factor로 변환
1 | > a=read.table('women.txt') |
labels
활용
1 | > a=read.table('women.txt') |
Data handling - rbind(case 추가) / cbind(변수 추가)
- 하나는 .txt 하나는 .csv 어떻게 붙일지 판단하고 Data 병합
1 | > data1=read.table('women.txt',header=T) |
변수계산
- exp(), log(), sqrt(), 사칙연산
head(), tail()
1 | > head(airquality) |
코딩변경 - 논리연산, cut()
1 | factor(name,labels=c(...)) |
1 | > x = c(80, 88, 90, 93, 95, 94, 99, 78, 65) |
제어문 - for, while, if~else if, ifelse(결과 단 2개)
for
1 | for(i in num){ |
while
1 | while(i<=num){ |
if
1 | if(case1){ |
if else
1 | if(x<y) x else y |
사용자정의함수, return()
1 | name=function(par1,par2,...){ |
1 | skew=function(x){ |
기술통계학
자료 요약 및 정리 : 표(도수분포표)와 그래프()
범주형 - 도수분포표(빈도를 그래프로 할 수 있긴 함)
수치형 - 기술통계량(분포의 특성)
- 대표값(중심위치)
- 산술평균
- 중위수
- 최빈수(보통 범주형에서 사용, 수치형에선 이산형에서 가끔)
- 산포도(흩어진 정도)
- 표준편차(기존단위가 같음)
- 분산(단위^2)
- 변이(변동)계수(CV) :
sd()/mean()
- 사분위수범위(Q3-Q1) :
boxplot()
,IQR()
- 비대칭도
- 왜도
- 대표값(중심위치)
오류데이터 찾기
- 최소값
- 최대값
- 도수분포표
summary()
관련된 변수 2개
- 수치형 2개 :
cor(name1,name2)
- 범주형 2개 : 교차표(분할표)
- 수치형 2개 :
외부파일 읽기(
.txt
) -read.table()
/read.csv()
-str()
-summary()
- Data 여러개 - Data handling
- 병합
rbind
- 행(Case) 추가cbind
- 열(변수) 추가
- 새로운 변수 생성
- 변수계산 : 기존 변수를 가지고 계산을 통해 새로운 변수 생성
- 코딩변경 : 기존 변수를 가지고 새로운 변수 생성(Ex. 학점 예제) - 보통 범주형
- 데이터 취사선택 :
indexing - []
,subset()
- 정렬 :
sort()
,order()
- 병합
- Data 여러개 - Data handling
Slicing :
substr()
NA :
mean(name,na.rm=T)
출력 :
cat()
,sink()
,pdf()
,dev.off()
연산자, 제어문(반복문, 조건문), 함수
단위계산은
*
,/
만 계산
변동계수
- 평균의 차가 많은 집단끼리의 산포도 비교시 사용
- 단위가 다른 변수에 대한 산포도 비교 - 무차원수
- 극심한 비대칭일때 사용
Etc.
- 한 사람이나 한 개체의 데이터는 한 행으로 표시해야 한다
- 범주형, 문자형 : factor
- 수치형 : 정수(int), 실수(num)
- 함수 : 내장 함수(R에 내장된 대부분의 함수명은 소문자), 외장 함수(사용자정의함수)
- boxplot(), hist()
- attach()
- 조건 : 산술연산자, 비교연산자, 논리연산자 - ^ 제일 우선 () 활용으로 우선 순위 만들기
- 시험지 안에 정보 다 있음 / read.table()과 비교
- cbind() == data.frame() 상관 없음
- 새로운 변수 생성 : 변수계산, 코딩변경
- return() 2개는 전역변수 or c()
- 왜도, 첨도 : 3, 4 승 n-1로 함수
- switch() - X
- sample(), substr(), IQR(), abs(), signif(), dim(), ncol(), nrow(), seq(), rep(), sink(), pdf()~dev.off()
- 프 / 결 - 프로그램 / 결과 : 결과가 없을 수도 있음 - 수기로 작성, 다 프로그램
- 기말은 서술도 나옴