일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 후한서
- 단군
- 낙랑군
- 신라
- 독사방여기요
- 우분투
- 창평
- 선형회귀분석
- R
- 한서
- spss
- 풍백
- 패수
- 한서지리지
- 통계
- 히스토그램
- 기자조선
- 기자
- 태그를 입력해 주세요.
- Histogram
- ANOVA
- 고구려
- categorical variable
- t test
- 통계학
- linear regression
- 지리지
- repeated measures ANOVA
- post hoc test
- 유주
- Today
- Total
목록과학과 기술/R 통계 (70)
獨斷論
결측값(missing values)이란 측정한 데이터 중에 몇몇 변수들의 값이 측정되지 못한 경우를 말한다. R에서는 이 변수값들은 보통 NA라고 표기한다. NA는 not available을 의미한다. 예를 들어 변수 y에 5개의 값 중에 1개가 결측값일때 > y is.na(y) [1] FALSE FALSE FALSE TRUE FALSE 결과값에서 TRUE인 원소가 결측값이 있는 것이다. 이제 좀더 실제 데이터와 비슷한 예를 들어보자. 참가자 8명에게 5가지 질문을 하여 1부터 10까지 대답하게 하였다고 가정한다면 > id q1 q2 q3 q4 q5 mydat mydat id q1 q2 q3 q4 q5 stringAsFactors 1 s1 10 7 9 8 3 FALSE 2 s2 3 NA NA 6 6 FA..
(Visual Studio를 이용할수도 있으니 비주얼스튜디오를 사용하기를 원한다면 http://dogmas.tistory.com/704를 참조하면 된다. ) 자신이 작성해야할 코드나 스크립트를 저장해 둘 필요가 있으므로 항상 console에 입력하는건 불가능하다.R editor(편집기)를 사용하면 자신이 작성한 script를 저장할수도 있고 한꺼번이 여러 줄을 코딩 후에 한꺼번에 실행 시킬수도 있다. File >> New script를 클릭한다. 아래와 같이 새로운 창이 뜨는데 여기에 자신이 코딩하고자하는 스크립트를 한줄씩 입력하면 된다. 그림이라서 잘 보이지는 않지만 뭐라고 입력한거냐면.. 지난주에 했던거다. 아래와 같다.그리고 여기서 #으로 표시한 후에 입력하는건 주석이다. 실행되지 않으며 자기 자신..
R은 자동적으로 업그레이드(upgrade)하는걸 지원하지 않는다. 더 귀찮은 것은 R을 업그레이드 했을때 이전에 설치했었던 패키지(package)를 다시 업그레이드 해줘야 하는데 어떤 사람은 이전 낮은 버전에서 설치해두었던 패키지를 다시 새 버전에도 똑같이 설치를 다시해줘야 하는지 궁금해 하는 사람들이 있다. 하지만 패키지를 새로 설치하지 않아도 된다. 이번에 R이 3.2.5에서 3.3.0으로 업그레이드 되었다. 우선적으로 해야할것은 R부터 업그레이드... 자동적인 업그레이드가 없으므로 제어판의 프로그램 및 기능으로 가서 기존 버전 R-3.2.3을 제거 한다.R 사이트로 가서 새로 나온 R-3.3.0을 내려받은 후에 설치한다. 다음으로 해야할것 R package 업데이트 R이 3.2.x에서 3.3.0으로..
data frame에 각 열마다 변수병이 들어가는데 요놈이 맘에 안들어 바꾸고자 할때 어떻게 해야할까? 우선 data frame을 만들어보자. 이건 앞서 통계 R 사용설명서 7 - 변수생성과 recoding에서 만들었던건데 mydat라는 변수에 데이터를 아직도 가지고 있다면 아래 script를 실행할 필요가 없다. > id date country gender age q1 q2 q3 q4 q5 mydat > mydat names(mydat) [1] "id" "date" "country" "gender" [5] "age" "q1" "q2" "q3" [9] "q4" "stringAsFactors" "age_category" Script로만 변수명 변경 names()라는 명령어는 data frame의 변수를 가..
R에서 사용되는 산술연산자와 논리연산자이다.특별한 예제가 필요없고 그냥 외우면 된다. 산술연산자 연산자 + 더하기 - 빼기 * 곱하기 / 나누기 ^ 또는 ** 거듭제곱 x %% y x를 y로 나눈 나머지 값 x %/% y 정수형 나눗셈. 7 %/% 3 하면 2가 나온다. 논리 연산자 연산자 = ~보다 크거나 같은 == 같은 != 같지 않은 !x x가 아닌 x | y x OR y x & y x AND Y isTRUE(x) x가 참인지 거짓인지 확인
data frame에 새로운 변수 만들어 넣기 데이터 형 가운데 data frame이 있다는건 앞서 다뤘고 여기서는 data frame안에 변수를 하나 더 만드는 방법을 알아보자. 만드는 방법은 그냥 연산을 해서 새로운 변수에 그 연산값을 입력하면 된다. 예를 들어 mydat1이라는 data frame에 이미 x1과 x2라는 변수가 존재할때 이들 두 값의 평균과 합을 새로운 변수로 만든다고 가정하면 아래와 같이 실행하면 된다. > x1 x2 mydat1 mydat1$ssum mydat1$mmean mydat1 x1 x2 ssum mmean 1 1 5 6 3 2 2 6 8 4 3 3 7 10 5 4 4 8 12 6 1과 2번 줄에서 x1과 x2에 값을 넣고 3번 줄에 이들 두 변수를 mydat1이라는 da..
R에서 그릴수 있는 간단한 그래프를 그리는 방법을 알아보자 산점도(scatter plot)과 선형회귀선 일단 아래 명령줄을 실행한다. 1 2 3 4 5 6 > str(cars) > attach(cars) > plot(speed, dist) > abline(lm(dist ~ speed)) > title("Regression of car speed and stopping distance") > detach(cars) cars라는 데이터는 내장된 것으로 자동차의 정지거리와 속도와의 관계를 나타낸 것이다. 3째 줄에서 cars$speed를 X축, cars$dist를 Y축으로 하여 산점도를 그렸다. 4번째 줄에서 dist = a * speed + b의 형식으로 하는 선형회귀선을 그렸다. 주의할 것은 plot에서 ..
앞서 벡터 행렬 배열을 했고 여기서는 좀더 복잡한 data frame과 리스트와 인자에 대해서 알아보자. 1. 데이터프레임형 변수, data frame 데이터프레임의 데이터 입력 행렬과 배열은 같은 형태의 데이터만 들어갈수있지만 data frame은 다른 종류의 데이터가 들어갈수 있다는 점이 다르다. 예를 들어 대학 졸업생들의 현재 취업과 사는 곳과 나이를 조사했다고 가정한다면 다음과 같은 형태의 데이터가 존재하게 된다. ID age location company 1 30 Seoul Samsung 2 24 Pusan Baeksu 3 28 Daejon LG 4 29 Yosu LG 5 27 Ulsan Hyundai 이제 위 데이터를 R에서 입력하면 다음과 같이 할수 있다. 1 2 3 4 5 6 7 8 9 1..