일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 우분투
- t test
- R
- categorical variable
- 기자조선
- 신라
- 기자
- 한서지리지
- 유주
- 히스토그램
- 낙랑군
- linear regression
- post hoc test
- 선형회귀분석
- 고구려
- 풍백
- 후한서
- ANOVA
- 지리지
- 태그를 입력해 주세요.
- 통계학
- Histogram
- 통계
- 창평
- 한서
- 독사방여기요
- 패수
- spss
- 단군
- repeated measures ANOVA
- Today
- Total
목록과학과 기술 (233)
獨斷論
R에 기본데이터로 있는 state.x77을 가지고 분산공분산행렬(variance-covariance matrix)을 구하여보자. 분산공분산행렬은 간단히 공분산행렬(covariance matrix)이라고도 한다. 별 어렵지 않으니깐 아래 스크립트를 R console에 하나씩 입력하면 12345678910111213141516171819202122232425262728 > my.state.x77 head(my.state.x77) Population Income Illiteracy Life Exp Alabama 3615 3624 2.1 69.05 Alaska 365 6315 1.5 69.31 Arizona 2212 4530 1.8 70.55 Arkansas 2110 3378 1.9 70.66 Californi..
상관관계(correlation)이란 두 변수 사이에 선형관계가 어느정도 있는지를 보여주는 것인데 그 지표가 상관계수(correlation coefficient)이다. 절대값이 0과 1 사이의 값을 갖는데 0이면 선형관계가 없고 1이면 선형관계가 가장 큰것을 나타낸다. 상관계수를 구하는 함수는 cor()인데 이 함수를 이용하여 상관계수행렬(correlation coefficient matrix)도 구할수 있다. 상관계수 구하기 두 벡터 변수 사이에 상관계수를 구하려면 cor( )를 이용하는데 사용방법은 그냥 cor(x, y)하면 된다. 123456 > x y cor(x, y) [1] 0.8876614 > cor(x, y, method = "pearson") [1] 0.8876614 3번재 줄에 두 변수 사..
R에서 자신만의 사용자정의 함수를 만들어 사용할수 있다. 예를들어 함수의 첫번째와 두번째 인자(argument?)에 덧셈이나 뺄셈을 할 숫자를 넣고 세번째 인자가 1이면 덧셈을 실행하고 2이면 뺄셈을 실행하는 함수를 만들고자한다고 하자.쉽게 말해 mysum(x, y, z)라는 함수를 만들어서z가 1이면 x+y를 실행해서 그 값을 돌려주고z가 2이면 x-y를 실행해서 그 값을 돌려주는 함수를 작성한다는 것이다. R에서 함수의 형식 R에서 사용되는 함수의 형식은 아래와 같다. my_function_name a b c c [1] 15 > c c [1] 5 > c c
GNU R은 C나 FORTRAN같은 저급언어(나쁘다는 뜻의 저급이 아님 ㅋㅋ)와는 다르게 for, while, if else 등의 순환문이나 조건문 같은걸 많이 필요로 하지 않는다. 하지만 알아두면 언젠간 쓸일이 있으므로 잠시라도 훑어보는게 좋다. 아 그리고아래 예제같이 여러가지 문장을 한꺼번에 생각해서 처리해야하는 스크립트는 R console에 입력하여 연습하는 것보다는 R Editor에 입력하여 연습하는 것이 좋다. 물론 실전에서는 무조건 R Editor를 이용하는게 낫다. 순환문 흔히, 루프(loop)니 반복계산이라고도 한다. for 문 for( )문은 괄호 안에 변수를 몇번 반복할지 명시해준다.예를들면 아래와 같다(이 문장을 R Editor에서 입력하고 전체를 실행시키는 것이 편하다. Consol..
행렬의 열방향이나 행방향으로 어떤 함수를 적용하여 그 결과를 보고싶은 경우가 있다. 쉬운 예로 행렬에서 각 행의 평균을 구한다거나 각 열의 평균을 구하고 싶은 때에 apply()라는 함수를 이용한다. apply( )로 각 행과 열의 평균 구해보기 우선 예제에서 사용하고자 하는 행렬을 만들어보자. 1 2 3 4 5 6 7 > x x [,1] [,2] [,3] [,4] [,5] [1,] 1 5 9 13 17 [2,] 2 6 10 14 18 [3,] 3 7 11 15 19 [4,] 4 8 12 16 20 이 행렬에서 행방향으로 평균을 구하고자 한다면 아래와 같이 한다. 1 2 3 > mean_row mean_row [1] 9 10 11 12 9는 (1+5+9+13+17)/5의 값이다. 나머지도 만찬가지. 열방..
자주 사용하는 함수들을 정리해보았다. 수학함수 그냥 한번씩 R console에 입력해보면 뭔지 알것이다. 12345678910111213141516171819202122232425262728293031323334353637383940 > abs(-5.5) #절대값 [1] 5.5 > sqrt(100) # 요게 우리말로 뭐였더라.. 맨날 루트 루트 했는데 [1] 10 > ceiling(3.4) # 3.4보다 작지 않은 가장 큰 정수 [1] 4 > floor(3.5) # 3.5보다 크지 않은 가장 작은 정수 [1] 3 > trunc(1.9) # 소수점 이하 버림 [1] 1 > round(3.141592, digit=3) # 3째 자리로 반올림 [1] 3.142 > signif(3.141592, digit=3)..
데이터 행렬이나 데이터프레임에서 원하는 행과 열만 선택할때 subset()을 이용하면 편하다.쓰는 방법은 아래와 같다. subset(데이터변수, 행선택조건식, 열선택) 데이터 변수로는 행렬 벡터 데이터프레임 등이 사용될수 있고, 행선택조건식은 논리식을 사용하며, 열선택에는 select라는 옵션을 사용하게 된다. 어떻게 사용하는지 예를 들기위해 아래와 같은 데이터를 가정하고 12345678910 11121314151617 > id country gender age q1 q2 q3 q4 q5 mydat mydat id country gender age q1 q2 q3 q4 q5 stringAsFactors 1 1 Korea M 20 10 7 9 8 3 FALSE 2 2 Japan F 21 3 NA NA 6 ..
큰 데이터에서 특정 변수(열)나 특정 관측치(행, observation, subject)만을 선택하여 새로운 데이터를 생성하는 방법에 대해서 알아보자. 변수 선택 행렬이나 데이터프레임에 저장된 데이터 중에 몇개의 변수만 선택하는 방법은 다음과 같다. 일단 아래와 같이 생긴 데이터가 있다고 가정하고 1234567891011121314151617 > id q1 q2 q3 q4 q5 mydat mydat id q1 q2 q3 q4 q5 stringAsFactors 1 s1 10 7 9 8 3 FALSE 2 s2 3 NA NA 6 6 FALSE 3 s3 5 4 8 10 8 FALSE 4 s4 8 5 9 4 3 FALSE 5 s5 4 9 9 5 5 FALSE 6 s6 7 10 4 2 4 FALSE 7 s7 3 1..