일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 한서지리지
- 풍백
- post hoc test
- 통계
- linear regression
- ANOVA
- 패수
- 고구려
- 태그를 입력해 주세요.
- 후한서
- t test
- 지리지
- 한서
- 유주
- Histogram
- repeated measures ANOVA
- 낙랑군
- 신라
- 통계학
- 창평
- R
- 기자조선
- 히스토그램
- spss
- 독사방여기요
- 단군
- categorical variable
- 선형회귀분석
- 우분투
- 기자
- Today
- Total
목록과학과 기술 (233)
獨斷論
SAS로 데이터를 불어들일때 데이터 파일을 읽어들이는 방법과 SAS 코드 안에 직접 입력하는 방법이 있다. 1. SAS 코드에 데이터 입력 일단 아래 코드를 입력하고 실행한다. DATA mydata; INPUT subj 1-4 gender 6 height 8-9 weight 11-13; DATALINES; 1024 1 65 125 1167 1 68 140 1168 2 68 190 1201 2 72 190 1302 1 63 115 ; RUN; PROC PRINT data=mydata; TITLE 'Output dataset: mydata'; RUN; 첫째줄: DATA mydat는 mydata라는 이름의 데이터를 만들겠다는 뜻이고 둘째줄: INPUT 키워드 뒤로 데이터에 들어가는 변수명이 주어졌는데 여기서는..
SAS statement의 기본 규칙 모든 SAS statement는 세미콜론( ; )으로 끝난다. SAS statement는 SAS keyword로 시작한다. 예를들어 data, proc, run과 같은 키워드로 시작하여야만 한다. 세미콜론으로 statement의 끝을 구분하므로 statement 중간에 엔터를 쳐서 줄을 바꿀수도 있다. 하지만 키워드나 변수 등등의 중간에 엔터를 넣어서는 안된다. 대문자와 소문자를 구별하지 않는다. 그러나 따옴표 안의 문자들은 대소문자를 구별한다. 여러줄 주석은 슬래쉬와 별표(예를들어 /* 주석 */)를 이용하거나 한줄짜리 주석은 별표와 세미콜론(예를들어 * 주석 ;)를 이용한다. 변수명과 데이터명 변수명과 데이터명을 지을때 문자의 갯수는 1~32개여야만 한다. 꼭 문..
베이즈추론(Bayesian inference)를 prior가 확률함수로 주어졌을때 몇가지 경우에 한하여 해석적인 해를 구할수 있다. 이항분포(Bionomial distribution)함수는 $$ f(y | \pi) = \left(\begin{array}{c}n\\ y\end{array}\right) \pi^y \left( 1- \pi \right)^{n-y} $$ 여기서 y = 1, 2, 3, ..., n 이며 한번 시행할 확률 $\pi$는 고정값이다. 같은 이항분포이지만 y는 고정되어 있고 $\pi$가 변함에 따라서 확률값을 계산한다면 이는 likelihood가 된다. $$ f(y | \pi) = \left(\begin{array}{c}n\\ y\end{array}\right) \pi^y \left( ..
Likelihood가 poisson 분포를 따를때 베이즈확률표를 구해보도록한다. 어떤 사건이 (단위 시간, 면적, 길이, 또는 부피 당) 발생횟수의 평균값이 $\lambda$라고 알려져있을때 이 사건이 y번 발생할 확률은 아래와 같다. $$p(y | \, \lambda) = \frac{ e^{-\lambda} \lambda^y}{y!}$$ 예를들어 어떤 사건이 발생할 횟수의 평균값이 1.0, 1.5, 2.0, 2.5이고 이 각각의 사건이 발생할 prior 확률이 1/6, 1/3, 1/3, 1/6이라고 알려져있을때, 이 사건이 2번 발생한것이 관측되었다면 평균발생횟수 1.0, 1.5, 2.0, 2.5 중에 가장 큰 posterior 확률을 갖는 값은 무엇인지 알아보자. $\lambda$ prior like..
Likelihood가 binomial 분포를 따를때 베이즈확률표를 계산해보도록 한다. 한번 수행할때 $\pi$의 성공확률이 있는 시행을 N번 수행했을때 y번 성공할 확률은 $binomial(n, $pi)$를 따르는데 이를 Bayesian으로 나타내면 $$p(y | \, \pi) = \left(\begin{array}{c}N\\ y\end{array}\right) \pi^y (1-\pi)^{N-y}$$ 이다. 예를들어, 한번 수행했을때의 성공확률 $\pi$가 0.4, 0.5, 0.6인 시행이 있다고 가정하자(실제로는 무한대의 $\pi$가 존재하지만 여기서는 문제를 간략히 하기 위하여 0.4, 0.5, 0.6만 존재한다고 가정하였다). 이 시행을 N=4번 수행할때 y=3번 성공했다면 $\pi$의 값 0.4,..
베이즈 확률표 Bayesian probability table에 이어서 공을 하나 더 꺼냈을때 파란공이 나왔다고 가정하자. 즉, 공이 5개 들은 주머니에서 공을 1개 꺼냈을때 빨간공이고, 이 빨간공을 다시 주머니에 넣지 않고 공을 1개 더 꺼냈을때 파란공이 나왔다고 가정하면.. 아래 두가지 방법으로 문제를 풀수 있다. 방법1: 파란공을 꺼낸 사건만 이용하여 likelihood를 계산하고 prior는 빨간공만 꺼냈을때 posterior를 prior로 이용. 방법2: 빨간공을 꺼내고 파란공을 꺼낸 사건을 이용하여 likelihood를 계산하고 prior는 1/6을 사용. 방법1 빨간공을 꺼낸 사건을 D1, 파란공을 꺼낸 사건을 D2라고 하면 $p(\theta | D1)$이 이번 문제의 prior가 된다. 즉..
베이즈Bayesian 분석방법에서는 구하고자하는 parameter에 불확실성이 있다고 보지만, frequentist의 전통적인 통계분석방법에서는 이 parameter는 고정되어있지만 알려지지 않은 값이라고 본다. Parameter를 구하기 위하여 전통적인 통계분석방법에서는 sampling을 (무한히) 반복한 sampling distribution의 평균과 표준편차 등의 분포를 미리 구해놓고 p값을 구하여 통계분석을 하지만 Bayesian에서는 구하고자 하는 parameter들의 모든 가능한 값에 대한 확률을 모두 구하여 가장 큰 확률을 갖는 parameter를 찾는다. 주머니 안에 빨간공과 파란공이 들어있지만 빨간공의 갯수와 파란공의 갯수를 모르지만 총 공의 갯수는 5개라고 가정하자. 이제 주머니 안에서..
1. 데이터 고혈압 환자들에게 3가지 처치를 하였을때 혈압을 측정하였다. treat1에서는 약을 3가지 종류로 주었고(Drug I, J, K) treat2에서는 biofeedback를 사용하였으며(Present, Absent) treat3에서는 diet에 변화를 주었다(Yes, No) 3 x 2 x 2 ANOVA가 된다. 측정된 데이터의 형태는 위와 같은데 이를 통계분석을 위하여 각 변수를 열로 놓고 observations를 행으로 놓아 변형하면 아래 데이터파일과 같다. 위 파일의 데이터를 아래와 같이 SAS에서 불러들인다. cell이라는 새로운 변수를 만들어 factor변수를 한데 합치었다. ||는 concatenation 명령이다. data hyperdat; infile "d:\tmp\hyper.cs..