일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 단군
- 우분투
- 신라
- 기자
- 유주
- 히스토그램
- 패수
- 고구려
- 후한서
- 지리지
- 창평
- R
- 통계학
- 선형회귀분석
- Histogram
- 독사방여기요
- ANOVA
- 풍백
- repeated measures ANOVA
- 통계
- 한서
- t test
- 한서지리지
- spss
- categorical variable
- 태그를 입력해 주세요.
- 낙랑군
- 기자조선
- post hoc test
- linear regression
- Today
- Total
목록과학과 기술/통계이론설명 (31)
獨斷論
Likelihood가 poisson 분포를 따를때 베이즈확률표를 구해보도록한다. 어떤 사건이 (단위 시간, 면적, 길이, 또는 부피 당) 발생횟수의 평균값이 $\lambda$라고 알려져있을때 이 사건이 y번 발생할 확률은 아래와 같다. $$p(y | \, \lambda) = \frac{ e^{-\lambda} \lambda^y}{y!}$$ 예를들어 어떤 사건이 발생할 횟수의 평균값이 1.0, 1.5, 2.0, 2.5이고 이 각각의 사건이 발생할 prior 확률이 1/6, 1/3, 1/3, 1/6이라고 알려져있을때, 이 사건이 2번 발생한것이 관측되었다면 평균발생횟수 1.0, 1.5, 2.0, 2.5 중에 가장 큰 posterior 확률을 갖는 값은 무엇인지 알아보자. $\lambda$ prior like..
Likelihood가 binomial 분포를 따를때 베이즈확률표를 계산해보도록 한다. 한번 수행할때 $\pi$의 성공확률이 있는 시행을 N번 수행했을때 y번 성공할 확률은 $binomial(n, $pi)$를 따르는데 이를 Bayesian으로 나타내면 $$p(y | \, \pi) = \left(\begin{array}{c}N\\ y\end{array}\right) \pi^y (1-\pi)^{N-y}$$ 이다. 예를들어, 한번 수행했을때의 성공확률 $\pi$가 0.4, 0.5, 0.6인 시행이 있다고 가정하자(실제로는 무한대의 $\pi$가 존재하지만 여기서는 문제를 간략히 하기 위하여 0.4, 0.5, 0.6만 존재한다고 가정하였다). 이 시행을 N=4번 수행할때 y=3번 성공했다면 $\pi$의 값 0.4,..
베이즈 확률표 Bayesian probability table에 이어서 공을 하나 더 꺼냈을때 파란공이 나왔다고 가정하자. 즉, 공이 5개 들은 주머니에서 공을 1개 꺼냈을때 빨간공이고, 이 빨간공을 다시 주머니에 넣지 않고 공을 1개 더 꺼냈을때 파란공이 나왔다고 가정하면.. 아래 두가지 방법으로 문제를 풀수 있다. 방법1: 파란공을 꺼낸 사건만 이용하여 likelihood를 계산하고 prior는 빨간공만 꺼냈을때 posterior를 prior로 이용. 방법2: 빨간공을 꺼내고 파란공을 꺼낸 사건을 이용하여 likelihood를 계산하고 prior는 1/6을 사용. 방법1 빨간공을 꺼낸 사건을 D1, 파란공을 꺼낸 사건을 D2라고 하면 $p(\theta | D1)$이 이번 문제의 prior가 된다. 즉..
베이즈Bayesian 분석방법에서는 구하고자하는 parameter에 불확실성이 있다고 보지만, frequentist의 전통적인 통계분석방법에서는 이 parameter는 고정되어있지만 알려지지 않은 값이라고 본다. Parameter를 구하기 위하여 전통적인 통계분석방법에서는 sampling을 (무한히) 반복한 sampling distribution의 평균과 표준편차 등의 분포를 미리 구해놓고 p값을 구하여 통계분석을 하지만 Bayesian에서는 구하고자 하는 parameter들의 모든 가능한 값에 대한 확률을 모두 구하여 가장 큰 확률을 갖는 parameter를 찾는다. 주머니 안에 빨간공과 파란공이 들어있지만 빨간공의 갯수와 파란공의 갯수를 모르지만 총 공의 갯수는 5개라고 가정하자. 이제 주머니 안에서..
rare disease bayesian probability구하는데 기호가 하두 이상하여 따로 정리해보았다
Logistic Regression에 대한 간단한 설명 Linear regression은 종속변수가 일정한 양을 나타낼 경우가 대부분이지만 종속변수가 0과 1만을 갖는 변수일때에는 logistic regression을 사용하는 것이 좋다. 예를들면, 어떤 대학교 법과대학을 졸업한 학생을 대상으로 학점, 재산, 나이, 사법고시 합격 여부를 조사한다면 학점과 재산과 나이는 일정한 양을 나타내지만 사법고시 합격 여부는 합격은 1로 나타내고 불합격은 0으로 나타내는 binary variable이 된다. 다음과 같은 선형 모델을 생각해보자. 여기서 Y는 0과 1만을 갖는 종속변수이고, x는 독립변수이며, e는 에러를 나타낸다. Y가 Bernoulli random variable이고 확률은 다음과 같다고 가정해보자..
범주형변수의 Pearson Chi 제곱 검정법 Pearson's Chi-Squared Test for Categorical Variables Categorical variables(범주형 변수)을 사용하여 수집된 데이터를 분석하는데에는 contingency table(분할표)이 아주 유용하다. 예를 들어 아래와 같이 각 성별에 따른 정치성향을 수집하였다고 하면 contingency table을 이용하여 그 결과를 표시할수 있다. 표 1. 각 성별에 따른 정치성향 성별 정치성향 총합 민주당 지지정당없음 새누리당 여성 573 516 422 1511 남성 386 475 399 1260 총합 959 991 821 2771 한편 위 표1의 데이터를 백분율로 표시할 수도 있다. 표2. 각 성별에 따른 정치성향(백분..