일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 선형회귀분석
- 창평
- spss
- 우분투
- 히스토그램
- linear regression
- repeated measures ANOVA
- 고구려
- 지리지
- 후한서
- 낙랑군
- Histogram
- t test
- categorical variable
- ANOVA
- 기자
- 풍백
- 유주
- 단군
- 기자조선
- 독사방여기요
- 태그를 입력해 주세요.
- 패수
- 신라
- post hoc test
- 한서지리지
- 통계학
- 통계
- R
- 한서
- Today
- Total
목록과학과 기술/SPSS (61)
獨斷論
분석하고자 하는 변수의 분포가 정규분포(normal distribution)를 따르지 않을 경우에 취하는 가장 쉬운 방법이 변수변환(variable transform)이다. 우선 아래 파일을 내려받고 첨부파일: 이 파일은 앞선 내용 즉 변수 recode (SPSS 사용설명서 4)에서 0인 변수를 결측값(missing values)으로 처리한 결과를 저장해 둔 파일이다. 아래 표는 변수들에 대해서 skewness와 kurtosis를 계산해 본 것인데 모두 큰 양수로서 이런 경우에는 일반적으로 정규분포를 따른다고 가정할수가 없다. 이럴때에는 log-transform을 사용하여야 한다. 변수를 log transform 실행하기 우선 메뉴에서 아래와 같이 클릭하면 윈도우가 하나 뜰 것인데 Transform > ..
데이터를 분석하기 전에 변수의 값들을 다른 값으로 대체해야 하는 경우가 발생하는데 이럴때 사용하는 것이 variable recode 또는 variable recoding이다. 예를들어, 통신 및 전화 가입자들이 지난 한달간 요금을 납부한 내역을 통계자료로 만들었고 아래와 같다고 가정해보자. 이때 변수의 많은 값들이 0을 가지고 있는데 이는 실제로 사용한 양이 0이 아니라 해당 서비스를 원래부터 이용하지 않으므로 0이라고 입력된 것이다. 따라서 이런경우 0인 변수의 값을 그대로 사용한다면 분석에서 오류를 만들수 있다. 이럴때는 0인 변수의 값을 결측값(missing values)로 처리해 주어야만 제대로 된 통계처리결과를 얻을수 있다. 참고로 SPSS에서 결측값(missing values)는 점(' . '..
앞서 Skewness와 Kurtosis와 히스토그램을 계산하고 그려보았는데 이에 대해서 조금 생각해보자. Skewness란 것은 데이터분포가 정규분포에서 얼마나 벗어나 한쪽으로 치우쳤는지를 이야기 해주는데Skewness가 양수이면 오른쪽으로 긴 꼬리를 가지고 있다는 의미이고Skewness가 음수이면 왼쪽으로 긴 꼬리를 가지고 있다는 의미이다. Skewness가 5.325이므로 이 분포는 오른쪽으로 긴 꼬리를 가지고 있게 된다.즉 위 그림을 보면 선으로 그려진 정규분포와는 달리오른쪽에 데이터가 많이 분포되어 있으므로 skewness가 양수로 계산되었다. 한편 kurtosis가 양의 값으로 크면 클수록 이 분포는 정규분포와 비교하여 높은 peak를 갖고 긴 tail를 갖는다는 것을 보여준다. 여기서 kurt..
히스토그램Histogram은 대개 scale data를 가지고 그리는데 scale data라는 우리가 보통 접하는 실수형 데이터를 의미하는 말이다. 즉 연속데이터를 말한다. 히스토그램을 그리기 위해서는 우선 메뉴에서 아래와 같이 클릭한다. Analyze > Descriptive Statistics > Frequencies... 그러면 아래와 같은 윈도우가 하나 뜨는데1) Reset을 눌러 이미 있던 variables를 지우고, Amount of last sale(sale)을 선택한 후에 화살표 같은 걸 클릭하여 variables로 옮겨 놓는다. 2) Statistics를 누르면 Frequencies: Statistics 창이 하나 뜨는데 여기서 보고자 하는 여러가지 것들을 체크하면 나중에 OUTPUT에 ..
데이터 분석을 하기 전에 각 변수에 대한 frequency를 알아보는 것이 중요하다. 각 변수의 frequency는 해당 변수가 어느 구간에 가장 많은 분포를 가지고 있는지 가늠할 수 있도록 해줄 뿐만 아니라 사용하고자 하는 통계분석법에 깔려 있는 기본적인 가정에 데이터가 부합하는지 점검이 가능해지도록 한다. 또한 통계분석을 하기 전에 frequency를 계산해 보면 각 변수가 outlier가 있는지도 알 수 있어 통계분석을 하는데 매우 도움이 된다. Nominal 데이터의 Bar 차트와 Pie 차트를 그려보자 우선 샘플파일이 있어야 하는데 자신이 가지고 있는 SPSS 프로그램에 샘플파일이 있으므로 그것을 이용하면 된다. 만약 없다면 아래 첨부파일을 내려받아 사용해보자. 첨부파일: 위 파일을 내려받은 후..
SPSS 사용법 - Factor Analysis 요인분석, 인자분석, 주성분분석 데이터의 변수가 너무 많고 복잡하여 한 눈에 데이터의 양상을 파악하기 어려울때 주로 사용할 수 있는 것은 principal compoent analysis(주성분분석, PCA)과 factor analysis(인자분석)인데 이 방법은 데이터의 변수를 선형조합을 이용하여 latent variable(잠재변수)로 만들어 데이터의 공분산형태를 잘 설명해 줄수있는 잠재변수만 선택하여 분석하는 것이다. 이렇게 하면 데이터가 아무리 복잡하더라도 잠재변수 몇 개만 가지고 분석 할수 있는 장점도 있지만 잘못하면 중요한 정보를 잃어버릴수도 있기때문에 주의를 요한다. Latent variable이 서로 orthogonal(직교)가 되도록 만들 ..
SPSS 사용법 - Discriminant Function Analysis 판별함수분석 Discriminant function analysis(판별함수분석, DFA)는 독립변수를 이용하여 categorical dependent variable(범주형종속변수)를 예측하는 통계분석이다. 즉, 데이터 각각의 측정값들이 어떤 범주에 속하는지를 판별 또는 분류하는 방법인데 특히 독립변수중에 어떤 변수가 범주형종속변수를 결정하는데 가장 큰 영향을 미치는지 볼수 있는 분석방법이다. 예를들어 어떤연구자가 고등학생들이 졸업후에 다음 두 가지를 선택한다고 가정해보자. 1) 대학진학 2) 취직 그리고 고등학생들의 진로를 예측하기 위하여 졸업생들에 대한 여러가지 데이터를 모았다고 가정해보자. 이때 판별함수분석을 이용하면 데이..
SPSS 사용법 - Repeated Measures ANOVA 2 반복측정분산분석 두번째 Repeated Measures ANOVA 1에서는 독립변수를 1개만 사용하여 알아보았지만 여기서는 독립변수를 2개를 사용하여 repeated measures ANOVA를 분석해 보기로 하자. 데이터는 앞서 repeated measures ANOVA 1에서 사용한 것을 똑같이 사용할 것이므로 앞서 사용한 SPSS파일을 불러 들인다(한편 여기서는 앞선 강좌에 독립변수 하나만 더 추가하는 것이므로 SPSS를 어떻게 쓰는지 그림으로 자세히 설명하지 않으므로 이해가 되지 않을 경우 앞선 강좌 Repeated Measures ANOVA 1를 먼저 참조하는 것이 좋다). 독립변수가 2개라 하더라도 1개인 경우와 똑같이 Anal..