일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Histogram
- 패수
- 통계
- 단군
- 풍백
- ANOVA
- 태그를 입력해 주세요.
- repeated measures ANOVA
- 후한서
- 기자조선
- R
- 유주
- 창평
- 고구려
- 기자
- 한서지리지
- 선형회귀분석
- 지리지
- spss
- t test
- linear regression
- 낙랑군
- post hoc test
- categorical variable
- 히스토그램
- 통계학
- 한서
- 신라
- 독사방여기요
- 우분투
- Today
- Total
목록과학과 기술 (233)
獨斷論
Poweliks라는 컴퓨터 바이러스가 외국에서 극성을 부린다. 웬만한 유료 및 무료 안티바이러스로는 잡히지도 않고 치료도 되지 않는다. 카스퍼스키도 안되고 노턴도 안되고 비트디펜더도 안되고 그 허접한 V3는 당연히 안됨... 문제는 이놈의 바이러스는 파일 자체가 없다는거.. 어떻게 전염되는지도 알수 없다... Poweliks는 윈도우 레지스트리(registry)에 코드를 심어넣어 무수히 많은 dllhost.exe를 실행시키도록 하여 CPU 사용량이 100%가 되게 만들어 컴퓨터를 무용지물이 되게한다. 그렇다면 regedit.exe로 레지스트리를 편집하면 되겠네라고 물을지도 모르지만 심어넣은 레지시트리가 ASCII코드가 아니라 편집자체가 불가능하다. 왜그런지 모르겠지만 윈도우 레지스트리는 ASCII 코드가..
SPSS에서는 변수 두 개의 히스토그램을 하나의 그래프에 그리는 것은 좀 어렵다. 일반적으로 사용하는 GUI 메뉴 클릭으로는 안되고 SYNTAX를 사용해야 한다. 아래와 같이 하면 됨 데이터가 들어있는 sheet의 이름이 기본적으로 DataSet0라고 가정하고 변수는 두개 ... salary와 salbegin... * Chart Builder. GGRAPH /GRAPHDATASET NAME="DataSet0" VARIABLES=salary salbegin MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=INLINE. BEGIN GPL SOURCE: s=userSource(id("DataSet0")) DATA: salary=col(source(s), name("..
Box plot에 대해서 좀더 알아보자. Box plot은 또한 box and whisker plot이라고도 부른다. 대체적으로 위와 같이 생겼는데 하나씩 알아보면 중앙값(median, 2rd quartile, 50th percentile)은 박스 안에 있는 굵은 선이다. Hinges 또는 박스의 위와 아래 경계선: 박스의 아래쪽 경계선은 25th percentile 또는 1st quartile이 되는 지점이고 박스의 위쪽 경계선은 75th percentile 또는 3rd quartile이 되는 지점이다. Whisker는 이상치(outlier, 극단치)를 제외한 최대와 최소값까지를 말한다. 위 그림에서는 수직으로 점선이 그려져 있는데 이것이 whisker이며 이상치를 제외한 최대값과 최소값에 각각 수평으..
아래 첨부파일을 다운 받는다. 이것은 앞서 실행한 log transform의 결과를 저장한 것이다. 첨부파일: 첨부파일: z score를 계산하기 위 첨부파일을 SPSS에서 연 후에 아래 메뉴를 클릭한다. Analyze > Descriptive Statistics > Descriptives... z scores를 계산하고자 하는 변수를 모두 Variables로 이동시킨다. Save standardized values as variables 앞에 있는 네모난 박스를 클릭하여 z scores를 저장할수 있도록 한다. OK를 클릭한다. 만약 skewness나 kurtosis를 보고자 한다면 3번을 실행하기 전에 Options를 눌러 skewness나 kurtosis를 클릭하여 체크박스를 활성화시키면 된다. 위..
분석하고자 하는 변수의 분포가 정규분포(normal distribution)를 따르지 않을 경우에 취하는 가장 쉬운 방법이 변수변환(variable transform)이다. 우선 아래 파일을 내려받고 첨부파일: 이 파일은 앞선 내용 즉 변수 recode (SPSS 사용설명서 4)에서 0인 변수를 결측값(missing values)으로 처리한 결과를 저장해 둔 파일이다. 아래 표는 변수들에 대해서 skewness와 kurtosis를 계산해 본 것인데 모두 큰 양수로서 이런 경우에는 일반적으로 정규분포를 따른다고 가정할수가 없다. 이럴때에는 log-transform을 사용하여야 한다. 변수를 log transform 실행하기 우선 메뉴에서 아래와 같이 클릭하면 윈도우가 하나 뜰 것인데 Transform > ..
데이터를 분석하기 전에 변수의 값들을 다른 값으로 대체해야 하는 경우가 발생하는데 이럴때 사용하는 것이 variable recode 또는 variable recoding이다. 예를들어, 통신 및 전화 가입자들이 지난 한달간 요금을 납부한 내역을 통계자료로 만들었고 아래와 같다고 가정해보자. 이때 변수의 많은 값들이 0을 가지고 있는데 이는 실제로 사용한 양이 0이 아니라 해당 서비스를 원래부터 이용하지 않으므로 0이라고 입력된 것이다. 따라서 이런경우 0인 변수의 값을 그대로 사용한다면 분석에서 오류를 만들수 있다. 이럴때는 0인 변수의 값을 결측값(missing values)로 처리해 주어야만 제대로 된 통계처리결과를 얻을수 있다. 참고로 SPSS에서 결측값(missing values)는 점(' . '..
앞서 Skewness와 Kurtosis와 히스토그램을 계산하고 그려보았는데 이에 대해서 조금 생각해보자. Skewness란 것은 데이터분포가 정규분포에서 얼마나 벗어나 한쪽으로 치우쳤는지를 이야기 해주는데Skewness가 양수이면 오른쪽으로 긴 꼬리를 가지고 있다는 의미이고Skewness가 음수이면 왼쪽으로 긴 꼬리를 가지고 있다는 의미이다. Skewness가 5.325이므로 이 분포는 오른쪽으로 긴 꼬리를 가지고 있게 된다.즉 위 그림을 보면 선으로 그려진 정규분포와는 달리오른쪽에 데이터가 많이 분포되어 있으므로 skewness가 양수로 계산되었다. 한편 kurtosis가 양의 값으로 크면 클수록 이 분포는 정규분포와 비교하여 높은 peak를 갖고 긴 tail를 갖는다는 것을 보여준다. 여기서 kurt..
히스토그램Histogram은 대개 scale data를 가지고 그리는데 scale data라는 우리가 보통 접하는 실수형 데이터를 의미하는 말이다. 즉 연속데이터를 말한다. 히스토그램을 그리기 위해서는 우선 메뉴에서 아래와 같이 클릭한다. Analyze > Descriptive Statistics > Frequencies... 그러면 아래와 같은 윈도우가 하나 뜨는데1) Reset을 눌러 이미 있던 variables를 지우고, Amount of last sale(sale)을 선택한 후에 화살표 같은 걸 클릭하여 variables로 옮겨 놓는다. 2) Statistics를 누르면 Frequencies: Statistics 창이 하나 뜨는데 여기서 보고자 하는 여러가지 것들을 체크하면 나중에 OUTPUT에 ..