티스토리 뷰
* 대단한건 아니고 책과 인터넷과 공부를 통해 얻은 지식을 여기에 쓰고자한다
지금 어설프게 내딛는 한발이 후에 위대한 발걸음이 되기를!
1. 통계학개론
@ 대학재학중에 SPSS 를 배우던도중 나온 이론이다 미리 숙지하고 넘어가는것
나쁘지않을것같다
*통계학의 용어
- 모집단 : 연구자의 관심의 대상이 되는 데이타 전체집합
- 표본 : 모집단에서 연구의 대상으로 채택된 일부
- 모수 : 모집단의 특성을 수치로 나타낸것
- 통계량 : 표본의 특성을 수치로 나타낸것
* 표본오차
측정방법 측정값
모집단 - 전체 - 전수조사 - 모수
- 일부 -표본조사 - 통계량
전수조사 : 모집단 전체를 대상으로부터 자료를 얻어내는 방법
표본조사 : 모집단의 일부를 대상으로 조사하는 방법
* 변수의 종류
- 질적변수 : 변수의 특성이 범주로써 나타내는 변수
- 양적변수 : 변수의 특성이 수치로써 나타나는 변수
- 독립변수 : 다른 변수에 영향을 주는 원인변수
- 종속변수: 다른 변수에 의해 영향을 받는 결과변수
===================================================================================
* 척도의 종류
자료를 얻기위해서는 관찰대상의 설질을 잘 파악해서 수치로 나타내주어야한다
이를 측정이라하고 측정을 하기위해서 사용한 측정도구를 척도하고 한다
- 명목척도, 서열척도, 등간척도, 비율척도, 서스턴 척도, 거트만 척도
! 각각의 척도에 대한 이미지는 올리지못했으니 찾아서 보기바람
* 명목척도
- 측정대상의 특성을 분류하거나 확인하는데 목적이 있는 변수
- 단지 몇 개의 범주로 구분하는 데 의미가 있으며 양적인 크기를 나타내지는 않는다
예) 성별 , 혈액형 , 직업구분, 학력등
* 서열척도
- 측정대상을 몇 개의 범주로 구분할 뿐만 아니라 그 범주들 사이에 순서관계가 성립하는경우
- 변수들의 부등식의 표현은 가능하지만 산술 연산은 못함
예) 좋아하는 과목순서, 좋아하는 교수님 순서
*등간척도
- 측정대상의 양적인 차이를 나타내주는 변수로서 절대영점이 존재하지는 않지만 균일한 간격을 두고 분할하여 측정하는 척도
예) 설문지의 설문문항, 온도 , 아이큐지수, 급여
- 리커르트 척도법이라고도 한다
*비율척도
- 측정대상의 양적인 차이를 나타내주는 변수로서 절대 영점이 존재하는 변수
-예) 시험점수, 스트레스 점수, 키, 몸무게, 자기효능 등
* 서스턴 척도
- 개념에 대한 태도를 측정하는 문항에 대한 척도화의 방법
- 해당 문항에 동의를 하면 동의한 해당 문항의 척도값을 얻게됨
- 척도값을 합산하고 평균하여 해당 개념에 대한 측정값으로 사용
* 거트만 척도
- 여러개의 문항들이 하나의 동일 차원을 지니고 있는가를 확인하려는 목적으로 사용되는 척도법
- 상위의 척도점이 하위의 척도점에 해당하는 특성을 포함하고 있는 척도이기 때문에 누적척도라고도 한다
===================================================================================
*평균
- 산술평균
일반적으로 평균 - 산술평균을 의마한다
집중화 경향의 측도로서 가장많이 사용, 수치적 자료에만 사용
- 모평균
- 표본평균
표본의 평균
가장큰단점 : 다른 대부분의 관측치보다 아주크거나 작은 이상치가 있을때 평균은 이상치의 영향을 받는다
- 중앙값
자료의 크기를 순서대로 나열하였을때 가장 중앙에 놓이게 되는값
자료의 수가 N인경우 홀수이면 (N+1)/2 번째 관측치가 중앙값
짝수일때 가운데 위치하는 관측치는 없으므로 2/N 번째와 (N+1)+1 번째 관측치의 평균이 중앙값
- 최빈값
자료중에서 가장자누 나오는 관측치
빈도가 가장높은 관측치
한 집단의 대표값을 간편하고 빠르게 찾아낼수 있지만 자료의 분포가 대칭에 가깝지 않을때에는 신뢰할만한 대표값이 되지못한다
- 왜도
자료의 분포형태가 대칭적인 형태에서 어느정도 벗어났는가를 측정하는 것으로 분포의 기울어진 정도를 나타낸다
완전한 좌우대칭 분포인 정규분포의 왜도는 0이다
- 첨도
분포의 평평한 정도 또는 뾰족한 정도를 나타내는 측도로서 관측치들이 중앙에 모여있는 지를 알아볼수있는 측도이다 정규분포의 첨도값은 0이다
* 조건부 확률
- 어떤 사상이 발생한 후에 어떤 다른 사상이 발생할 확률을 알고싶은 경우 사용
* 베이즈의 정리
- 주어진 사전확률을 이용하여 개선된 사후확률을 구하는데 이용
* 공분산과 상관계수
- 공분산 : 두 확률변수 x와 y가 동시에 변하는 정도의 측도
- 상관계수 : 단위와 관계없이 두 확률변수간에 관계를 수치로 나타낸것
* 베르누이 시행
- 특정실험을 반복시행하는데 실험의 결과가 두가지로만 나오는 경우
- 베르누이 시행을 반복할때 성공의 횟수를 이항확률변수라고 한다
- 성공의 횟수의 분포를 이항분포라고 한다
* 이항확률변수와 이항분포
- 반복되는 n번의 베르누이 시행에서 성공횟수x를 이항확률변수라하고 확률변수 X가 갖는값 x에 대한 확률을 P(X=x) 라 한다
* 포아송분포
- 일정한 시간이나 단위공간에서 임의로 발생하는 사건의 발생횟수에 관련되는 분포이다
= 일정한 단위시간내 발생하는 사건은 서로 통계적 독립성을 갖는다
일정한 단위시간내의 사건의 발생확률은 동일하다
아주작은 단위시간내에서 두개 이상의 사건이 일어날 가능성은 매우희박하다
단위시간당 사건의 발생확률은 단위시간의 길이에 비례한다
'프로그래밍언어 > R ' 카테고리의 다른 글
20130912 R스터디 (0) | 2013.09.12 |
---|---|
2013/09/11 R 스터디 (0) | 2013.09.11 |
참고자료 (0) | 2013.09.10 |
2013/09/08 R 에서 외부링크로 데이터 불러오기 (0) | 2013.09.08 |
2013/09/05 R 설치 그리고 자습 (0) | 2013.09.05 |