티스토리 뷰

프로그래밍언어/R

2013/09/05 R 의 시작

卽興詩人 2013. 9. 5. 20:58

* 대단한건 아니고 책과 인터넷과 공부를 통해 얻은 지식을 여기에 쓰고자한다

   지금 어설프게 내딛는 한발이 후에 위대한 발걸음이 되기를!





1. 통계학개론

@ 대학재학중에 SPSS 를 배우던도중 나온 이론이다 미리 숙지하고 넘어가는것

나쁘지않을것같다


*통계학의 용어


- 모집단 : 연구자의 관심의 대상이 되는 데이타 전체집합

- 표본 : 모집단에서 연구의 대상으로 채택된 일부

- 모수 : 모집단의 특성을 수치로 나타낸것

- 통계량 : 표본의 특성을 수치로 나타낸것


* 표본오차 

    

                     측정방법      측정값


모집단 - 전체 - 전수조사 - 모수 

    - 일부 -표본조사 - 통계량



전수조사 : 모집단 전체를 대상으로부터 자료를 얻어내는 방법

표본조사 : 모집단의 일부를 대상으로 조사하는 방법


* 변수의 종류


- 질적변수 : 변수의 특성이 범주로써 나타내는 변수

- 양적변수 : 변수의 특성이 수치로써 나타나는 변수

- 독립변수 : 다른 변수에 영향을 주는 원인변수

- 종속변수: 다른 변수에 의해 영향을 받는 결과변수


===================================================================================

* 척도의 종류

자료를 얻기위해서는 관찰대상의 설질을 잘 파악해서 수치로 나타내주어야한다

이를 측정이라하고 측정을 하기위해서 사용한 측정도구를 척도하고 한다


- 명목척도, 서열척도, 등간척도, 비율척도, 서스턴 척도, 거트만 척도


! 각각의 척도에 대한 이미지는 올리지못했으니 찾아서 보기바람


* 명목척도

 - 측정대상의 특성을 분류하거나 확인하는데 목적이 있는 변수

 - 단지 몇 개의 범주로 구분하는 데 의미가 있으며 양적인 크기를 나타내지는 않는다

 예) 성별 , 혈액형 , 직업구분, 학력등


* 서열척도

- 측정대상을 몇 개의 범주로 구분할 뿐만 아니라 그 범주들 사이에 순서관계가 성립하는경우

- 변수들의 부등식의 표현은 가능하지만 산술 연산은 못함

예) 좋아하는 과목순서, 좋아하는 교수님 순서


*등간척도

 - 측정대상의 양적인 차이를 나타내주는 변수로서 절대영점이 존재하지는 않지만 균일한 간격을 두고 분할하여 측정하는 척도

예) 설문지의 설문문항, 온도 , 아이큐지수, 급여

- 리커르트 척도법이라고도 한다


*비율척도

- 측정대상의 양적인 차이를 나타내주는 변수로서 절대 영점이 존재하는 변수

-예) 시험점수, 스트레스 점수, 키, 몸무게, 자기효능 등


* 서스턴 척도

- 개념에 대한 태도를 측정하는 문항에 대한 척도화의 방법

- 해당 문항에 동의를 하면 동의한 해당 문항의 척도값을 얻게됨

- 척도값을 합산하고 평균하여 해당 개념에 대한 측정값으로 사용


* 거트만 척도

- 여러개의 문항들이 하나의 동일 차원을 지니고 있는가를 확인하려는 목적으로 사용되는 척도법

- 상위의 척도점이 하위의 척도점에 해당하는 특성을 포함하고 있는 척도이기 때문에 누적척도라고도 한다


===================================================================================



*평균 

- 산술평균

 일반적으로 평균 - 산술평균을 의마한다

 집중화 경향의 측도로서 가장많이 사용, 수치적 자료에만 사용


- 모평균

 

- 표본평균

 표본의 평균

 가장큰단점 : 다른 대부분의 관측치보다 아주크거나 작은 이상치가 있을때 평균은 이상치의 영향을 받는다


- 중앙값

 자료의 크기를 순서대로 나열하였을때 가장 중앙에 놓이게 되는값

 자료의 수가 N인경우 홀수이면 (N+1)/2 번째 관측치가 중앙값

 짝수일때 가운데 위치하는 관측치는 없으므로 2/N 번째와 (N+1)+1 번째 관측치의 평균이 중앙값


- 최빈값

 자료중에서 가장자누 나오는 관측치

 빈도가 가장높은 관측치

 한 집단의 대표값을 간편하고 빠르게 찾아낼수 있지만 자료의 분포가 대칭에 가깝지 않을때에는 신뢰할만한 대표값이 되지못한다


- 왜도

 자료의 분포형태가 대칭적인 형태에서 어느정도 벗어났는가를 측정하는 것으로 분포의 기울어진 정도를 나타낸다

 완전한 좌우대칭 분포인 정규분포의 왜도는 0이다


- 첨도

 분포의 평평한 정도 또는 뾰족한 정도를 나타내는 측도로서 관측치들이 중앙에 모여있는 지를 알아볼수있는 측도이다 정규분포의 첨도값은 0이다



* 조건부 확률

 - 어떤 사상이 발생한 후에 어떤 다른 사상이 발생할 확률을 알고싶은 경우 사용


* 베이즈의 정리 

- 주어진 사전확률을 이용하여 개선된 사후확률을 구하는데 이용


* 공분산과 상관계수

- 공분산 :  두 확률변수 x와 y가 동시에 변하는 정도의 측도


- 상관계수 :  단위와 관계없이 두 확률변수간에 관계를 수치로 나타낸것


* 베르누이 시행

- 특정실험을 반복시행하는데 실험의 결과가 두가지로만 나오는 경우

- 베르누이 시행을 반복할때 성공의 횟수를 이항확률변수라고 한다

- 성공의 횟수의 분포를 이항분포라고 한다


* 이항확률변수와 이항분포

- 반복되는 n번의 베르누이 시행에서 성공횟수x를 이항확률변수라하고 확률변수 X가 갖는값 x에 대한 확률을 P(X=x) 라 한다


* 포아송분포

- 일정한 시간이나 단위공간에서 임의로 발생하는 사건의 발생횟수에 관련되는 분포이다

= 일정한 단위시간내 발생하는 사건은 서로 통계적 독립성을 갖는다

   일정한 단위시간내의 사건의 발생확률은 동일하다

   아주작은 단위시간내에서 두개 이상의 사건이 일어날 가능성은 매우희박하다

   단위시간당 사건의 발생확률은 단위시간의 길이에 비례한다




'프로그래밍언어 > R ' 카테고리의 다른 글

20130912 R스터디  (0) 2013.09.12
2013/09/11 R 스터디  (0) 2013.09.11
참고자료  (0) 2013.09.10
2013/09/08 R 에서 외부링크로 데이터 불러오기  (0) 2013.09.08
2013/09/05 R 설치 그리고 자습  (0) 2013.09.05
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함