Statistics

  • You are here:  
  • Home
  • /
  • Statistics


Origin 은 일반적인 통계 분석을 수행하기 위한 옵션이 다수 준비되어 있습니다 : 

Descriptive statistics, One-sample and Two-sample Hypothesis tests, One-way and Two-way analysis of variance (ANOVA).

또한, OriginPro 는 반복 측정 자료의 분산 분석과 다변량 분석, 수신자 동작 특성 (ROC) 곡선 감지 능력과 샘플 크기, 비모수 검정 등 고급 통계 기법을 지원하고 있습니다.

 

image

▲ 이 그래프는 Origin 의 워크시트를 사용하여 만들어진 사용자 정의 보고서 로써 여러 통계 도구의 수치 결과와 그래프를 표시하고 있습니다.

Descriptive Statistics

Origin 은 다음과 같은 기술 통계 도구를 제공하고 있습니다 :

Descriptive

열 / 행 통계에서는 선택한 워크 시트에서 열 방향 / 행 방향의 통계 처리를 합니다.

Statistics on Columns

이것은 각 열의 Raw Data 또는 그룹화 데이터에서 통계 값을 계산하는 것입니다.

Statistics on Rows

이것은 각 행의 데이터에 대한 통계 값을 계산하는 것입니다.

image

▲ 열 값의 통계 와 행 값의 통계 는 현재 워크시트에서 열마다 또는 각 행의 통계값을 취할 수 있습니다.

 

Cross Tabulation PRO

image

▲ Cross Tabulation (or Contingency Table) 는 변수의 도수 분포의 상황을 분명히 하는 것입니다.  이 도구는 모자이크 그래프 를 결과 보고서에 포함 할 수 있습니다.

Cross Tabulation (or Contingency Table) 는 변수의 도수 분포를 나타내는 표입니다.  크로스 표에 따른 분석을 사용하면 상당한 관계가 있는지 결정하거나, 관계의 강도와 방향을 구하여, 매치한 쌍의 데이터 일치를 검정 할 수 있습니다.  이 기능은 데이터 분석에 자주 이용되고 있습니다.

 

Frequencies

Discrete Frequency

이산 도수는 이산 변수 값의 빈도 분포를 분석하는 데 자주 이용됩니다.  

 

Frequency Counts

이 기능은 1D 데이터의 빈도를 계산하기 위한 것으로, 원하는 히스토그램을 작성하는 데에도 사용할 수 있습니다.

 

2D Frequency Count / Binning

이 기능은 2D 데이터의 빈도를 계산하고, 2D 히스토그램을 만들기 위한 것입니다.

image

◀ Frequency Counts 는 데이터 범위의 각 bin에 속하는 Raw 데이터를 세는 것입니다.

그 결과를 사용하여 히스토그램을 만든 다음, 각 막대에 라벨을 붙이고, bin 크기를 일정한 간격으로 하는 등 다양한 옵션을 설정할 수 있습니다.

 

 

image

◀ 2D Frequency Counts / Binning 도구 는 Frequency Counts 도구와 비슷하지만, 대상이 되는 데이터는 2 차원 데이터입니다.

이 도구를 사용하면 2D 히스토그램을 만들 수 있으며, 2D 데이터의 분포를 그림으로 파악할 수 있습니다.

 

 

Distributions

image

◀ Normality Test 는 샘플 데이터 정규 분포 모집단 (허용 오차 내에서) 에서 가져온 것인지를 결정하는 것입니다.

Origin 에서는 다음의 6 개의 Normality Test 방법이 제공되어 있습니다 : Shapiro-Wilk ,Kolmogorov-Smirnov ,Lilliefors , Anderson-Darling ,D' Agostino's K-Squared , Chen-Shapiro .

 

 

image

◀ Distribution Fit 도구 는 데이터의 분포를 검사하고 분포 매개 변수를 추측 할 수 있습니다.

Normality Test

Normality Test 는 샘플 데이터가 정규 분포 모집단 (허용 오차 내에서) 에서 가져온 것인지를 결정하는데 사용됩니다.

Origin 은 다음 6 개의 Normality test 방법을 제공합니다 :

  • Shapiro-Wilk
  • Kolmogorov-Smirnov
  • Lilliefors
  • Anderson-Darling
  • D' Agostino's K-Squared
  • Chen-Shapiro

 

Distribution Fit PRO

데이터의 분포 모델이 알려진 경우 더욱 적절한 분석을 계속하거나 데이터의 추정을 하는데 도움이 됩니다.  Distribution Fit 도구를 사용하면 데이터의 분포를 검사하고 분포 매개 변수를 추측 할 수 있습니다.

Correlation Coefficient PRO

Correlation Coefficient PRO

상관 계수 또는 상호 상관 계수는 변수 간의 관계의 강도를 나타내는 값입니다.  Origin 에서는 다음과 같은 Parametric, Non-parametric 의 Correlation 값을 계산할 수 있습니다 :

  • Pearson's r Correlation (r)
  • Speaman's Rank Order Correlation (ρ)
  • kendall's tau Correlation (τ)

 

Partial Correlation Coefficient PRO

부분 상관 계수는 하나 이상의 제어 변수 영향을 제외한 후, 임의의 두 변수 사이의 선형관계를 측정합니다.

 

image

▲ Partial Correlation tool 을 사용하면 2 개의 랜덤 변수 사이의 선형 관계를 하나 또는 그 이상의 제어 변수의 효과를 제외하고 가늠할 수 있습니다.

image

▲ 이 이미지는 Correlation Coefficient tool 대화 상자를 보여줍니다.

Origin 의 상관 계수 도구는 Pearson's r Correlation (r), Spearman's Rank Order Correlation (ρ)Kendall's tau Correlation (τ) 을 계산 할 수 있습니다.  사용자는 결과 중에 상당한 상관 플래그를 표시할지의 여부를 지정할 수 있습니다.

 

image

▲ Correlation Coefficient 도구 는 두 변수 간의 상관 관계의 강도를 판정 할 수 있습니다.

Detecting Outliers

이상치 (outlier) 는 다른 데이터에 비해 월등히 다fms 관측 값을 말합니다.  Origin 은 이상치를 검출하기 위한 다음 두 가지 도구를 제공하고 있습니다 :

  • Grubbs Test
 

  • Dixon's Q-test 
 

image

▲ Origin 은 이상치를 감지하는 두 가지 방법, Grubbs Test 와 Dixon's Q-test 가 준비되어 있습니다.

이러한 도구의 이상치 플롯을 사용하여 이상 값이 다른 관측 값과 어느 정도 다른지 시각적으로 판정 할 수 있습니다.

 

분산 분석 (ANOVA)

ANOVA (분산 분석) 는 그룹 평균 간의 차이를 확인하는 데 사용됩니다.  Origin 의 ANOVA 도구는 평균간에 차이가 있는지를 판정하는 것 외에 어떤 방법이 다른가?를 식별하기 위한 다중 평균 비교 기능을 제공합니다.

One-Way, Two-Way, Three-Way ANOVA

One-Way / Two-Way / Three-Way ANOVA 에서는 완전한 랜덤 디자인의 실험 데이터를 대상으로 합니다.

One-Way ANOVA

One-Way ANOVA 는 하나의 인자에 3 개 이상의 레벨을 비교합니다.

 

Two-Way ANOVA

Two-Way ANOVA는 두 인자의 여러 수준의 효과를 비교합니다.  이원 배치 ANOVA는 두 가지 요인의 주 효과와 상호 효과를 분석하는 데 유용합니다.

 

Three-Way ANOVA PRO

Three-Way ANOVA는 하나의 연속 값, 종속 변수에 3 개의 독립 변수 간의 상호 효과를 검정 (즉, 삼원 상호 효과가 존재하는지 여부) 하는 것입니다.

image

▲이 그래프는 One-Way ANOVA 에서 평균 SE 음모라고 평균치 비교 플롯 을 보여줍니다.

이들은 여러 그룹을 비교하여 그 평균이 다르다 여부의 판정을하는 데 도움이됩니다.

 

image

▲이 이미지는 One-Way ANOVA tool 의 결과를 보여줍니다.

일반 ANOVA 테이블은 p- 값이 0.05보다 작은 것을 보고 적어도 4 그룹 중 2 개는 평균이 유의하게 다릅니다. 또한 그룹이 동일한 분산을 가지고 있는지의 판단을 돕기 위한 등산성 검정 과 쌍별 비교를 위한 평균 비교 기능도 제공되고 있습니다.

Repeated Measure ANOVA PRO

반복 측정이 있는 디자인은 실험 개체 요인 (within-subject) 디자인이라고도 합니다.  각 조건에서 동일한 개체로 측정되는 것입니다.

image

▲ Repeated Muasures ANOVA는 3 개 이상의 평균을 비교하는 것으로, 같은 개체에 여러 종류의 조건 하에서 반복 측정되는 것입니다.

Origin 에서 반복되는 ANOVA는 다음의 3 가지 디자인에 대응하고 있습니다 :

  • One-Way Repeated Measures PRO

하나의 반복 인자를 가진 ANOVA입니다.

  • Two-Way Repeated Measures PRO

2 개의 반복 인자를 가진 ANOVA입니다. PRO

  • Two-Way Mixed-Design

믹스 디자인의 이원 배치는 분할 구획 (split-plot) 디자인 (SPANOVA)라고도 합니다.  이것은 하나의 반복되는 요소와 하나의 그룹 간의 요소를 가진 ANOVA입니다.

Means Comparison / Post-hoc Tests

ANOVA 의 평균 비교 검정은 사후 (Post-hoc) 검정이라고도 합니다.  평균 군의 부분 집합의 추가적인 비교에 유효합니다.

Origin 의 4 가지 ANOVA 도구, 즉 One-Way / Two-Way ANOVA, One-Way / Two-Way Repeated Measure ANOVA 는 모두 다음의 7 개의 평균 비교 검정 방법을 제공합니다 :

  • Tukey
  • Bonferroni
  • Dunn-Sidak
  • Fisher LSD
  • Sheff'
  • Holm-Bonferroni
  • Holm-Sidak

image

▲ OriginPro 의 One-Way Repeated Measures ANOVA 도구 로 만든 보고서.

이 예는 포함 된 차트의 2 가지를 보여 주며 보고서에서 그래프 항목을 더블 클릭하여 추가 편집을 할 수 있습니다.  편집 후 그래프는 보고서에 다시 넣을 수 있습니다.

 

Parametric Hypothesis Tests

Parametric Hypothesis test 는 샘플 파라미터의 질을 추정하거나 주어진 파라미터의 추정이 2 개의 샘플에 동일한가를 검사하는데 사용됩니다.

 

T-Tests for Means

  • One-Sample T-Test
   
 
  • Pair-Sample T-Test
   
  • Two-Sample T-Test
   
 

T-Tests on Rows PRO

  • Pair-Sample T-Test on Rows PRO
   
 
 
  • Two-Sample T-Test on Rows PRO
   

Variance Tests PRO

  • One-Sample Test for Variance PRO
   
  • Two-Sample Test for Variance PRO
   

Proportion Tests PRO

  • One-Sample Proportion Test PRO
   
 
  • Two-Sample Proportion Test PRO
   
 

 

image

▲ Origin 의 Hypothesis Testing 은 다른 몇 가지 입력 모드를 지원합니다.

따라서 사용자는 검정을 실행하기 전에 데이터를 변환하는 작업이 필요 없습니다.

image

▲이 예제는 Two-Sample T-Tests 의 결과를 나타내고 있습니다.  결과 표에는 각주가 첨부돼 있어 결론을 내릴 수 있도록 도와줍니다.

또한 Welch's Test 도 지원하고 있어 분산이 동일하지 않은 경우에 사용할 수 있습니다.

image

▲ 이 예는 유전자 데이터에 대해 Two Sample T-Test on Rows 를 실시 할 때의 대화상자와 결과를 보여줍니다.

Origin 의 T-Tests on Rows tool 을 사용하여 행에있는 데이터를 비교할 수 있습니다.

Nonparametric Tests PRO

Nonparametric test 는 그룹의 평균과 중앙값이 그룹 사이에 걸쳐 동일한 분포를 할지의 여부를 검정하는 데 사용됩니다.  이러한 검정은 데이터 세트의 각 관측 값을 랭킹 (또는 순서 지정)을 할 수 있습니다.  

One-Sample

Wilcoxon Signed Rank Test PRO

One-Sample Wilcoxon Signed Rank Test 는 One-Sample T-Test 에 대응하는 Nonparametric 검정 방법입니다.  본 검정은 표본의 평균이 특정 값과 동일한 지 어떤지를 판별합니다.  데이터는 중간을 경계로 대칭적인 분포를 하고 있습니다.

 

image

▲ One Sample Wilcoxon Signed Rank Test 는 특정 값에 비해 모집단 중앙값이 어디에 있는지를 알아내는 것을 가능하게 합니다.  결과 보고서에는 검정 결과를 나타내는 각주가 붙어 있습니다.

Paired Samples

image
 


 

  • Wilcoxon Signed Rank Test PRO

  • Sign Test PRO

 

Two Samples

image
 

 

  • Mann-Whitney PRO

  • Kolmogorov-Smirnov TestPRO

Multiple Independent Samples

image
 

 

  • Kruskal-Wallis ANOVA PRO

  • Mood's Median Test PRO

Multiple Related Samples

Friedman ANOVA PRO

Friedman ANOVA 는 One-Way repeated measure ANOVA 에 대응하는 Nonparametric 검정 방법입니다.

Friedman ANOVA 는 연관이 있는 표본과 같은 대상에 반복 관측 값을 비교하는 데 사용됩니다.  즉, 본 Test는 무작위 블록 디자인에 적합합니다.

image

▲이 그래프는 Friedman ANOVA 의 데이터와 결과를 보여줍니다.

Nonparametric 검정 도구는 3 개 이상의 관련 샘플을 비교하는 데 사용되며, 반복 측정하는 One-Way ANOVA에 해당하는 것입니다.

 

Multivariate Analysis PRO

다변량 분석은 여러 변수에 대응하는 데이터를 분석하는 일련의 방법을 말합니다.  이 분석의 주요 목적은 변수들이 서로 관련되어 있는 방식을 연구할 수 있습니다.

Principal Component Analysis (PCA) PRO

주성분 분석 (PCA) 은 변수 군의 분산 · 공분산 구조를 이러한 변수의 선형 결합을 통해 설명하는 데 사용됩니다.  PCA 는 차원수를 저감하는 방법으로도 사용됩니다.

Cluster Analysis PRO

클러스터 분석은 Heterogeneous 데이터 집합에서 비슷한 성격을 가진 소규모 그룹을 구성하는 것입니다.  이러한 분석은 많은 변수와 관측에 있는 관계를 발견하는 데 효과가 있습니다.

 

Hierarchical PRO

In this method, elements are grouped into successively larger clusters by some measures of similarity or distance.

 

K-Means PRO

Use K-means clustering to classify observations through K number of clusters.

It is faster than Hierachical but need user know the centroid of the observations, or at least the number of groups to be clustered.

Discriminant Analysis PRO

판별 분석 (Discriminant Analysis) 은 관측 값의 몇 가지 세트를 판별하기 위해, 이전에 정의된 그룹으로 새로운 관측을 할당하는데 사용됩니다.

Partial Least Squares Regression PRO

Partial Least Squares Regression (PLS) 은 Collinear factor 가 많은 경우 예측 모델을 구성합니다.

PLS 를 사용하는 것은 주로 다음의 두 가지 이유가 있습니다 :

    • 예측:
      PLS 는 정보가 다수의 오리지널 변수를 포함하고 그들이 매우 공동 선형성이 높을 때 예측 모델을 구성하는 데 가장 많이 이용됩니다.

 

  • 해석:
    PLS 는 큰 데이터 세트의 중요한 특징을 발견하는 데 사용됩니다.  이것을 사용하면 이전에는 생각지도 못한 관계가 떠오르는 경우가 종종 있으며, 이는 일반적으로 데이터의 검사에서 나오지 않도록 해석이 가능하게 될 수 있습니다.

 

image

◀ 부분 최소 제곱 회귀 (PLS)는 Collinear factor 가 많은 경우의 예측 모델을 구성합니다.

Cariable Importance Plot 을 사용하여 각 변수의 중요도를 판정 할 수 있습니다.

 

image

▲ 주성분 분석 (PCA) 변수 군의 분산 · 공분산 구조를 이러한 변수의 선형 결합을 통해 설명하는 데 사용됩니다.

Score plot 은 시각적으로 적절한 주성분의 수를 결정하는 데 사용됩니다.  또한 Loading and Score plot 은 관측과 변수 사이의 관계를 해석하는 데 사용됩니다.

 

 

image

Hierarchical Cluster Analysis tool 을 사용하여 Dendrogram plot 을 만들 수 있습니다.  모든 샘플의 목록과 결합 된 두 클러스터의 유사성 수준을 표시합니다.

 

image

▲ OriginPro 의 Discriminant Analysis 로 만들어진 Canonical Score Plot.

이 플롯은 그룹간의 관측을 분류하는 데 사용할 수 있습니다.

 

Survival AnalysisPRO

Survival Analysis 는 생명 과학에서 널리 사용되고 있으며, 연구중인 인구 집단의 생존율을 정량화하는데 사용됩니다.  OriginPro 에는 널리 사용되고 있는 3 개의 테스트 방법이 포함되어 있습니다.  Kaplan-Meier (product-limit) Estimator, Cox Proportional Hazards Model, Weilbull Fit

image

▲이 그래프는 Kaplan-Meier Estimator 의 생존 함수 플롯입니다.  또한 2 개의 생존 곡선을 비교하기 위해 Log Rank 테스트를 하고 있습니다.

image

▲ 여기에서는 Cox Proportional Hazard Regression 보고서의 일부를 보여줍니다. 이것은 Semi-Parameter Method 이며, 각종 고정 된 공변수의 종류에 따라 위험 비율 변화를 예측하는 방법입니다.

image

▲ Weibull Fit 는 Survival Function 과 Failure Time 사이의 관계를 분석하기 위한 매개 변수 기법입니다.

이 도구는 Weibull 모델의 추정 매개 변수가 결과 테이블에 출력 된 데이터가 Weibull 분포에 따르고 있는지 여부를 Weibull Probability Plot 에서 시각적으로 결정할 수 있습니다.

Kaplan-Meier (product-limit) Estimator PRO

Kaplan-Meier Estimator 는 비모수 추정치이며, 적극적 제한법에 의해 생존 기간 데이터에서 생존 함수를 추정하는 것입니다.

또한 Origin 의 Kaplan-Meier 법의 기능은 생존 함수의 추정 이외에 두 샘플 간의 생존 함수를 비교하는 세 가지 방법을 제공합니다 :

  • Log Rank
  • Breslow
  • Tarone-Ware

 

 

 

Cox Proportional Hazard Model PRO

Cox model 이라고도 불리는 Proportional hazards model 은 고전적인 Semi-Parameter Method 의 하나입니다.  그것은 사망이나 결함 발생 등의 이벤트 시간을 공변수 (covariate) 로 알려질 설명 변수에 관한 것입니다.

 

 

 

 

Weibull Fit PRO

Weibull Fit 는 Survival Function 과 Failure Time 사이의 관계를 분석하기 위한 매개 변수 기법입니다.  여기에서는 Survival Function 은 Weibull distribution 에 따르는 것으로 가정하고, 최대 가능성 (maximum likelihood estimation) 을 사용하여 데이터를 모델에 피팅 합니다.

Power and Sample Size PRO

Power and Sample Size Analysis 은 실험 설계를 할 연구자에게 유용한 도구입니다.  주어진 샘플 크기의 검출력을 계산하거나 주어진 검출력을 얻는데 필요한 샘플 크기를 계산할 수 있습니다.

다음 시험 방법을 사용할 수 있습니다 :

  • (PSS) One-Sample t-Test
 
 
  • (PSS) Two-Sample t-Test
 
 
  • (PSS) Paired-Sample t-Test
 
 
  • (PSS) One-Proportion Test
 
 
  • (PSS) Two-Proportion Test
 
 
  • (PSS) One-Variance Test
 
 
  • (PSS) Two-Variance Test
 
 
  • (PSS) One-Way ANOVA
 
 
image

▲ Power and Sample Size Analysis 은 샘플 크기 분석 및 전력 분석을 모두 포함하고 있습니다.

샘플 크기 분석은 주어진 샘플 크기에 조건 실험이 유용한 정보를 추출 할 수 있는지 여부를 확인하기 위해 사용됩니다.  이와 반대로, 전력 분석에서는 통계적으로 유의한 실험을 생성하는데 필요한 최소 샘플 크기를 결정하는데 도움이 됩니다.  이 그래프는 Two-Variance Test 을위한 전력 곡선을 보여줍니다.

ROC Curve PRO

image

▲ ROC (Receiver Operating Characteristic) Curve Analysis 은 사건이 발생했는지 여부 또는 질병이 걸린 케이스와 건강한 케이스를 구별하기 위해 사용되는 두 가지 방법의 정확도를 비교할 수 있는 진단 테스트에 이용됩니다.

ROC (Receiver Operating Characteristic) Curve Analysis 는 주로 임상 화학, 약리학, 생리학 분야에서 진단 연구에 사용됩니다.  진단 연구의 정확성이나 정보를 비교할 때 자주 사용되는 표준 수단으로도 널리 알려져 있습니다.

예를 들어, ROC Curve Analysis 를 실시함으로써 한 사건이 발생했는지 여부를 판정하거나 질병이 걸린 케이스와 건강한 케이스를 판별하는 두 가지 방법의 정확성을 비교하는데 사용할 수 있습니다.