정보

요인 분석 결과 및 점수 해석에 대한 질문

요인 분석 결과 및 점수 해석에 대한 질문


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

저는 요인 분석을 배우려고 노력하고 있으며 "예를 통해 학습"하는 방법으로 더미 값 데이터 세트를 사용하여 IQ 점수에 대한 계산을 매우 잘못 "모방"하는 것이 좋은 생각이라고 생각했습니다.

시작하려면 이것이 내가 하려는 것이며 이 방법론이 올바른지 아닌지 모르겠습니다. 해당 요인에 대한 부하가 결정되었습니다. 이제 로드가 있으므로 각 샘플에 대한 점수를 생성하려고 합니다. 그러면 평균 100을 기준으로 표준화할 수 있는 점수 모집단이 남게 됩니다. 거기에서 정규 분포를 그릴 것입니다. 새 샘플을 얻을 때마다 해당 샘플에 대한 점수를 생성하고 분포에서 어디에 해당하는지 확인할 수 있습니다.

내 결과를 얻으려면 Python의 Sklearn 라이브러리, 특히요인 분석수업. 나는 알아 차렸다요인 분석수업에는score_samples()방법. 각 샘플의 출력 점수는 샘플의 로그 우도입니다.

다음은 몇 가지 질문입니다.

  • 표본의 요인 점수를 기반으로 분포를 생성하는 접근 방식에 결함이 있습니까? 그들은 실제로 어떻게 합니까?

  • 표본의 로그 가능성이 사용하기에 적절한 점수입니까? (그렇지 않다면 샘플을 채점할 수 있는 대체 방법은 무엇입니까?)

  • 나는 계속해서 다음을 사용하여 점수를 생성했습니다.점수_샘플()모든 샘플에 대한 방법이지만 -4에서 -49 사이입니다. 그들이 부정적인 이유가 있습니까?

  • 1개의 잠재 요소만 찾는 경우 요소 수를 1로 설정하는 것이 좋은 방법입니까, 아니면 지정하지 않은 상태로 두는 것이 좋습니까?

요인 수를 1로 설정한 상태로 두는 경우의 하중은 다음과 같습니다.

요인 1 변수 1 0.082558 변수 2 0.107940 변수 3 0.199645 변수 4 0.612495 변수 5 0.623707

요인 수를 지정하지 않은 경우의 하중은 다음과 같습니다.

인자 1 인자 인자 2 3 4 5 배 인자 1 변수 0.263914 0.426346 -0.012893 -0.0 0.0 2 변수 0.297078 0.415269 -0.002193 0.0 -0.0 변수 3 0.243590 0.085178 -0.005131 -0.0 -0.0 가변 4 0.487537 -0.224135 -0.019501 -0.0 -0.0 변수 5 0.484462 -0.248173 -0.008902 0.0 0.0

표본의 요인 점수를 기반으로 분포를 생성하는 접근 방식에 결함이 있습니까? 그들은 실제로 어떻게 합니까?

나는 이것을 따라하기가 다소 어렵다는 것을 알았다. 그러나 일반적으로 공분산 행렬이 모든 테스트 간의 양의 상관 관계를 의미하는 다변량 정규 분포를 사용하여 테스트 점수 세트를 근사화할 수 있어야 합니다. 일부는 더 크고 일부는 더 작을 수 있지만 아이디어는 모든 능력 테스트가 상관 관계가 있다는 것입니다. 그리고 일반적인 정신 능력은 그러한 테스트에서 나온 첫 번째 비회전 요인으로 추정할 수 있습니다.

표본의 log-likelihood가 사용하기에 적절한 점수입니까? (그렇지 않다면 샘플을 채점할 수 있는 대체 방법은 무엇입니까?)

이것은 모델을 평가하는 방법과 더 비슷합니다. 예: 요인 분석 솔루션을 평가하는 방법. 일반적으로 요인 저장 점수는 구성 요소 테스트 점수의 가중 합성입니다.

R에서는 다음을 사용할 수 있습니다.사실적인

사실(x, 요인, 데이터 = NULL, covmat = NULL, n.obs = NA, 부분 집합, na.action, 시작 = NULL, 점수 = c("없음", "회귀", "바틀렛"), 회전 = " varimax", 제어 = NULL,… )

참조점수논쟁. 몇 가지 다른 방법이 있습니다.

모든 샘플에 대해 score_samples() 메서드를 사용하여 점수를 생성했지만 범위는 -4에서 -49 사이입니다. 그들이 부정적인 이유가 있습니까?

저는 파이썬을 모릅니다. 그러나 일반적으로 요인 저장 점수는 일반적으로 z-점수와 같은 방식으로 정량화됩니다(예: 평균 = 0, sd = 1).

1개의 잠재 요인만 찾는 경우 요인 수를 1로 설정하는 것이 좋은 방법입니까, 아니면 지정하지 않은 상태로 두는 것이 좋습니다.

요인을 하나만 추출하거나 추출 요인에 회전을 적용하지 않도록 해야 합니다. 회전이 없으면 첫 번째 요소는 하나의 요소와 동일합니다. 회전하면 변형이 추출된 요인에 걸쳐 분할됩니다.


커뮤니티

출력의 다음 항목은 분산(즉, 추가 분석을 위해 고려해야 하는 0.5보다 커야 하는 공통성 값. 그렇지 않으면 이러한 변수는 추가 단계 요인 분석에서 제거됨)의 분산 정도를 보여주는 공통성 표입니다. 변수는 추출된 요인에 의해 설명되었습니다. 예를 들어 이상

“제품의 품질” 편차의 90%가 설명되고, “제품의 가용성” 편차의 73.5%가 설명됩니다(표 4).


요인 분석에서 지수 점수를 계산하는 방법

주성분 분석(PCA) 또는 요인 분석(FA)을 실행하는 일반적인 이유 중 하나는 변수 감소입니다.

즉, 하나의 질문으로 정확하게 측정하기 어려운 불안과 같은 것을 측정하기 위한 10개 항목 척도로 시작할 수 있습니다.

10개 항목 모두를 분석의 개별 변수로 사용할 수 있으며 회귀 모델의 예측 변수로 사용할 수 있습니다.

하지만 결국 엉망.

이러한 모든 계수를 해석하는 데 문제가 있을 뿐만 아니라 다중 공선성 문제가 있을 수 있습니다.

그리고 가장 중요한 것은, 당신은 결과에 대한 개별 10개 항목 중 당신은 불안의 효과에 관심이 있습니다. 전체적으로.

그래서 우리는 FA 또는 PCA와 같은 변수 축소 기술로 전환하여 10개의 관련 변수를 불안의 구성을 나타내는 변수로 전환합니다.

FA와 PCA는 서로 다른 이론적 토대와 가정을 가지고 있으며 서로 다른 상황에서 사용되지만 프로세스는 매우 유사합니다. 이 예에서는 FA를 사용합니다.

따라서 좋은 요인 분석 솔루션을 성공적으로 찾았고 실제로 이 10개 항목이 모두 불안으로 해석될 수 있는 단일 요인을 나타낸다는 것을 발견했다고 가정해 보겠습니다. 이 10개 항목을 단일 색인으로 결합하는 유사하지만 이론적으로 서로 다른 두 가지 방법이 있습니다.

요인 점수

요인 분석 결과의 일부는 요인 적재 표입니다. 각 항목의 로딩은 해당 항목이 기본 요소와 얼마나 강하게 연관되어 있는지를 나타냅니다.

일부 로딩은 너무 낮아서 해당 항목이 요소와 관련이 없는 것으로 간주하고 색인에 포함하고 싶지 않습니다.

그러나 상당히 높은 적재량을 가진 품목들 사이에서도 적재량은 상당히 다를 수 있습니다. 이러한 로딩이 서로 매우 다른 경우 인덱스가 각 항목이 요인과 동등하지 않은 연관성을 가지고 있음을 반영하기를 원합니다.

항목을 결합하는 한 가지 방법은 다음을 통해 인덱스 변수를 계산하는 것입니다. 최적 가중치 요인 점수라고 하는 항목의 선형 조합입니다. 각 항목의 가중치는 요소 로딩에서 파생됩니다. 따라서 요인 점수에 대한 각 항목의 기여도는 요인과 얼마나 밀접하게 관련되어 있는지에 따라 다릅니다.

요인 점수는 기본적으로 항목의 가중치 합계입니다. 이러한 가중치는 모두 -1과 1 사이에 있기 때문에 요인 점수의 척도는 순수 합계와 매우 다릅니다. 요인 점수를 표준화된 가중 평균으로 생각하는 것이 도움이 됩니다.

요인 기반 점수

두 번째로 간단한 접근 방식은 가중치를 무시하고 선형 조합을 계산하는 것입니다. 합계 또는 평균이 작동하지만 평균은 항목과 동일한 척도에 있다는 이점이 있습니다.

이 접근 방식에서는 요인 분석을 실행하여 각 요인에 로드되는 항목을 확인한 다음 각 요인에 대한 항목을 결합합니다.

이 새 변수의 기술적인 이름은 요인 기반 점수입니다.

요인 기반 점수는 하중이 모두 유사한 상황에서만 의미가 있습니다. 이 경우 가중치는 어쨌든 많은 일을 하지 않았을 것입니다.

어떤 점수를 사용할 것인가?

요인 점수를 사용하는 것은 결코 잘못된 일이 아닙니다. 요인 적재가 매우 다른 경우 요인을 더 잘 나타냅니다. 그리고 모든 소프트웨어는 데이터 세트를 빠르고 쉽게 저장하고 추가합니다.

요인 기반 점수에는 두 가지 장점이 있습니다. 첫째, 일반적으로 더 직관적입니다. 연구 대상이 아닌 사용자는 표준화된 최적 가중치 선형 조합보다 항목의 평균을 더 잘 이해할 수 있습니다.

둘째, 샘플에 따라 다른 가중치에 대해 걱정할 필요가 없습니다. 요인 적재는 다른 샘플에서 유사해야 하지만 동일하지는 않습니다. 이는 실제 요인 점수에 영향을 주지만 요인 기반 점수에는 영향을 미치지 않습니다.

그러나 요인 기반 점수를 사용하기 전에 적재가 실제로 유사한지 확인하십시오. 그렇지 않으면 요인을 잘못 표시할 수 있습니다.


총 분산 설명

고유값은 실제로 합이 요인 분석 대상 항목의 수와 같아야 하는 추출된 요인의 수를 반영합니다. 다음 항목은 고유값과 함께 분석에서 추출할 수 있는 모든 요인을 보여줍니다.

고유값 테이블은 초기 고유값, 제곱 하중의 추출된 합 및 제곱 하중 합의 회전이라는 세 가지 하위 섹션으로 나뉩니다. 분석 및 해석을 위해 제곱 하중의 추출된 합에만 관심이 있습니다. 여기서 첫 번째 요인은 분산의 46.367%, 두 번째 요인은 18.471%, 세 번째 요인은 17.013%를 설명한다는 점에 유의해야 합니다. 나머지 모든 요인은 유의하지 않습니다(표 5).

  1. 요소: 위의 커뮤니티 표 3에서 볼 수 있듯이 표 3 아래 열 1에 표시된 8개의 구성 요소가 있습니다.
  2. 초기 고유값 합계: 총 분산.
  3. 초기 고유값 분산 %: 각 요인에 기인하는 분산의 백분율입니다.
  4. 초기 고유값 누적 %: 이전 요인에 추가된 요인의 누적 분산입니다.
  5. 제곱 하중 합계의 추출 합계: 추출 후 총 분산.
  6. 제곱 하중 추출 합 분산 %: 추출 후 각 요인에 기인하는 분산의 백분율입니다. 이 값은 우리에게 중요하므로 이 단계에서 이들이 특정 제품을 사용하는 이유에 기여하는 세 가지 요소임을 결정합니다.
  7. 제곱 누적 %의 추출 합계: 추출 후 이전 요인에 추가할 때 요인의 누적 분산입니다.
  8. 총 하중 제곱합의 회전: 회전 후 총 분산입니다.
  9. 하중 제곱합의 회전 분산 %: 회전 후 각 요인에 기인하는 분산의 백분율입니다.
  10. 누적 하중 제곱 % 합계의 회전: 이전 요인에 추가된 요인의 누적 분산입니다.

요인 분석: 짧은 소개, 2부–회전

요인 분석의 중요한 특징은 요인의 축이 다차원 변수 공간 내에서 회전할 수 있다는 것입니다. 그게 무슨 뜻이야?

다음은 간단한 용어로 요인 분석 프로그램이 변수와 잠재 요인 간의 최적의 적합성을 결정하는 동안 수행하는 작업입니다. 요인 분석에 들어가는 10개의 변수가 있다고 상상해 보십시오.

프로그램은 변수와 잠재요인 사이의 가장 강한 상관관계를 먼저 찾아 그것을 Factor 1로 만듭니다. 시각적으로 축(Axis 1)으로 생각할 수 있습니다.

그런 다음 요인 분석 프로그램은 두 번째 상관 관계 집합을 찾고 이를 요인 2라고 부르는 식으로 진행합니다.

때로는 초기 솔루션으로 인해 여러 요인이 있는 변수의 강한 상관 관계가 발생하거나 어떤 요인과도 강한 상관 관계가 없는 변수가 생성됩니다.

실제 데이터 포인트에 더 잘 맞는 축 위치를 만들기 위해 프로그램에서 축을 회전할 수 있습니다. 이상적으로는 회전을 통해 요인을 더 쉽게 해석할 수 있습니다.

다음은 두 개의 차원(x축 및 y축)만 있는 경우 회전하는 동안 어떤 일이 발생하는지 보여줍니다.

원래 x축과 y축은 검은색입니다. 회전하는 동안 축은 실제 데이터 포인트를 전반적으로 더 잘 포함하는 위치로 이동합니다.

프로그램은 다양한 유형의 회전을 제공합니다. 그들 사이의 중요한 차이점은 서로 상관되거나 상관되지 않는 요인을 생성할 수 있다는 것입니다.

상관 관계를 허용하는 회전을 호출합니다. 비스듬한 회전 요인이 상관관계가 없다고 가정하는 회전을 호출합니다. 직교 회전. 그래프는 직교 회전을 보여줍니다.

다시 한 번 부의 지표를 살펴보겠습니다.

직교 회전이 이전에 표시된 것처럼 잘 작동하지 않았다고 상상해 봅시다. 대신 다음과 같은 결과를 얻습니다.

변수 요인 1 요인 2
소득 0.63 0.14
교육 0.47 0.24
직업 0.45 0.22
집값 0.39 0.25
인근 공공 공원 수 0.12 0.20
연간 강력범죄 건수 0.21 0.18

분명히 변수 2에 많이 로드되는 변수는 없습니다. 무슨 일이 일어났습니까?

첫 번째 시도는 직교 회전이었기 때문에 요인 1과 2는 상관 관계가 없다고 지정했습니다.

그러나 "개인의 사회경제적 지위"(요인 1)가 높은 사람이 "이웃의 사회경제적 지위"(요인 2)가 높은 지역에도 산다고 가정하는 것이 합리적입니다. 요인을 의미합니다 ~해야한다 상관되다.

결과적으로 두 요소의 두 축은 직교 회전으로 만들 수 있는 것보다 더 가깝습니다. 다음은 요인이 서로 상관관계가 있는 새로운 예에 대한 축의 비스듬한 회전을 표시한 것입니다.

분명히, 두 요소 사이의 각도는 이제 90도보다 작아서 요소가 이제 상관 관계가 있음을 의미합니다. 이 예에서 비스듬한 회전은 직교 회전보다 데이터를 더 잘 수용합니다.


요인 분석

요인 분석은 관찰된 많은 변수 간의 상관 관계를 분석하고 잠재 요인을 탐색하도록 설계된 다변량 기술입니다. 이 장에서는 20세기 초반 이후의 요인 분석의 발전에 대한 개요와 다양한 분야의 응용 연구에 대한 검토를 제공합니다. 오늘날 요인분석은 심리학 분야뿐만 아니라 정치, 문학, 생물학, 의학 등의 분야에서도 널리 활용되고 있다. 예를 들어, 인류학에서는 인간 뼈의 측정된 형질 간의 상관관계에 대한 요인분석과 동식물의 측정된 형질에 대한 요인분석을 통해 형태학적 지식을 획득하였다. 이 장에서는 요인분석 모형을 소개하고 요인분석의 통계적 추론을 다룬다. 요인 분석에서 모수 추정치의 표준 오차 공식은 복잡하거나 닫힌 형식으로 표현되지 않을 수 있습니다. 부트스트랩 방법의 장점 중 하나는 분석 유도 없이 사용할 수 있다는 것입니다. 그러나 요인 분석에서 부트스트랩 방법을 사용할 때는 주의가 필요합니다. 또한 이 장에서는 요인 회전 및 요인 점수 추정의 다양한 방법을 다룹니다.


성격/인격 신경과학과 네트워크 분석 통합

3.1.1 요인 분석

요인 분석은 관찰, 명시 또는 측정된 변수를 발생시키는 잠재 변수 또는 "인자" 측면에서 연관 구조를 개념화합니다. 요인 분석(및 밀접하게 관련된 주성분 분석)은 분석에서 다른 관찰된 변수보다 서로 공통점이 더 많은 관찰된 변수 세트를 식별하여 이를 수행합니다. 요인 분석은 관찰된 변수 간의 이변량 연관성의 상관 행렬로 시작됩니다. 개념적으로 요인 분석은 행렬을 스캔하여 함께 사용되는 관찰된 변수를 식별합니다. 서로 강하게 상관되어 있고 다른 클러스터의 관찰 변수와 약한 상관 관계가 있는 관찰된 변수의 클러스터를 검색합니다. 보다 기술적으로는 관찰된 변수의 변동을 가능한 한 많이 설명하는 요인을 추출합니다.

탐색적 요인 분석은 추출, 여러 요인 선택, 순환, 요인 로딩 및 (잠재적으로) 요인 상관 관계와 같이 반복적이고 앞뒤로 자주 수행되는 단계로 볼 수 있습니다. 79 첫 번째 단계는 관찰된 변수의 조합을 식별하는 "추출 방법"을 적용하는 것이며 이러한 조합을 요인이라고 합니다. 추출 방법에는 여러 가지가 있지만 주축 요인 분석과 주성분 분석이 가장 많이 사용됩니다. 추출은 하나를 생성합니다. 고유값 각 잠재적 요인에 대해 관찰된 변수만큼 많은 잠재적 요인이 있습니다. 요인의 고유값은 요인에 의해 설명되는 관찰된 변수의 분산량으로 볼 수 있습니다.

두 번째 단계에서 연구자는 원래 변수 간의 관계를 적절하게 요약하는 요인의 수를 결정합니다. "적절한" 요인의 수는 모호할 수 있지만 프로세스에 도움이 되는 경험적 규칙이 있습니다. 80 경험 법칙은 일반적으로 고유값의 상대적 크기에 따라 달라지지만 후속 단계의 정보를 사용하여 결정을 알릴 수 있습니다(예: 요인 적재의 명확성, 4단계 참조).

세 번째 단계에서 연구자들은 일반적으로 요인의 심리적 의미를 명확히 하기 위해 "회전"을 사용합니다. 회전은 다음을 생성하기 위한 것입니다. 단순한 구조, 관찰된 각 변수가 하나의 요인 및 단 하나의 요인과 강력하게 연관되는(즉, "부하되는") 연관 패턴입니다. 회전에는 두 가지 일반적인 유형이 있습니다. 직교 회전은 상관 관계가 없는 요소를 생성하고 경사 회전은 서로 상관될 수 있는 요소를 생성합니다.

넷째, 연구자들은 주요 통계적 결과, 주로 요인 적재 및 (해당되는 경우) 요인 간 상관 관계를 기반으로 심리학적 결론을 도출합니다. 요인 적재는 관측된 각 변수와 각 요인 간의 연관성을 나타내는 값입니다. 어떤 관찰 변수가 각 요인과 가장 강하게 연관되어 있는지 주목함으로써 연구자는 요인의 심리적 의미를 해석할 수 있습니다. 생성될 수 있는 여러 유형의 요인 적재가 있지만 모두 대략적으로 또는 문자 그대로 -1에서 +1의 상관 메트릭에 있으며 -1 또는 +1에 가까운 값은 강한 연관성을 나타내고 0에 가까운 값은 없음을 나타냅니다. 관찰된 변수와 요인 간의 연결. 요인간 상관관계는 연구자가 하나 이상의 요인을 추출하고 비스듬한 회전을 구현할 때 얻어지며, 관찰된 변수의 기본이 되는 차원이 서로 연관되어 있는 정도를 나타냅니다.


I. 탐색적 요인 분석(EFA)

  • 소개
    1. 동기 부여 예: SAQ
    2. 피어슨 상관 공식
    3. 요인 분석의 분산 분할
  • 추출 요소
    1. 주성분 분석
    2. 공통 요인 분석
      • 주축 인수분해
      • 최대 가능성
      1. 간단한 구조
      2. 직교 회전(Varimax)
      3. 오블리크(직접 오블리민)

      요인 분석

      요인 분석 둘 다 포함 성분 분석 그리고 공통 요인 분석. 다른 통계 기법보다 요인 분석은 그 목적에 대해 혼란을 겪었습니다. 이것은 두 가지 방식으로 내 프레젠테이션에 영향을 미칩니다. 먼저 요인 분석이 수행하는 방식을 검토하기 전에 요인 분석이 수행하는 작업을 설명하는 데 긴 섹션을 ​​할애합니다. 둘째, 나는 일반적인 발표 순서를 뒤집기로 결정했습니다. 구성 요소 분석은 더 간단하며 대부분의 논의에서 먼저 제시합니다. 하지만 저는 공통 요인 분석이 대부분의 연구자들이 실제로 해결하고자 하는 문제를 해결하는 데 더 가깝다고 생각합니다. 따라서 구성 요소 분석을 먼저 배우는 것은 실제로 이러한 문제가 무엇인지 이해하는 데 방해가 될 수 있습니다. 따라서 구성 요소 분석은 이 장의 후반부에 소개됩니다.

      요인 분석이 할 수 있는 것과 할 수 없는 것

      요인 분석 문제의 몇 가지 예

      흥미로운 아이디어였지만 잘못된 것으로 밝혀졌습니다. 오늘날 College Board 시험 서비스는 언어 능력, 수학 능력, 논리 능력의 세 가지 중요한 정신적 능력 요소가 있다는 생각에 기반한 시스템을 운영하고 있으며 대부분의 심리학자들은 다른 많은 요소도 식별할 수 있다는 데 동의합니다.

      2. 자율 신경계의 활동에 대한 다양한 측정(심박수, 혈압 등)을 고려하십시오. 심리학자들은 무작위 변동을 제외하고 이러한 모든 측정이 함께 위아래로 움직이는지 여부를 알고 싶어 했습니다. "활성화" 가설 . 아니면 자율 측정 그룹이 함께 위아래로 움직이지만 다른 그룹과 분리되어 있습니까? 아니면 모든 측정이 대체로 독립적입니까? 내 미공개 분석에 따르면 한 데이터 세트에서는 어쨌든 데이터가 활성화 가설에 아주 잘 맞았습니다.

      3. 많은 종류의 동물(쥐, 생쥐, 새, 개구리 등)이 특정 지점에서 소음(어떤 종류의 소음이든)이 나올 때마다 음식이 특정 지점에 나타나도록 훈련되었다고 가정합니다. 그런 다음 소리가 나타날 때 해당 방향으로 회전하는지 확인하여 특정 소리를 감지할 수 있는지 여부를 알 수 있습니다. 그런 다음 많은 소리와 종을 연구했다면 청력의 차원이 얼마나 다양한지 알고 싶을 것입니다. 한 가지 가설은 고주파 소리를 감지하는 능력, 저주파 소리를 감지하는 능력, 중간 소리를 감지하는 능력이라는 세 가지 차원에서만 변한다는 것입니다. 반면에 종은 이 세 가지 차원 이상에서 청각 능력이 다를 수 있습니다. 예를 들어, 일부 종은 날카로운 딸깍 소리와 같은 소리를 더 잘 감지하는 반면 다른 종은 연속적인 쉿 소리와 같은 소리를 더 잘 감지할 수 있습니다.

      4. 서로 다른 종류의 자동차에 대해 잘 알고 있는 500명의 사람들이 "당신은 그런 종류의 자동차를 얼마나 소유하고 싶습니까?"라는 질문에 대해 20개의 자동차 모델을 각각 평가한다고 가정합니다. 등급이 다른 차원의 수에 대해 유용하게 질문할 수 있습니다. 1요인 이론은 사람들이 단순히 가장 비싼 모델에 가장 높은 등급을 부여한다고 가정합니다. 2요인 이론은 어떤 사람들은 스포티한 모델에 가장 끌리는 반면 다른 사람들은 고급스러운 모델에 가장 끌린다고 가정합니다. 3요인 및 4요인 이론은 안전성과 신뢰성을 추가할 수 있습니다. 또는 자동차 대신에 음식, 정치 정책, 정치 후보자 또는 기타 여러 종류의 대상에 관한 태도를 연구하기로 선택할 수도 있습니다.

      5. Rubenstein(1986)은 "나는 기계가 어떻게 작동하는지 알아내는 것을 좋아한다" 또는 "나는 새로운 종류의 음식을 시도하는 것을 좋아한다"와 같은 많은 진술을 가진 중학생들의 동의를 분석하여 호기심의 본질을 연구했습니다. ." 요인 분석에서는 문제 해결, 학습, 읽기의 즐거움을 측정하는 3가지 요인을 식별했습니다. 3가지 요인은 자연 과학, 예술 및 음악, 일반적으로 새로운 경험에 대한 관심을 측정하고 1명은 돈에 대한 상대적으로 낮은 관심을 나타냅니다.

      목표: 원인의 이해

      1. 이 변수들 사이의 관계 패턴을 설명하기 위해 얼마나 많은 다른 요인이 필요합니까?
      2. 그 요인들의 본질은 무엇인가?
      3. 가설된 요인이 관찰된 데이터를 얼마나 잘 설명합니까?
      4. 관찰된 각 변수에는 순전히 무작위 또는 고유한 분산이 얼마나 포함되어 있습니까?

      요인 분석의 절대적 대 휴리스틱 사용

      앞의 예는 유용한 구별을 설명하는 데 사용할 수 있습니다. 순수한 그리고 휴리스틱 요인 분석의 사용. 스피어맨의 NS 지능 이론과 자율 기능 활성화 이론은 변수 간의 관계 패턴에 대한 완전한 설명을 제공하는 것으로 가정되거나 가정된 절대 이론으로 생각할 수 있습니다. 반면에 Rubenstein은 호기심의 7가지 주요 요인 목록이 호기심에 대한 완전한 설명을 제공한다고 주장한 적이 없습니다. 오히려 이러한 요소는 데이터 본문을 요약하는 가장 좋은 방법인 가장 중요한 7가지 요소인 것처럼 보입니다. 요인 분석은 절대 또는 발견적 모델을 제안할 수 있습니다. 차이점은 출력을 해석하는 방법에 있습니다.

      요인분석은 객관적인가?

      회귀 및 분산 분석에서도 유사한 균형 문제가 발생하지만 일반적으로 다른 작업자가 거의 또는 정확히 동일한 결론에 도달하는 것을 방해하지 않습니다. 결국 두 작업자가 동일한 데이터에 분산 분석을 적용하고 두 작업자가 .05 수준에서 유의하지 않은 항을 삭제하면 둘 다 정확히 동일한 효과를 보고합니다. 그러나 요인 분석의 상황은 매우 다릅니다. 나중에 설명하는 이유 때문에 요소의 수에 대한 가설을 테스트할 구성 요소 분석의 유의성 테스트는 일반적으로 이해되는 대로 존재하지 않습니다. 공통요인분석에는 그러한 검정이 있지만, 만족스럽게 해석될 수 있는 것보다 더 많은 요인을 종종 산출한다는 사실에 의해 그 유용성이 제한된다. 따라서 해석 가능한 요소만 보고하려는 작업자는 여전히 객관적인 테스트를 거치지 않습니다.

      유사한 문제가 요인의 특성을 식별할 때 발생합니다. 두 명의 작업자가 각각 6가지 요인을 식별할 수 있지만 두 가지 요인 집합이 다를 수 있습니다. 여행 작가 비유는 여기에서도 유용합니다. 두 작가가 각각 미국을 6개 지역으로 나눌 수 있지만 지역을 매우 다르게 정의합니다.

      또 다른 지리적 유추는 요인 분석과 더 유사할 수 있습니다. 왜냐하면 정량화 가능한 목표를 최대화하도록 설계된 컴퓨터 프로그램이 포함되기 때문입니다. 컴퓨터 프로그램은 때때로 주를 지리적으로 인접하고 인구가 거의 같으며 인종 또는 기타 요인의 차원에서 동질적인 의회 구역으로 나누는 데 사용됩니다. 두 가지 다른 지구 창설 프로그램은 매우 다른 답을 제시할 수 있지만 두 가지 답은 모두 합리적입니다. 이 비유는 요인 분석 프로그램이 일반적으로 지구 만들기 프로그램만큼 서로 다른 답변을 산출하지 않는다고 우리가 믿는 의미에서 너무 좋습니다.

      요인 분석 대 클러스터링 및 다차원 척도

      이러한 다른 방법에 비해 요인 분석의 또 다른 장점은 요인 분석이 상관 관계의 특정 속성을 인식할 수 있다는 것입니다. 예를 들어, 변수 A와 B가 각각 .7과 변수 C의 상관관계가 있고 .49의 상관관계가 있는 경우 요인 분석은 .7 2 = .49이기 때문에 C가 일정하게 유지될 때 A와 B의 상관관계가 0임을 인식할 수 있습니다. 다차원 척도화 및 군집 분석은 이러한 관계를 인식하는 기능이 없습니다. 상관 관계는 상관 관계가 아니라 단지 일반적인 "유사성 측정"으로 취급되기 때문입니다.

      우리는 이러한 다른 방법이 상관 행렬에 적용되어서는 안 된다고 말하는 것이 아닙니다. 때때로 요인 분석을 통해 사용할 수 없는 통찰력을 얻을 수 있습니다. 그러나 그들은 요인 분석을 쓸모없게 만들지 않았습니다. 다음 섹션에서는 이 점을 다룹니다.

      요인 "차별화" 변수 대 요인 "기본" 변수

      "차별화"에 대한 문구의 가능한 의미 중 하나는 변수 집합이 모두 서로 높은 상관 관계가 있지만 평균이 다르다는 것입니다. 오히려 비슷한 의미가 다른 경우에 발생할 수 있습니다. 광범위하게 인식되는 동일한 정신 능력을 테스트하지만 나열된 순서대로 난이도가 증가하는 여러 테스트 A, B, C, D를 고려하십시오. 그런 다음 테스트 간의 가장 높은 상관 관계는 이 목록의 인접한 항목 사이에 있을 수 있습니다(rAB, NS기원전 그리고 rCD) 반면 가장 낮은 상관 관계는 목록의 반대쪽 끝에 있는 항목(r기원 후). 항목 간의 상관관계에서 이 패턴을 관찰한 사람은 테스트를 "간단한 순서로 배치할 수 있다" 또는 "단 한 가지 요인만 다르다"라고 말할 수 있지만 그 결론은 요인 분석과 관련이 없습니다. 이 테스트 세트는 ~ 아니다 하나의 공통 요소만 포함합니다.

      이러한 종류의 세 번째 경우는 변수 A가 B에 영향을 미치고 C에 영향을 미치고 D에 영향을 미치며 이러한 변수를 연결하는 유일한 효과인 경우에 발생할 수 있습니다. 다시 한번, 가장 높은 상관관계는 r이 될 것입니다.AB, NS기원전 그리고 rCD 가장 낮은 상관 관계는 r기원 후. 누군가는 이 상관관계 패턴을 설명하기 위해 방금 인용한 것과 동일한 문구를 다시 사용할 수 있습니다. 이는 요인 분석과 관련이 없습니다.

      • 키가 5피트 2인치 이상입니까?
      • 키가 5피트 4인치 이상입니까?
      • 키가 5피트 6인치 이상입니까?
      • 등.
      • 우리 국가는 B 국가와 관세 장벽을 낮추어야합니까?
      • 두 개의 중앙 은행이 단일 통화를 발행해야 합니까?
      • 우리 군대는 하나가 되어야 합니까?
      • B국가와 융합해서 하나의 국가가 되어야 할까요?

      상관 행렬에 다차원 척도를 적용하면 변수 간의 이러한 단순한 차이 패턴을 모두 발견할 수 있습니다. 따라서 다차원 스케일링은 다음과 같은 요인을 찾습니다. 구별 짓다 요인 분석은 변수를 찾는 동안 기초 변수. 스케일링은 때때로 요인 분석이 아무것도 찾지 못하는 경우 단순함을 찾을 수 있고 요인 분석은 스케일링이 아무 것도 찾지 못하는 경우 단순함을 찾을 수 있습니다.

      의심스러운 역사

      기본 개념 및 원리

      간단한 예

      이것이 정신 능력을 측정하는 5가지 변수 간의 상관 관계라고 상상해 보십시오. 행렬 R55는 단일 공통 요인의 가설과 정확히 일치합니다. NS 5개의 관찰된 변수와의 상관 관계는 각각 .9, .8, .7, .6 및 .5입니다. 그 이유를 알아보려면 두 변수 간의 편상관 관계에 대한 공식을 고려하십시오. NS 그리고 NS 세 번째 변수를 부분화 NS:

      이 공식은 rab.g = 0인 경우에만 rab = r에이그 NSbg. 변수가 일반 요인으로 기능하기 위한 필수 속성 NS 관찰된 두 변수 사이의 부분적 상관관계는 NS, 는 0입니다. 따라서 상관행렬을 일반적인 요인으로 설명할 수 있다면 NS, 관찰된 변수의 상관 관계 집합이 있다는 것은 사실입니다. NS, 이러한 상관 관계 중 두 가지의 곱이 두 관찰된 변수 간의 상관 관계와 같도록 합니다. 그러나 행렬 R55에는 정확히 그 속성이 있습니다. 즉, 모든 비대각선 항목 rjk 의 제품입니다 제이일과 케이행의 th 항목 .9 .8 .7 .6 .5. 예를 들어, 행 1과 열 3의 항목은 .9 x .7 또는 .63입니다. 따라서 행렬 R55는 단일 공통 요인의 가설에 정확히 맞습니다.

      실제 상관 행렬에서 해당 패턴을 찾았다면 정확히 무엇을 표시했을까요? 첫째, 요인의 존재는 추론 보다는 관찰. 우리는 확실히 없었을 것입니다 입증된 이 5개의 변수에 대한 점수는 단 하나의 공통 요인에 의해 영향을 받습니다. 그러나 그것은 관찰된 상관 관계의 패턴에 맞는 가장 단순하거나 가장 간결한 가설입니다.

      둘째, 우리는 관찰된 각 변수와 요인의 상관 관계를 추정할 수 있으므로 최소한 상관 관계가 있거나 상관 관계가 없는 점에서 요인의 특성에 대해 말할 수 있습니다. 이 예에서 값 .9 .8 .7 .6 .5는 이러한 추정된 상관 관계입니다.

      셋째, 요인에 대한 각 개인의 정확한 점수를 도출한다는 의미에서 요인을 측정할 수 없었다. 그러나 다중 회귀 방법을 사용하여 관찰된 변수에 대한 점수에서 요인에 대한 각 개인의 점수를 추정할 수 있습니다.

      Matrix R55는 관찰된 상관관계가 가장 단순한 요인 분석 가설인 단일 공통 요인의 가설과 완벽하게 일치하기 때문에 사실상 가장 단순한 공통 요인 분석의 예입니다. 일부 다른 상관 행렬은 단일 공통 요인의 가설에 적합하지 않을 수 있지만 2개 또는 3개 또는 4개의 공통 요인 가설에는 적합할 수 있습니다. 요인이 적을수록 가설이 단순해집니다. 단순한 가설은 일반적으로 더 복잡한 가설보다 논리적인 과학적 우선순위를 갖기 때문에 더 적은 수의 요인을 포함하는 가설이 더 많은 요인을 포함하는 가설보다 선호되는 것으로 간주됩니다. 즉, 관찰된 상관 관계 집합과 명확하게 모순되지 않는 가장 단순한 가설(즉, 가장 적은 요인 포함)을 잠정적으로 수락합니다. 많은 작가들처럼, 나는 미디엄 가정된 공통 요인의 수를 나타냅니다.

      수학에 깊이 들어가지 않고도 요인 분석은 각 변수를 다음의 합으로 표현하려고 한다고 말할 수 있습니다. 흔한 그리고 고유 한 부분. 모든 변수의 공통 부분은 정의상 공통 요소에 의해 완전히 설명되며 고유 부분은 이상적으로 서로 완벽하게 상관 관계가 없습니다. 주어진 데이터 세트가 이 조건에 맞는 정도는 일반적으로 "잔차 상관 행렬"이라고 하는 분석을 통해 판단할 수 있습니다.

      행렬의 항목은 일반적으로 상관 관계가 아니기 때문에 이 행렬의 이름은 다소 오해의 소지가 있습니다. 특정 인쇄물에 대해 의심이 가는 경우 첫 번째 변수와 자체의 "상관 관계"와 같은 행렬의 대각선 항목을 찾으십시오. 이러한 대각선 항목이 모두 정확히 일치하지 않는 경우 1이면 인쇄된 행렬은 상관 행렬이 아닙니다. 그러나 일반적으로 각 비대각선 항목을 두 개의 해당 대각선 항목의 제곱근으로 나누어 상관 행렬로 변환할 수 있습니다. 예를 들어, 처음 두 개의 대각선 항목이 .36 및 .64이고 위치 [1,2]의 비대각선 항목이 .3이면 잔차 상관은 .3/(.6*.8) = 5입니다. /8 = .625.

      이러한 방식으로 발견된 상관 관계는 변수의 공통 부분이 다음 가설에 맞도록 하기 위해 변수의 "고유한" 부분 간에 허용되어야 하는 상관 관계입니다. 미디엄 공통 요인. 이러한 계산된 상관관계가 너무 높아 모집단에서 0이라는 가설과 일치하지 않는 경우 다음 가설은 미디엄 공통 요소는 거부됩니다. 증가 미디엄 항상 이러한 상관 관계를 낮추므로 데이터와 더 일치하는 가설이 생성됩니다.

      우리는 가장 단순한 가설(즉, 가장 낮은 미디엄) 데이터와 일치합니다. 이러한 점에서 요인 분석은 발전하는 데 수십 년 또는 수백 년이 걸린 과학사의 에피소드에 비유할 수 있습니다. 코페르니쿠스는 지구와 다른 행성들이 태양 주위를 돈다는 것을 깨달았지만 먼저 그들의 궤도가 원이라는 가설을 세웠다. 케플러는 나중에 궤도가 타원으로 더 잘 묘사된다는 것을 깨달았습니다. 원은 타원보다 단순한 그림이므로 이 과학사 에피소드는 우리가 단순한 이론으로 시작하여 관찰된 데이터에 더 잘 맞도록 점차 복잡하게 만드는 일반적인 요점을 보여줍니다.

      실험심리학의 역사에서도 같은 원리를 관찰할 수 있다. 1940년대에 실험 심리학자들은 교육 관행에 혁명을 일으킬 수도 있는 학습의 모든 기본 원리가 미로에서 쥐를 연구함으로써 발견될 수 있다고 널리 믿었습니다. 오늘날 그 관점은 터무니없이 지나치게 단순화된 것으로 간주되지만, 단순한 이론이 데이터에 맞지 않는다는 것이 분명해질 때만 단순한 이론에서 시작하여 점차 더 복잡한 이론으로 이동하는 것이 합리적이라는 일반적인 과학적 요지를 보여줍니다.

      이 일반적인 과학적 원리는 단일 요인 분석 내에서 적용될 수 있습니다. 가장 간단한 가능한 이론으로 시작하십시오(보통 미디엄 = 1), 해당 이론과 데이터 간의 적합성을 테스트한 다음 증가 미디엄 필요에 따라. 증가할 때마다 미디엄 더 복잡하지만 데이터에 더 잘 맞는 이론을 생성합니다. 데이터에 적절하게 맞는 이론을 찾으면 중지하십시오.

      관찰된 각 변수의 공동체 는 자체 공통 부분과의 추정된 제곱 상관 관계입니다. 즉, 공통 요소에 의해 설명되는 해당 변수의 분산 비율입니다. 여러 다른 값으로 요인 분석을 수행하면 미디엄, 위에서 제안한 것처럼 커뮤니티는 일반적으로 다음과 같이 증가합니다. 미디엄. 그러나 커뮤니티는 최종 가치를 선택하는 데 사용되지 않습니다. 미디엄. 낮은 커뮤니티성은 데이터가 가설에 맞지 않는다는 증거로 해석되지 않고 분석된 변수가 서로 거의 공통점이 없다는 증거로 해석됩니다. 대부분의 요인 분석 프로그램은 먼저 각 변수의 공통성을 해당 변수와 분석의 다른 변수 간의 제곱 다중 상관 관계로 추정한 다음 반복 절차를 사용하여 점진적으로 더 나은 추정치를 찾습니다.

      요인 분석은 상관 관계 또는 공분산. 공분산 covjk 번호가 매겨진 두 변수 사이 제이 그리고 케이 상관 관계 곱하기 두 표준 편차: covjk = rjk NS제이 NS케이, 여기서 rjk 그들의 상관 관계 및 s제이 그리고케이 그들의 표준 편차입니다. 공분산은 그다지 중요한 실질적인 의미는 없지만 다음 섹션에서 설명하는 몇 가지 매우 유용한 수학적 속성을 가지고 있습니다. 모든 변수는 1과 그 자체의 상관 관계가 있으므로 모든 변수의 자체 공분산은 표준 편차의 제곱인 분산입니다. 상관 행렬은 이미 표준 편차 1로 조정된 변수 집합의 분산 및 공분산 행렬(더 간결하게는 공분산 행렬)로 생각할 수 있습니다. 상관 또는 공분산 행렬을 의미합니다. 나는 R을 사용하여 관찰된 변수의 상관 또는 공분산 행렬을 나타낼 것입니다. 이것은 분명히 어색하지만 분석된 행렬은 거의 항상 상관 행렬이며 나중에 설명하는 것처럼 R의 공통 인자 부분에 대해 문자 C가 필요합니다.

      행렬 분해 및 순위

      요인 분석의 중심 정리는 전체 공분산 행렬에 대해 유사한 작업을 수행할 수 있다는 것입니다. 공분산 행렬 R은 일련의 요인으로 설명되는 공통 부분 C와 이러한 요인으로 설명되지 않는 고유 부분 U로 분할될 수 있습니다. 행렬 용어에서 R = C + U는 행렬 R의 각 항목이 행렬 C와 U의 해당 항목의 합임을 의미합니다.

      동일한 셀 주파수의 분산 분석에서와 같이 설명된 구성 요소 C는 더 세분화될 수 있습니다. C는 구성요소 행렬 c로 분해될 수 있습니다.1, 씨2등이 개별 요인으로 설명됩니다. 이러한 각 1요인 구성요소 c제이 "요소 적재" 열의 "외적"과 같습니다. 숫자 열의 외적은 다음을 입력하여 형성된 정방 행렬입니다. jk 행렬에서 항목의 곱과 같습니다. 제이 그리고 케이 열에서. 따라서 이전 예에서와 같이 열에 항목 .9, .8, .7, .6, .5가 있으면 외부 제품은 다음과 같습니다.

      이전에 이 행렬에서 비대각선 항목에 대해 언급했지만 대각선 항목은 언급하지 않았습니다. c의 각 대각선 항목제이 행렬은 실제로 해당 요인에 의해 설명되는 해당 변수의 분산 양입니다. 우리의 예에서, NS .9는 첫 번째 관찰된 변수와 상관 관계가 있으므로 해당 변수에서 설명된 분산의 양은 이 행렬의 첫 번째 대각선 항목인 .9 2 또는 .81입니다.

      이 예에는 하나의 공통 인자만 있으므로 이 예의 행렬 C(C55로 표시)는 C55 = c입니다.1. 따라서 이 예의 잔차 행렬 U(U55로 표시)는 U55 = R55 - c입니다.1. 이것은 U55에 대해 다음과 같은 행렬을 제공합니다.

      이것은 요인으로 설명되지 않는 변수 부분의 공분산 행렬입니다. 앞서 언급했듯이 U55의 모든 비대각선 항목은 0이고 대각선 항목은 각 변수의 설명되지 않거나 고유한 분산의 양입니다.

      종종 C는 여러 행렬 c의 합입니다.제이, 이 예에서와 같이 하나만이 아닙니다. 개수 - C에 합이 되는 행렬은 다음과 같습니다. 계급 이 예에서 행렬 C의 순위는 1입니다. C의 순위는 해당 모델의 공통 요인 수입니다. 특정 숫자를 지정하면 미디엄 요인 분석 프로그램은 원래 상관 관계 또는 공분산 행렬 R에 합산되는 두 개의 행렬 C와 U를 유도하여 C의 순위를 동일하게 만듭니다. 미디엄. 더 크게 설정할수록 미디엄, 더 가까운 C는 R에 가깝습니다. 미디엄 = NS, 어디 NS 가 행렬의 변수 수이면 C의 모든 항목은 R의 해당 항목과 정확히 같으므로 U는 0의 행렬로 남게 됩니다. 아이디어는 얼마나 낮게 설정할 수 있는지 확인하는 것입니다. 미디엄 여전히 C가 R에 대한 합리적인 근사치를 제공하도록 합니다.

      얼마나 많은 경우와 변수가 있습니까?

      변수 수에 대한 규칙은 회귀 분석과 요인 분석에서 매우 다릅니다. 요인 분석에서는 케이스보다 변수가 더 많아도 괜찮습니다. 사실, 일반적으로 변수가 기본 요인과 관련성을 유지하는 한 일반적으로 변수가 많을수록 더 좋습니다.

      얼마나 많은 요인?

      이 섹션에서 논의되는 두 가지 규칙 중 첫 번째 규칙은 공식 유의성 검정을 사용하여 공통 요인의 수를 식별합니다. N이 표본 크기를 나타내도록 하고, NS 변수의 수, 미디엄 요인의 수. 또한 R 상관 행렬로 변환된 잔차 행렬 U를 나타냅니다. |R| 는 행렬식이며 ln(1/|R|)는 해당 행렬식의 역수의 자연 로그입니다.

      이 규칙을 적용하려면 먼저 G = N-1-(2p+5)/6-(2/3)m을 계산합니다. 그런 다음 계산

      ln(1/|R|), 그 표현은 종종 r에 의해 잘 근사됩니다. 2, 여기서 합은 행렬 R에서 대각선 위의 모든 제곱 상관의 합을 나타냅니다..

      이 공식을 사용하여 요인 수를 선택하려면 다음으로 시작하십시오. 미디엄 = 1(또는 미디엄 = 0) 값을 연속적으로 증가시키기 위해 이 테스트를 계산합니다. 미디엄, 해당 값이 중요하지 않은 경우 중지 미디엄 의 가장 작은 값입니다. 미디엄 이는 데이터와 크게 모순되지 않습니다. 이 규칙의 가장 큰 어려움은 내 경험에 따르면 적당히 큰 표본을 사용하면 성공적으로 해석할 수 있는 것보다 더 많은 요인이 발생한다는 것입니다.

      대안적 접근을 권장합니다. 이 접근 방식은 한때 비실용적이었지만 오늘날에는 충분히 도달할 수 있습니다. 다양한 값으로 요인 분석 수행 미디엄, 회전을 완료하고 가장 매력적인 구조를 제공하는 것을 선택하십시오.

      회전

      예측 변수의 선형 함수

      이제 동료가 각 학생의 언어 및 수학 점수를 합산하여 복합 "학문 능력" 점수를 얻을 것을 제안하고 각 학생의 언어 및 수학 점수의 차이를 취하여 두 번째 변수를 구하도록 제안한다고 가정하겠습니다. (언어와 수학의 차이). 동료는 각 회귀에서 원래의 언어 및 수학 점수 대신 AS 및 VMD를 예측 변수로 사용하는 것을 제외하고 개별 코스의 성적을 예측하기 위해 동일한 회귀 집합을 실행할 것을 제안합니다. 이 예에서는 이 두 회귀 계열에서 코스 성적에 대해 정확히 동일한 예측을 얻을 수 있습니다. 하나는 언어 및 수학 점수에서 개별 코스의 성적을 예측하고 다른 하나는 AS 및 VMD 점수에서 동일한 성적을 예측합니다. 사실, 3개의 수학 + 5개의 언어 및 5개의 언어 + 3 수학의 합성물을 구성하고 이 두 합성물에서 성적을 예측하는 일련의 2변수 다중 회귀를 실행하면 동일한 예측을 얻을 수 있습니다. 이러한 예는 모두 선형 함수 원래의 언어 및 수학 점수.

      핵심은 다음과 같습니다. 미디엄 예측 변수, 그리고 당신은 미디엄 원래 예측 변수 미디엄 이러한 예측 변수의 선형 함수를 사용하면 일반적으로 정보를 얻거나 잃을 수 없습니다. 선형 함수의 점수를 사용하여 원래 변수의 점수를 재구성할 수 있습니다. 그러나 다중 회귀는 새로운 변수(예: 특정 과정의 성적)를 예측하기 위해 최적의 방법으로 보유한 정보(현재 샘플의 제곱 오차의 합으로 측정)를 사용합니다. 선형 함수에는 원래 변수와 동일한 정보가 포함되어 있으므로 이전과 동일한 예측을 얻을 수 있습니다.

      정확히 동일한 예측을 얻는 방법이 많다는 점을 감안할 때 다른 것보다 한 세트의 선형 함수를 사용하는 것이 이점이 있습니까? 예, 한 세트가 있을 수 있습니다. 더 간단 다른 것보다. 하나의 특정 선형 함수 쌍을 사용하면 두 개의 변수가 아닌 하나의 변수(즉, 하나의 선형 함수)에서 많은 코스 성적을 예측할 수 있습니다. 예측 변수가 더 적은 회귀를 더 간단한 것으로 간주하면 다음과 같은 질문을 할 수 있습니다. 전형적인 회귀에서 필요합니까? 단순성의 측정을 최대화하는 예측 변수 쌍은 다음을 가지고 있다고 말할 수 있습니다. 단순한 구조. 성적이 관련된 이 예에서는 구두 시험 점수만으로 일부 코스의 성적을 정확하게 예측하고 수학 점수만으로 다른 코스의 성적을 정확하게 예측할 수 있습니다. 그렇다면 모든 예측에 대해 두 테스트를 모두 사용한 경우보다 예측에서 "간단한 구조"를 얻었을 것입니다.

      요인 분석의 단순 구조

      단순한 구조의 극단적인 경우 각 X-변수에는 하나의 큰 항목만 있으므로 나머지는 모두 무시할 수 있습니다. 그러나 이는 일반적으로 달성할 것으로 예상하는 것보다 더 간단한 구조가 될 것입니다. 실제 세계에서 각 변수는 일반적으로 다른 하나의 변수에만 영향을 받지 않습니다. 그런 다음 부하 검사를 기반으로 요소의 이름을 주관적으로 지정합니다.

      공통 요인 분석에서 회전 프로세스는 실제로 요인에 대한 개별 사례 점수를 알지 못하기 때문에 여기에서 암시한 것보다 다소 추상적입니다. 그러나 여기에서 가장 관련성이 높은 다중 회귀에 대한 통계(다중 상관 관계 및 표준화된 회귀 기울기)는 모두 관련된 변수 및 요인의 상관 관계에서 계산할 수 있습니다. 따라서 개별 점수를 사용하지 않고 해당 상관 관계에 대한 간단한 구조로 회전 계산을 기반으로 할 수 있습니다.

      요인이 상관관계가 없는 상태로 유지되어야 하는 회전은 다음과 같습니다. 직교 다른 사람들은 비스듬한 회전. 사선 회전은 종종 결과를 해석할 때 요인 상호상관 행렬도 고려해야 하지만 더 간단한 구조를 달성합니다. 매뉴얼은 일반적으로 어느 것이 무엇인지 명확하지만 모호한 점이 있는 경우 간단한 규칙은 요인 상관 행렬을 인쇄할 수 있는 기능이 있는 경우 직교 회전에 이러한 용량이 필요하지 않기 때문에 회전이 비스듬하다는 것입니다. .

      Gorsuch(1983)의 24개 정신 능력 변수 중 4개 요소의 Oblique Promax 회전

      이 표는 아주 좋은 간단한 구조를 보여줍니다. 4개의 변수 블록 각각 내에서 높은 값(절대값이 약 .4 이상)은 일반적으로 4개의 블록 각각에 대해 별도의 열인 단일 열에 있습니다. 또한 각 블록 내의 변수는 모두 동일한 종류의 일반적인 정신 능력을 측정하는 것으로 보입니다. 이러한 일반화의 주요 예외는 세 번째 블록에 있습니다. 해당 블록의 변수는 시각적 능력과 추론 모두의 측정값을 포함하는 것으로 보이며 추론 변수(블록의 마지막 4개)는 일반적으로 하나 이상의 다른 열에 있는 부하보다 높지 않은 열 3에 부하가 있습니다. 이것은 별도의 "시각적" 및 "추론" 요인을 산출할 수 있기를 희망하면서 5단계 솔루션을 시도해 볼 가치가 있음을 시사합니다. 표 1의 요인 이름은 Gorsuch에 의해 주어졌지만 두 번째 블록의 변수를 조사한 결과 "단순 반복 작업"이 "수치적"보다 요인 2에 대한 더 나은 이름일 수 있음을 시사합니다.

      항상 한 가지 요소에 대해 모든 변수가 크게 로드되도록 해야 한다는 의미는 아닙니다. 예를 들어, 산술 단어 문제를 다루는 능력 테스트는 언어적 요인과 수학적 요인 모두에 높은 부하를 줄 수 있습니다. 이것은 실제로 클러스터 분석보다 요인 분석의 장점 중 하나입니다. 두 개의 다른 클러스터에 동일한 변수를 넣을 수 없기 때문입니다.

      주성분 분석(PCA)

      기초

      PCA의 중심 개념은 표현 또는 요약입니다. 큰 변수 집합을 더 큰 집합을 가장 잘 요약하는 더 작은 집합으로 대체하려고 한다고 가정합니다. 예를 들어, 30번의 정신 테스트에서 수백 명의 학생들의 점수를 기록했는데 그 모든 점수를 저장할 공간이 없다고 가정합니다. (이것은 컴퓨터 시대에 매우 인공적인 예이지만 PCA가 발명된 그 이전에는 더 매력적이었습니다.) 저장의 경제를 위해 세트를 학생당 5점으로 줄이고 싶습니다. 가능한 한 정확하게 원래의 30개 점수를 재구성합니다.

      허락하다 NS 그리고 미디엄 현재 예에서 30과 5의 원래 변수와 감소된 변수 수를 각각 나타냅니다. 원래 변수는 X, 요인에 대한 요약 변수 F로 표시됩니다. 가장 단순한 경우 재구성 정확도의 측정값은 다음의 합입니다. NS X-변수와 요인에서 만든 X의 예측 간의 다중 상관 관계를 제곱했습니다. 보다 일반적인 경우에는 대응하는 X-변수의 분산으로 각 제곱 다중 상관 관계에 가중치를 부여할 수 있습니다. 각 변수의 점수에 선택한 상수를 곱하여 이러한 분산을 직접 설정할 수 있기 때문에 선택한 모든 가중치를 다른 변수에 할당할 수 있는 능력에 해당합니다.

      이제 수학적 의미로 잘 정의된 문제가 있습니다. NS 집합에 대한 변수 미디엄 원본을 가장 잘 요약하는 변수의 선형 함수 NS 방금 설명한 의미에서. 그러나 무한히 많은 선형 함수가 똑같이 좋은 요약을 제공한다는 것이 밝혀졌습니다. 문제를 하나의 고유한 솔루션으로 좁히기 위해 세 가지 조건을 소개합니다. 먼저, 미디엄 파생된 선형 함수는 상호 관련이 없어야 합니다. 둘째, 모든 세트 미디엄 선형 함수는 더 작은 집합에 대한 함수를 포함해야 합니다. 예를 들어, 최상의 4개의 선형 함수는 최상의 3을 포함해야 하며, 여기에는 최상의 2가 포함되어야 합니다. 셋째, 각 선형 함수를 정의하는 제곱 가중치는 합이 1이어야 합니다. 이 세 가지 조건은 대부분의 데이터 세트에 대해 하나의 고유한 솔루션을 제공합니다. 일반적으로 있습니다 NS 선형 함수( 주성분) 모두 사용하여 중요성이 감소 NS 원래 X-점수를 완벽하게 재구성하고 첫 번째 미디엄 (어디 미디엄 범위 1에서 NS) 해당 값에 대해 가능한 최상의 재구성을 얻을 수 있습니다. 미디엄.

      각 구성 요소의 정의 고유 벡터 또는 특징 벡터 또는 잠재 벡터 X-변수로부터 그것을 형성하는 데 사용되는 가중치의 열로. 원래 행렬 R이 상관 행렬이면 각 성분의 고유값 또는 특성 값 또는 잠재 가치 X-변수와의 상관관계 제곱의 합입니다. R이 공분산 행렬인 경우 고유값을 상관 제곱의 가중 합으로 정의하고, 각 상관은 해당 X-변수의 분산으로 가중됩니다. 고유값의 합은 항상 R의 대각선 항목의 합과 같습니다.

      고유하지 않은 솔루션은 둘 이상의 고유값이 정확히 같을 때만 발생하며 해당 고유 벡터가 고유하게 정의되지 않은 것으로 판명되었습니다. 이 경우는 실제로 거의 발생하지 않으므로 앞으로는 무시하겠습니다.

      각 구성요소의 고유값을 구성요소가 설명하는 "분산량"이라고 합니다. 이에 대한 주요 이유는 제곱 상관의 가중 합으로 고유값의 정의가 있기 때문입니다. 그러나 구성 요소 점수의 실제 분산이 고유값과 동일한 것으로 나타났습니다. 따라서 PCA에서 "요인 분산"과 "요인이 설명하는 분산의 양"은 항상 동일합니다. 따라서 두 구는 개념적으로 매우 다른 양을 나타내더라도 종종 같은 의미로 사용됩니다.

      주성분의 수

      1. 고유값의 합 = p
      입력 행렬이 상관 행렬인 경우

      고유값의 합 = 입력 분산의 합
      입력 행렬이 공분산 행렬인 경우

      2. 설명된 분산의 비율 = 고유값 / 고유값의 합

      3. 제곱 요인 적재의 합 제이th 주성분
      = 고유값제이

      4. 변수에 대한 제곱 요인 적재의 합 NS
      = 변수에 설명된 분산 NS
      = Cii (대각선 입력 NS 매트릭스 C)
      = 공동체NS 공통 요인 분석에서
      = 변수의 분산 NS 만약 미디엄 = NS

      5. 열 간 외적의 합 NS 그리고 제이 인자 로딩 행렬의
      = C아이 (기입 아이 매트릭스 C)

      6. #3, #4, #5의 관계는 회전 후에도 여전히 유효합니다.

      7. R - C = U. 필요한 경우 규칙 4를 사용하여 C에서 대각선 항목을 찾고 규칙 7을 사용하여 U에서 대각선 항목을 찾을 수 있습니다.

      두 가지 요인 분석 비교

      실제로 두 가지 요인 분석의 유사성에 대한 질문에는 여러 가지 다른 질문이 있을 수 있습니다. 먼저 두 가지 다른 데이터 형식을 구별해야 합니다.

      1. 동일한 변수, 두 그룹. 남성과 여성, 또는 치료 그룹과 통제 그룹에 대해 동일한 조치가 취해질 수 있습니다. 그러면 두 요인 구조가 동일한지 여부에 대한 질문이 발생합니다.

      2. 하나의 그룹, 두 개의 조건 또는 두 개의 변수 세트. 두 개의 테스트 배터리가 한 그룹의 피험자에게 주어질 수 있으며 두 세트의 점수가 어떻게 다른지에 대한 질문이 나옵니다. 또는 두 가지 다른 조건에서 동일한 배터리가 제공될 수 있습니다.

      다음 두 섹션에서는 이러한 질문을 개별적으로 고려합니다.

      두 그룹의 요인 분석 비교

      "이 두 그룹의 요인 구조가 동일합니까?"라는 질문입니다. 실제로 "같은 요소를 가지고 있습니까?"라는 질문과 상당히 다릅니다. 후자의 질문은 "두 그룹에 대해 두 가지 다른 요인 분석이 필요합니까?"라는 질문에 더 가깝습니다. 요점을 보기 위해 5개의 "언어" 테스트와 5개의 "수학" 테스트가 있는 문제를 상상해 보십시오. 단순화를 위해 두 테스트 세트 간의 모든 상관 관계가 정확히 0이라고 상상해 보십시오. 또한 단순성을 위해 구성 요소 분석을 고려하지만 공통 요인 분석과 관련하여 동일한 사항이 만들어질 수 있습니다. 이제 5가지 언어 테스트 간의 상관 관계가 모두 정확히 여성은 .4, 남성은 .8인 반면, 5가지 수학 테스트 간의 상관 관계는 모두 정확히 여성은 .8, 남성은 .4라고 상상해 보십시오. 두 그룹의 요인 분석은 개별적으로 다른 요인 구조를 산출하지만 각 성별의 동일한 요인 분석은 모든 수학 항목에 대해 가중치가 0인 모든 언어 항목의 균등 가중치 평균인 "언어" 요인과 "수학" 요인을 식별합니다. " 반대 패턴의 요인. 이 예에서는 두 요인 구조가 상당히 다르지만 두 성별에 대해 별도의 요인 분석을 사용하여 얻을 수 있는 것은 없습니다.

      2군 문제의 또 다른 중요한 점은 A군에 대해 4개의 요인을 도출하고 B군에 대해 4개의 요인을 도출하는 분석은 결합된 집단에서 8을 도출하는 분석만큼 총 요인이 많다는 점이다. 따라서 실용적인 질문은 분석이 다음을 도출하는지 여부가 아닐 수 있습니다. 미디엄 두 그룹 각각의 요인이 분석에서 파생된 것보다 데이터에 더 적합합니다. 미디엄 결합된 그룹의 요인. 오히려 두 개의 분리된 분석을 2를 유도하는 분석과 비교해야 합니다.미디엄 결합된 그룹의 요인. 구성 요소 분석을 위해 이 비교를 수행하려면 첫 번째 미디엄 각 개별 그룹의 고유값을 계산하고 이 두 합계의 평균을 처음 2개의 합계와 비교합니다.미디엄 결합된 그룹의 고유값. 이 분석이 두 그룹에 대해 별도의 요인 분석을 수행하는 것이 더 낫다는 것을 시사하는 경우는 매우 드뭅니다. 이 동일한 분석은 공통 요인 분석에 대한 질문에도 최소한 대략적인 답변을 제공해야 합니다.

      질문이 실제로 두 요인 구조가 동일한지 여부라고 가정합니다. 이 질문은 두 상관 또는 공분산 행렬이 동일한지 여부에 대한 질문과 매우 유사합니다. 이는 요인 분석을 전혀 참조하지 않고 정확하게 정의된 질문입니다. 이러한 가설에 대한 테스트는 이 작업의 범위를 벗어나지만 두 공분산 행렬의 동일성에 대한 테스트는 Morrison(1990) 및 다변량 분석에 대한 다른 작업에 나타납니다.

      단일 그룹에 있는 두 변수 세트의 요인 분석 비교

      두 개의 개별 샘플 사례의 경우와 같이 종종 요인의 관점에서 표현되는 질문이 있지만 두 상관 또는 공분산 행렬의 평등에 대한 질문으로 더 잘 표현됩니다. 요인 분석 참조. 현재 사례에서 우리는 두 개의 평행한 변수 집합을 가지고 있습니다. 즉 집합 A의 각 변수는 집합 B의 변수와 평행합니다. 사실 집합 A와 B는 두 개의 다른 조건에서 관리되는 매우 동일한 측정일 수 있습니다. 그러면 문제는 두 상관 행렬 또는 공분산 행렬이 동일한지 여부입니다.이 질문은 요인분석과는 아무런 관련이 없지만 AB 상관관계가 높은지 여부와도 거의 관련이 없습니다. 세트 A와 B 내의 두 상관 또는 공분산 행렬은 AB 상관 관계가 높거나 낮은지 여부에 관계없이 동일할 수 있습니다.

      Darlington, Weinberg, and Walberg(1973)는 집합 A와 B가 동일한 사례 표본에서 측정될 때 변수 집합 A와 B에 대한 공분산 행렬이 동일하다는 귀무 가설의 검정을 설명했습니다. AB 공분산 행렬이 대칭이라는 가정이 필요합니다. 따라서 예를 들어 세트 A와 B가 1년차와 2년차에 시행된 동일한 테스트 세트인 경우 가정에서는 1년차의 테스트 X와 2년차의 테스트 Y 사이의 공분산이 2년차의 테스트 X와 테스트 2년차 사이의 공분산과 같아야 합니다. 1년차의 Y. 이 가정이 주어지면 두 세트에 있는 병렬 변수의 합과 차이로 구성된 두 세트의 점수를 A+B와 AB라고 부를 수 있습니다. 그런 다음 원래 귀무 가설은 집합 A+B의 모든 변수가 집합 A-B의 모든 변수와 상관 관계가 없다는 가설과 동일합니다. 이 가설은 MANOVA로 테스트할 수 있습니다.

      SYSSTAT 5의 요인 및 성분 분석

      데이터 입력

      FACTOR는 표준 직사각형 형식의 데이터를 허용합니다. 자동으로 상관 행렬을 계산하고 추가 분석에 사용합니다. 대신 공분산 행렬을 분석하려면 다음을 입력하십시오.

      나중에 상관 행렬을 분석하려면 다음을 입력하십시오.

      "상관" 유형이 기본 유형이므로 상관 행렬만 분석하려는 경우 입력할 필요가 없습니다.

      요인 분석을 위한 데이터를 준비하는 두 번째 방법은 CORR 메뉴에서 상관 또는 공분산 행렬을 계산하고 저장하는 것입니다. SYSSTAT는 저장된 시점에 행렬이 상관 행렬인지 공분산 행렬인지 자동으로 기록하고 해당 정보를 저장합니다. 그러면 FACTOR는 자동으로 올바른 유형을 사용합니다.

      세 번째 방법은 인쇄물의 상관 또는 공분산 행렬이 있고 해당 행렬을 직접 입력하려는 경우에 유용합니다. 이렇게 하려면 INPUT 및 TYPE 명령을 결합하십시오. 예를 들어 행렬이 있다고 가정합니다.

      4개의 변수 ALGEBRA, GEOMETRY, COMPUTER, TRIGONOM에 대한 공분산 행렬입니다. (보통 이보다 더 중요한 숫자에 상관관계 또는 공분산을 입력합니다.) DATA 모듈에서 다음을 입력할 수 있습니다.

      수학 저장
      입력 대수학, 기하학, 컴퓨터, 삼각법
      유형 공분산
      운영
      .94
      .62 .89
      .47 .58 .97
      .36 .29 .38 .87
      그만두 다

      행렬의 하부 삼각 부분만 입력했음을 주목하십시오. 이 예에서는 대각선을 입력하지만 모든 대각선 항목이 1.0이 되도록 상관 행렬을 입력하는 경우 RUN 직전에 DIAGONAL ABSENT 명령을 입력한 다음 대각선 항목을 생략합니다.

      네 번째 방법, 습관 작업은 상관 또는 공분산 행렬을 워드 프로세서에 입력하거나 스캔한 다음 SYSSTAT의 GET 명령을 사용하여 행렬을 SYSSTAT로 이동하는 것입니다. 이 방법에서 SYSSTAT는 행렬 TYPE을 적절하게 기록하지 않으며 행렬을 상관 또는 공분산이 아닌 점수 행렬로 취급합니다. 불행히도 SYSSTAT는 예상한 형식으로 출력을 제공하며 전체 분석이 잘못 수행되었다는 명백한 징후가 없습니다.

      요인 분석 명령

      요인 대수학, 기하학, 컴퓨터, 삼각법

      주성분 대신 공통 요인 분석을 선택하려면 "반복 주축"에 대한 옵션 IPA를 추가하십시오. 모든 옵션은 슬래시 뒤에 나열됩니다. IPA는 옵션이지만 변수 목록은 그렇지 않습니다. 따라서 명령은 다음과 같이 읽을 수 있습니다.

      요인 대수학, 기하학, 컴퓨터, 삼각법 / IPA

      ITER(반복) 옵션은 공통 요인 분석에서 공통성을 추정하기 위한 최대 반복 횟수를 결정합니다. 커뮤니티 추정치가 ITER = 25라고 SYSSTAT가 경고하는 경우 ITER를 늘립니다. TOL 옵션은 FACTOR가 커뮤니티 추정치를 개선하려는 시도를 중지하는 커뮤니티 추정치의 변경을 지정합니다. 기본값은 TOL = .001입니다. PLOT 옵션은 요인 또는 성분 쌍에 대한 요인 적재 플롯을 생성합니다. 이러한 플롯의 수는 m(m-1)/2이며 다음과 같은 경우 클 수 있습니다. 미디엄 크다. 이 모든 옵션을 사용하는 명령은 다음을 읽을 수 있습니다.

      요인 / IPA, TOL = .0001, ITER = 60, 플롯

      이것은 FACTOR 명령에 대한 유일한 옵션입니다. FACTOR 프로그램에 대한 다른 모든 명령은 별도의 명령으로 실행됩니다.

      요인 수를 제어하는 ​​데 사용할 수 있는 두 가지 명령은 NUMBER 및 EIGEN입니다. 명령

      FACTOR에게 4개의 요소를 유도하도록 지시합니다. 명령

      FACTOR에게 .5 이상의 고유값 수와 동일한 수의 인수를 선택하도록 지시합니다. 따라서 상관 행렬을 인수분해하면 명령

      요인의 수를 선택하는 카이저 규칙을 구현합니다. 기본값은 EIGEN = 0이며 FACTOR가 가능한 모든 요소를 ​​유도합니다. NUMBER 및 EIGEN 명령을 모두 사용하는 경우 FACTOR는 더 적은 수의 요인을 생성하는 규칙을 따릅니다.

      한 단어로 된 명령 SORT는 FACTOR가 인자 로딩 행렬을 인쇄할 때 인자 로딩에 따라 변수를 정렬하도록 합니다. 특히, FACTOR가 먼저 요소 1에서 .5 이상으로 로드하는 모든 변수를 인쇄한 다음 요소 2에서 .5 이상으로 로드하는 모든 변수를 인쇄하게 합니다. 각 변수 블록 내에서 변수는 로드 크기에 따라 정렬됩니다. 로드가 가장 높은 해당 요소가 먼저 표시됩니다. 이 정렬을 사용하면 간단한 구조에 대한 요인 구조 행렬을 더 쉽게 조사할 수 있습니다.

      ROTATE 명령을 사용하면 회전 방법을 선택할 수 있습니다. 선택 사항은

      이러한 방법 간의 차이점은 이 장의 범위를 벗어납니다. 어쨌든 회전은 데이터에 대한 요인 구조의 적합성에 영향을 미치지 않으므로 원하는 경우 모두 사용하고 결과가 가장 좋은 것을 선택할 수 있습니다. 사실 그렇게 하는 것이 일반적입니다. 기본 회전 방법은 varimax이므로 ROTATE만 입력하면 varimax가 구현됩니다.

      요인 분석 결과를 파일로 저장하는 세 가지 옵션이 있습니다. 이렇게 하려면 FACTOR 명령보다 먼저 SAVE 명령을 사용하십시오. 명령

      주성분에 대한 점수를 MYFILE이라는 파일에 저장합니다. 공통 요인 점수가 정의되지 않았기 때문에 공통 요인 분석(IPA 옵션)과 함께 사용할 수 없습니다. 명령

      구성 요소를 정의하는 데 사용되는 계수를 저장합니다. 이러한 계수는 어떤 의미에서 요인 적재의 반대입니다. 적재는 요인에서 변수를 예측하는 반면 계수는 원래 변수의 관점에서 요인을 정의합니다. 회전을 지정하는 경우 계수는 회전된 구성요소를 정의하는 계수입니다. 명령

      공통 요인 분석 또는 성분 분석과 함께 사용할 수 있는 요인 적재 행렬을 저장합니다. 다시 말하지만, 회전을 지정하면 저장된 하중은 회전된 요인에 대한 것입니다.

      산출

      • 고유값
      • 요인 로딩 행렬(IPA의 경우 요인 패턴이라고 함)
      • 요인으로 설명되는 분산(일반적으로 고유값과 같음)
      • 요인으로 설명되는 분산 비율
      • 초기 커뮤니티 추정
      • 커뮤니티 추정치의 변화 지수
      • 최종 커뮤니티 추정치
      • 입력 상관 또는 공분산 행렬 R
      • 잔차 공분산 행렬--U의 비대각선 부분
      • 줄거리
      • 요인 적재 플롯, 한 번에 두 요인

      사용 데이터
      회전 = 바리맥스
      종류
      길게 인쇄하다
      숫자 = 2
      factor cardio, 암, 폐, pneu_flu, 당뇨병, 간/ipa, 줄거리

      생략된 스크리 플롯과 인자 로딩 플롯, 그리고 명확성을 위해 내가 만든 몇 가지 사소한 편집을 제외하고 이 명령은 다음 출력을 생성합니다.

      참조

      Gorsuch, Richard L. (1983) 요인 분석. 힐스데일, 뉴저지: 얼바움

      모리슨, 도널드 F. (1990) 다변수 통계 방법. 뉴욕: McGraw-Hill.

      Rubenstein, Amy S. (1986). 질문지형 지적 호기심 척도의 항목별 분석. Cornell University 박사 학위 논문.

      Galina Miklosic이 작성한 이 기사의 벨로루시어 번역을 읽으려면 여기를 클릭하십시오.


      콘텐츠 미리보기

      요인 분석 더 적은 수의 기본 관찰 불가능한(잠재) "인자" 측면에서 관찰된 변수 및 해당 공분산 구조를 모델링하는 방법입니다. 요인은 일반적으로 관찰된 현상을 설명할 수 있는 광범위한 개념 또는 아이디어로 간주됩니다. 예를 들어, 특정 사회적 수준을 얻고자 하는 기본적인 욕구는 대부분의 소비 행동을 설명할 수 있습니다. 이러한 관찰되지 않은 요소는 관찰된 정량적 측정보다 사회 과학자에게 더 흥미롭습니다.

      요인 분석은 일반적으로 많은 주관적 판단이 필요한 탐색적/기술적 방법입니다. 모델, 방법 및 주관성이 매우 유연하여 해석에 대한 논쟁이 발생할 수 있기 때문에 널리 사용되는 도구이며 종종 논란의 여지가 있습니다.

      방법은 주성분과 유사하지만 교과서에서 지적한 것처럼 요인 분석이 더 정교합니다. 어떤 의미에서 요인 분석은 주성분의 역전입니다. 요인 분석에서 우리는 관찰된 변수를 "요인"의 선형 함수로 모델링합니다. 주성분에서 관찰된 변수의 선형 조합인 새 변수를 만듭니다. PCA와 FA 모두 데이터 차원이 축소됩니다. PCA에서 주요 구성 요소의 해석은 종종 매우 명확하지 않다는 것을 기억하십시오. 경우에 따라 특정 변수가 하나 이상의 구성 요소에 크게 기여할 수 있습니다. 이상적으로는 각 변수가 하나의 구성 요소에만 크게 기여하는 것이 좋습니다. 그 목표를 향해 요인 회전이라는 기술이 사용됩니다. 요인 분석이 관련된 분야의 예로는 생리학, 건강, 지능, 사회학, 때로는 생태학 등이 있습니다.


      요인 분석

      요인 분석 둘 다 포함 성분 분석 그리고 공통 요인 분석. 다른 통계 기법보다 요인 분석은 그 목적에 대해 혼란을 겪었습니다. 이것은 두 가지 방식으로 내 프레젠테이션에 영향을 미칩니다. 먼저 요인 분석이 수행하는 방식을 검토하기 전에 요인 분석이 수행하는 작업을 설명하는 데 긴 섹션을 ​​할애합니다. 둘째, 나는 일반적인 발표 순서를 뒤집기로 결정했습니다. 구성 요소 분석은 더 간단하며 대부분의 논의에서 먼저 제시합니다. 하지만 저는 공통 요인 분석이 대부분의 연구자들이 실제로 해결하고자 하는 문제를 해결하는 데 더 가깝다고 생각합니다. 따라서 구성 요소 분석을 먼저 배우는 것은 실제로 이러한 문제가 무엇인지 이해하는 데 방해가 될 수 있습니다. 따라서 구성 요소 분석은 이 장의 후반부에 소개됩니다.

      요인 분석이 할 수 있는 것과 할 수 없는 것

      요인 분석 문제의 몇 가지 예

      흥미로운 아이디어였지만 잘못된 것으로 밝혀졌습니다. 오늘날 College Board 시험 서비스는 언어 능력, 수학 능력, 논리 능력의 세 가지 중요한 정신적 능력 요소가 있다는 생각에 기반한 시스템을 운영하고 있으며 대부분의 심리학자들은 다른 많은 요소도 식별할 수 있다는 데 동의합니다.

      2. 자율 신경계의 활동에 대한 다양한 측정(심박수, 혈압 등)을 고려하십시오. 심리학자들은 무작위 변동을 제외하고 이러한 모든 측정이 함께 위아래로 움직이는지 여부를 알고 싶어 했습니다. "활성화" 가설 . 아니면 자율 측정 그룹이 함께 위아래로 움직이지만 다른 그룹과 분리되어 있습니까? 아니면 모든 측정이 대체로 독립적입니까? 내 미공개 분석에 따르면 한 데이터 세트에서는 어쨌든 데이터가 활성화 가설에 아주 잘 맞았습니다.

      3. 많은 종류의 동물(쥐, 생쥐, 새, 개구리 등)이 특정 지점에서 소음(어떤 종류의 소음이든)이 나올 때마다 음식이 특정 지점에 나타나도록 훈련되었다고 가정합니다. 그런 다음 소리가 나타날 때 해당 방향으로 회전하는지 확인하여 특정 소리를 감지할 수 있는지 여부를 알 수 있습니다. 그런 다음 많은 소리와 종을 연구했다면 청력의 차원이 얼마나 다양한지 알고 싶을 것입니다. 한 가지 가설은 고주파 소리를 감지하는 능력, 저주파 소리를 감지하는 능력, 중간 소리를 감지하는 능력이라는 세 가지 차원에서만 변한다는 것입니다. 반면에 종은 이 세 가지 차원 이상에서 청각 능력이 다를 수 있습니다. 예를 들어, 일부 종은 날카로운 딸깍 소리와 같은 소리를 더 잘 감지하는 반면 다른 종은 연속적인 쉿 소리와 같은 소리를 더 잘 감지할 수 있습니다.

      4. 서로 다른 종류의 자동차에 대해 잘 알고 있는 500명의 사람들이 "당신은 그런 종류의 자동차를 얼마나 소유하고 싶습니까?"라는 질문에 대해 20개의 자동차 모델을 각각 평가한다고 가정합니다. 등급이 다른 차원의 수에 대해 유용하게 질문할 수 있습니다. 1요인 이론은 사람들이 단순히 가장 비싼 모델에 가장 높은 등급을 부여한다고 가정합니다. 2요인 이론은 어떤 사람들은 스포티한 모델에 가장 끌리는 반면 다른 사람들은 고급스러운 모델에 가장 끌린다고 가정합니다. 3요인 및 4요인 이론은 안전성과 신뢰성을 추가할 수 있습니다. 또는 자동차 대신에 음식, 정치 정책, 정치 후보자 또는 기타 여러 종류의 대상에 관한 태도를 연구하기로 선택할 수도 있습니다.

      5. Rubenstein(1986)은 "나는 기계가 어떻게 작동하는지 알아내는 것을 좋아한다" 또는 "나는 새로운 종류의 음식을 시도하는 것을 좋아한다"와 같은 많은 진술을 가진 중학생들의 동의를 분석하여 호기심의 본질을 연구했습니다. ." 요인 분석에서는 문제 해결, 학습, 읽기의 즐거움을 측정하는 3가지 요인을 식별했습니다. 3가지 요인은 자연 과학, 예술 및 음악, 일반적으로 새로운 경험에 대한 관심을 측정하고 1명은 돈에 대한 상대적으로 낮은 관심을 나타냅니다.

      목표: 원인의 이해

      1. 이 변수들 사이의 관계 패턴을 설명하기 위해 얼마나 많은 다른 요인이 필요합니까?
      2. 그 요인들의 본질은 무엇인가?
      3. 가설된 요인이 관찰된 데이터를 얼마나 잘 설명합니까?
      4. 관찰된 각 변수에는 순전히 무작위 또는 고유한 분산이 얼마나 포함되어 있습니까?

      요인 분석의 절대적 대 휴리스틱 사용

      앞의 예는 유용한 구별을 설명하는 데 사용할 수 있습니다. 순수한 그리고 휴리스틱 요인 분석의 사용. 스피어맨의 NS 지능 이론과 자율 기능 활성화 이론은 변수 간의 관계 패턴에 대한 완전한 설명을 제공하는 것으로 가정되거나 가정된 절대 이론으로 생각할 수 있습니다. 반면에 Rubenstein은 호기심의 7가지 주요 요인 목록이 호기심에 대한 완전한 설명을 제공한다고 주장한 적이 없습니다. 오히려 이러한 요소는 데이터 본문을 요약하는 가장 좋은 방법인 가장 중요한 7가지 요소인 것처럼 보입니다. 요인 분석은 절대 또는 발견적 모델을 제안할 수 있습니다. 차이점은 출력을 해석하는 방법에 있습니다.

      요인분석은 객관적인가?

      회귀 및 분산 분석에서도 유사한 균형 문제가 발생하지만 일반적으로 다른 작업자가 거의 또는 정확히 동일한 결론에 도달하는 것을 방해하지 않습니다. 결국 두 작업자가 동일한 데이터에 분산 분석을 적용하고 두 작업자가 .05 수준에서 유의하지 않은 항을 삭제하면 둘 다 정확히 동일한 효과를 보고합니다. 그러나 요인 분석의 상황은 매우 다릅니다. 나중에 설명하는 이유 때문에 요소의 수에 대한 가설을 테스트할 구성 요소 분석의 유의성 테스트는 일반적으로 이해되는 대로 존재하지 않습니다. 공통요인분석에는 그러한 검정이 있지만, 만족스럽게 해석될 수 있는 것보다 더 많은 요인을 종종 산출한다는 사실에 의해 그 유용성이 제한된다. 따라서 해석 가능한 요소만 보고하려는 작업자는 여전히 객관적인 테스트를 거치지 않습니다.

      유사한 문제가 요인의 특성을 식별할 때 발생합니다. 두 명의 작업자가 각각 6가지 요인을 식별할 수 있지만 두 가지 요인 집합이 다를 수 있습니다. 여행 작가 비유는 여기에서도 유용합니다. 두 작가가 각각 미국을 6개 지역으로 나눌 수 있지만 지역을 매우 다르게 정의합니다.

      또 다른 지리적 유추는 요인 분석과 더 유사할 수 있습니다. 왜냐하면 정량화 가능한 목표를 최대화하도록 설계된 컴퓨터 프로그램이 포함되기 때문입니다. 컴퓨터 프로그램은 때때로 주를 지리적으로 인접하고 인구가 거의 같으며 인종 또는 기타 요인의 차원에서 동질적인 의회 구역으로 나누는 데 사용됩니다. 두 가지 다른 지구 창설 프로그램은 매우 다른 답을 제시할 수 있지만 두 가지 답은 모두 합리적입니다. 이 비유는 요인 분석 프로그램이 일반적으로 지구 만들기 프로그램만큼 서로 다른 답변을 산출하지 않는다고 우리가 믿는 의미에서 너무 좋습니다.

      요인 분석 대 클러스터링 및 다차원 척도

      이러한 다른 방법에 비해 요인 분석의 또 다른 장점은 요인 분석이 상관 관계의 특정 속성을 인식할 수 있다는 것입니다. 예를 들어, 변수 A와 B가 각각 .7과 변수 C의 상관관계가 있고 .49의 상관관계가 있는 경우 요인 분석은 .7 2 = .49이기 때문에 C가 일정하게 유지될 때 A와 B의 상관관계가 0임을 인식할 수 있습니다. 다차원 척도화 및 군집 분석은 이러한 관계를 인식하는 기능이 없습니다. 상관 관계는 상관 관계가 아니라 단지 일반적인 "유사성 측정"으로 취급되기 때문입니다.

      우리는 이러한 다른 방법이 상관 행렬에 적용되어서는 안 된다고 말하는 것이 아닙니다. 때때로 요인 분석을 통해 사용할 수 없는 통찰력을 얻을 수 있습니다. 그러나 그들은 요인 분석을 쓸모없게 만들지 않았습니다. 다음 섹션에서는 이 점을 다룹니다.

      요인 "차별화" 변수 대 요인 "기본" 변수

      "차별화"에 대한 문구의 가능한 의미 중 하나는 변수 집합이 모두 서로 높은 상관 관계가 있지만 평균이 다르다는 것입니다. 오히려 비슷한 의미가 다른 경우에 발생할 수 있습니다. 광범위하게 인식되는 동일한 정신 능력을 테스트하지만 나열된 순서대로 난이도가 증가하는 여러 테스트 A, B, C, D를 고려하십시오. 그런 다음 테스트 간의 가장 높은 상관 관계는 이 목록의 인접한 항목 사이에 있을 수 있습니다(rAB, NS기원전 그리고 rCD) 반면 가장 낮은 상관 관계는 목록의 반대쪽 끝에 있는 항목(r기원 후). 항목 간의 상관관계에서 이 패턴을 관찰한 사람은 테스트를 "간단한 순서로 배치할 수 있다" 또는 "단 한 가지 요인만 다르다"라고 말할 수 있지만 그 결론은 요인 분석과 관련이 없습니다. 이 테스트 세트는 ~ 아니다 하나의 공통 요소만 포함합니다.

      이러한 종류의 세 번째 경우는 변수 A가 B에 영향을 미치고 C에 영향을 미치고 D에 영향을 미치며 이러한 변수를 연결하는 유일한 효과인 경우에 발생할 수 있습니다. 다시 한번, 가장 높은 상관관계는 r이 될 것입니다.AB, NS기원전 그리고 rCD 가장 낮은 상관 관계는 r기원 후. 누군가는 이 상관관계 패턴을 설명하기 위해 방금 인용한 것과 동일한 문구를 다시 사용할 수 있습니다. 이는 요인 분석과 관련이 없습니다.

      • 키가 5피트 2인치 이상입니까?
      • 키가 5피트 4인치 이상입니까?
      • 키가 5피트 6인치 이상입니까?
      • 등.
      • 우리 국가는 B 국가와 관세 장벽을 낮추어야합니까?
      • 두 개의 중앙 은행이 단일 통화를 발행해야 합니까?
      • 우리 군대는 하나가 되어야 합니까?
      • B국가와 융합해서 하나의 국가가 되어야 할까요?

      상관 행렬에 다차원 척도를 적용하면 변수 간의 이러한 단순한 차이 패턴을 모두 발견할 수 있습니다. 따라서 다차원 스케일링은 다음과 같은 요인을 찾습니다. 구별 짓다 요인 분석은 변수를 찾는 동안 기초 변수. 스케일링은 때때로 요인 분석이 아무것도 찾지 못하는 경우 단순함을 찾을 수 있고 요인 분석은 스케일링이 아무 것도 찾지 못하는 경우 단순함을 찾을 수 있습니다.

      의심스러운 역사

      기본 개념 및 원리

      간단한 예

      이것이 정신 능력을 측정하는 5가지 변수 간의 상관 관계라고 상상해 보십시오. 행렬 R55는 단일 공통 요인의 가설과 정확히 일치합니다. NS 5개의 관찰된 변수와의 상관 관계는 각각 .9, .8, .7, .6 및 .5입니다. 그 이유를 알아보려면 두 변수 간의 편상관 관계에 대한 공식을 고려하십시오. NS 그리고 NS 세 번째 변수를 부분화 NS:

      이 공식은 rab.g = 0인 경우에만 rab = r에이그 NSbg. 변수가 일반 요인으로 기능하기 위한 필수 속성 NS 관찰된 두 변수 사이의 부분적 상관관계는 NS, 는 0입니다. 따라서 상관행렬을 일반적인 요인으로 설명할 수 있다면 NS, 관찰된 변수의 상관 관계 집합이 있다는 것은 사실입니다. NS, 이러한 상관 관계 중 두 가지의 곱이 두 관찰된 변수 간의 상관 관계와 같도록 합니다. 그러나 행렬 R55에는 정확히 그 속성이 있습니다. 즉, 모든 비대각선 항목 rjk 의 제품입니다 제이일과 케이행의 th 항목 .9 .8 .7 .6 .5. 예를 들어, 행 1과 열 3의 항목은 .9 x .7 또는 .63입니다. 따라서 행렬 R55는 단일 공통 요인의 가설에 정확히 맞습니다.

      실제 상관 행렬에서 해당 패턴을 찾았다면 정확히 무엇을 표시했을까요? 첫째, 요인의 존재는 추론 보다는 관찰. 우리는 확실히 없었을 것입니다 입증된 이 5개의 변수에 대한 점수는 단 하나의 공통 요인에 의해 영향을 받습니다. 그러나 그것은 관찰된 상관 관계의 패턴에 맞는 가장 단순하거나 가장 간결한 가설입니다.

      둘째, 우리는 관찰된 각 변수와 요인의 상관 관계를 추정할 수 있으므로 최소한 상관 관계가 있거나 상관 관계가 없는 점에서 요인의 특성에 대해 말할 수 있습니다. 이 예에서 값 .9 .8 .7 .6 .5는 이러한 추정된 상관 관계입니다.

      셋째, 요인에 대한 각 개인의 정확한 점수를 도출한다는 의미에서 요인을 측정할 수 없었다. 그러나 다중 회귀 방법을 사용하여 관찰된 변수에 대한 점수에서 요인에 대한 각 개인의 점수를 추정할 수 있습니다.

      Matrix R55는 관찰된 상관관계가 가장 단순한 요인 분석 가설인 단일 공통 요인의 가설과 완벽하게 일치하기 때문에 사실상 가장 단순한 공통 요인 분석의 예입니다. 일부 다른 상관 행렬은 단일 공통 요인의 가설에 적합하지 않을 수 있지만 2개 또는 3개 또는 4개의 공통 요인 가설에는 적합할 수 있습니다. 요인이 적을수록 가설이 단순해집니다. 단순한 가설은 일반적으로 더 복잡한 가설보다 논리적인 과학적 우선순위를 갖기 때문에 더 적은 수의 요인을 포함하는 가설이 더 많은 요인을 포함하는 가설보다 선호되는 것으로 간주됩니다. 즉, 관찰된 상관 관계 집합과 명확하게 모순되지 않는 가장 단순한 가설(즉, 가장 적은 요인 포함)을 잠정적으로 수락합니다. 많은 작가들처럼, 나는 미디엄 가정된 공통 요인의 수를 나타냅니다.

      수학에 깊이 들어가지 않고도 요인 분석은 각 변수를 다음의 합으로 표현하려고 한다고 말할 수 있습니다. 흔한 그리고 고유 한 부분. 모든 변수의 공통 부분은 정의상 공통 요소에 의해 완전히 설명되며 고유 부분은 이상적으로 서로 완벽하게 상관 관계가 없습니다. 주어진 데이터 세트가 이 조건에 맞는 정도는 일반적으로 "잔차 상관 행렬"이라고 하는 분석을 통해 판단할 수 있습니다.

      행렬의 항목은 일반적으로 상관 관계가 아니기 때문에 이 행렬의 이름은 다소 오해의 소지가 있습니다. 특정 인쇄물에 대해 의심이 가는 경우 첫 번째 변수와 자체의 "상관 관계"와 같은 행렬의 대각선 항목을 찾으십시오. 이러한 대각선 항목이 모두 정확히 일치하지 않는 경우 1이면 인쇄된 행렬은 상관 행렬이 아닙니다. 그러나 일반적으로 각 비대각선 항목을 두 개의 해당 대각선 항목의 제곱근으로 나누어 상관 행렬로 변환할 수 있습니다. 예를 들어, 처음 두 개의 대각선 항목이 .36 및 .64이고 위치 [1,2]의 비대각선 항목이 .3이면 잔차 상관은 .3/(.6*.8) = 5입니다. /8 = .625.

      이러한 방식으로 발견된 상관 관계는 변수의 공통 부분이 다음 가설에 맞도록 하기 위해 변수의 "고유한" 부분 간에 허용되어야 하는 상관 관계입니다. 미디엄 공통 요인. 이러한 계산된 상관관계가 너무 높아 모집단에서 0이라는 가설과 일치하지 않는 경우 다음 가설은 미디엄 공통 요소는 거부됩니다. 증가 미디엄 항상 이러한 상관 관계를 낮추므로 데이터와 더 일치하는 가설이 생성됩니다.

      우리는 가장 단순한 가설(즉, 가장 낮은 미디엄) 데이터와 일치합니다. 이러한 점에서 요인 분석은 발전하는 데 수십 년 또는 수백 년이 걸린 과학사의 에피소드에 비유할 수 있습니다. 코페르니쿠스는 지구와 다른 행성들이 태양 주위를 돈다는 것을 깨달았지만 먼저 그들의 궤도가 원이라는 가설을 세웠다. 케플러는 나중에 궤도가 타원으로 더 잘 묘사된다는 것을 깨달았습니다. 원은 타원보다 단순한 그림이므로 이 과학사 에피소드는 우리가 단순한 이론으로 시작하여 관찰된 데이터에 더 잘 맞도록 점차 복잡하게 만드는 일반적인 요점을 보여줍니다.

      실험심리학의 역사에서도 같은 원리를 관찰할 수 있다. 1940년대에 실험 심리학자들은 교육 관행에 혁명을 일으킬 수도 있는 학습의 모든 기본 원리가 미로에서 쥐를 연구함으로써 발견될 수 있다고 널리 믿었습니다. 오늘날 그 관점은 터무니없이 지나치게 단순화된 것으로 간주되지만, 단순한 이론이 데이터에 맞지 않는다는 것이 분명해질 때만 단순한 이론에서 시작하여 점차 더 복잡한 이론으로 이동하는 것이 합리적이라는 일반적인 과학적 요지를 보여줍니다.

      이 일반적인 과학적 원리는 단일 요인 분석 내에서 적용될 수 있습니다. 가장 간단한 가능한 이론으로 시작하십시오(보통 미디엄 = 1), 해당 이론과 데이터 간의 적합성을 테스트한 다음 증가 미디엄 필요에 따라. 증가할 때마다 미디엄 더 복잡하지만 데이터에 더 잘 맞는 이론을 생성합니다. 데이터에 적절하게 맞는 이론을 찾으면 중지하십시오.

      관찰된 각 변수의 공동체 는 자체 공통 부분과의 추정된 제곱 상관 관계입니다. 즉, 공통 요소에 의해 설명되는 해당 변수의 분산 비율입니다. 여러 다른 값으로 요인 분석을 수행하면 미디엄, 위에서 제안한 것처럼 커뮤니티는 일반적으로 다음과 같이 증가합니다. 미디엄. 그러나 커뮤니티는 최종 가치를 선택하는 데 사용되지 않습니다. 미디엄. 낮은 커뮤니티성은 데이터가 가설에 맞지 않는다는 증거로 해석되지 않고 분석된 변수가 서로 거의 공통점이 없다는 증거로 해석됩니다. 대부분의 요인 분석 프로그램은 먼저 각 변수의 공통성을 해당 변수와 분석의 다른 변수 간의 제곱 다중 상관 관계로 추정한 다음 반복 절차를 사용하여 점진적으로 더 나은 추정치를 찾습니다.

      요인 분석은 상관 관계 또는 공분산. 공분산 covjk 번호가 매겨진 두 변수 사이 제이 그리고 케이 상관 관계 곱하기 두 표준 편차: covjk = rjk NS제이 NS케이, 여기서 rjk 그들의 상관 관계 및 s제이 그리고케이 그들의 표준 편차입니다. 공분산은 그다지 중요한 실질적인 의미는 없지만 다음 섹션에서 설명하는 몇 가지 매우 유용한 수학적 속성을 가지고 있습니다. 모든 변수는 1과 그 자체의 상관 관계가 있으므로 모든 변수의 자체 공분산은 표준 편차의 제곱인 분산입니다. 상관 행렬은 이미 표준 편차 1로 조정된 변수 집합의 분산 및 공분산 행렬(더 간결하게는 공분산 행렬)로 생각할 수 있습니다. 상관 또는 공분산 행렬을 의미합니다. 나는 R을 사용하여 관찰된 변수의 상관 또는 공분산 행렬을 나타낼 것입니다. 이것은 분명히 어색하지만 분석된 행렬은 거의 항상 상관 행렬이며 나중에 설명하는 것처럼 R의 공통 인자 부분에 대해 문자 C가 필요합니다.

      행렬 분해 및 순위

      요인 분석의 중심 정리는 전체 공분산 행렬에 대해 유사한 작업을 수행할 수 있다는 것입니다. 공분산 행렬 R은 일련의 요인으로 설명되는 공통 부분 C와 이러한 요인으로 설명되지 않는 고유 부분 U로 분할될 수 있습니다. 행렬 용어에서 R = C + U는 행렬 R의 각 항목이 행렬 C와 U의 해당 항목의 합임을 의미합니다.

      동일한 셀 주파수의 분산 분석에서와 같이 설명된 구성 요소 C는 더 세분화될 수 있습니다. C는 구성요소 행렬 c로 분해될 수 있습니다.1, 씨2등이 개별 요인으로 설명됩니다. 이러한 각 1요인 구성요소 c제이 "요소 적재" 열의 "외적"과 같습니다. 숫자 열의 외적은 다음을 입력하여 형성된 정방 행렬입니다. jk 행렬에서 항목의 곱과 같습니다. 제이 그리고 케이 열에서. 따라서 이전 예에서와 같이 열에 항목 .9, .8, .7, .6, .5가 있으면 외부 제품은 다음과 같습니다.

      이전에 이 행렬에서 비대각선 항목에 대해 언급했지만 대각선 항목은 언급하지 않았습니다. c의 각 대각선 항목제이 행렬은 실제로 해당 요인에 의해 설명되는 해당 변수의 분산 양입니다. 우리의 예에서, NS .9는 첫 번째 관찰된 변수와 상관 관계가 있으므로 해당 변수에서 설명된 분산의 양은 이 행렬의 첫 번째 대각선 항목인 .9 2 또는 .81입니다.

      이 예에는 하나의 공통 인자만 있으므로 이 예의 행렬 C(C55로 표시)는 C55 = c입니다.1. 따라서 이 예의 잔차 행렬 U(U55로 표시)는 U55 = R55 - c입니다.1. 이것은 U55에 대해 다음과 같은 행렬을 제공합니다.

      이것은 요인으로 설명되지 않는 변수 부분의 공분산 행렬입니다. 앞서 언급했듯이 U55의 모든 비대각선 항목은 0이고 대각선 항목은 각 변수의 설명되지 않거나 고유한 분산의 양입니다.

      종종 C는 여러 행렬 c의 합입니다.제이, 이 예에서와 같이 하나만이 아닙니다. 개수 - C에 합이 되는 행렬은 다음과 같습니다. 계급 이 예에서 행렬 C의 순위는 1입니다. C의 순위는 해당 모델의 공통 요인 수입니다. 특정 숫자를 지정하면 미디엄 요인 분석 프로그램은 원래 상관 관계 또는 공분산 행렬 R에 합산되는 두 개의 행렬 C와 U를 유도하여 C의 순위를 동일하게 만듭니다. 미디엄. 더 크게 설정할수록 미디엄, 더 가까운 C는 R에 가깝습니다. 미디엄 = NS, 어디 NS 가 행렬의 변수 수이면 C의 모든 항목은 R의 해당 항목과 정확히 같으므로 U는 0의 행렬로 남게 됩니다. 아이디어는 얼마나 낮게 설정할 수 있는지 확인하는 것입니다. 미디엄 여전히 C가 R에 대한 합리적인 근사치를 제공하도록 합니다.

      얼마나 많은 경우와 변수가 있습니까?

      변수 수에 대한 규칙은 회귀 분석과 요인 분석에서 매우 다릅니다. 요인 분석에서는 케이스보다 변수가 더 많아도 괜찮습니다. 사실, 일반적으로 변수가 기본 요인과 관련성을 유지하는 한 일반적으로 변수가 많을수록 더 좋습니다.

      얼마나 많은 요인?

      이 섹션에서 논의되는 두 가지 규칙 중 첫 번째 규칙은 공식 유의성 검정을 사용하여 공통 요인의 수를 식별합니다. N이 표본 크기를 나타내도록 하고, NS 변수의 수, 미디엄 요인의 수. 또한 R 상관 행렬로 변환된 잔차 행렬 U를 나타냅니다. |R| 는 행렬식이며 ln(1/|R|)는 해당 행렬식의 역수의 자연 로그입니다.

      이 규칙을 적용하려면 먼저 G = N-1-(2p+5)/6-(2/3)m을 계산합니다. 그런 다음 계산

      ln(1/|R|), 그 표현은 종종 r에 의해 잘 근사됩니다. 2, 여기서 합은 행렬 R에서 대각선 위의 모든 제곱 상관의 합을 나타냅니다..

      이 공식을 사용하여 요인 수를 선택하려면 다음으로 시작하십시오. 미디엄 = 1(또는 미디엄 = 0) 값을 연속적으로 증가시키기 위해 이 테스트를 계산합니다. 미디엄, 해당 값이 중요하지 않은 경우 중지 미디엄 의 가장 작은 값입니다. 미디엄 이는 데이터와 크게 모순되지 않습니다. 이 규칙의 가장 큰 어려움은 내 경험에 따르면 적당히 큰 표본을 사용하면 성공적으로 해석할 수 있는 것보다 더 많은 요인이 발생한다는 것입니다.

      대안적 접근을 권장합니다. 이 접근 방식은 한때 비실용적이었지만 오늘날에는 충분히 도달할 수 있습니다. 다양한 값으로 요인 분석 수행 미디엄, 회전을 완료하고 가장 매력적인 구조를 제공하는 것을 선택하십시오.

      회전

      예측 변수의 선형 함수

      이제 동료가 각 학생의 언어 및 수학 점수를 합산하여 복합 "학문 능력" 점수를 얻을 것을 제안하고 각 학생의 언어 및 수학 점수의 차이를 취하여 두 번째 변수를 구하도록 제안한다고 가정하겠습니다. (언어와 수학의 차이). 동료는 각 회귀에서 원래의 언어 및 수학 점수 대신 AS 및 VMD를 예측 변수로 사용하는 것을 제외하고 개별 코스의 성적을 예측하기 위해 동일한 회귀 집합을 실행할 것을 제안합니다. 이 예에서는 이 두 회귀 계열에서 코스 성적에 대해 정확히 동일한 예측을 얻을 수 있습니다. 하나는 언어 및 수학 점수에서 개별 코스의 성적을 예측하고 다른 하나는 AS 및 VMD 점수에서 동일한 성적을 예측합니다. 사실, 3개의 수학 + 5개의 언어 및 5개의 언어 + 3 수학의 합성물을 구성하고 이 두 합성물에서 성적을 예측하는 일련의 2변수 다중 회귀를 실행하면 동일한 예측을 얻을 수 있습니다. 이러한 예는 모두 선형 함수 원래의 언어 및 수학 점수.

      핵심은 다음과 같습니다. 미디엄 예측 변수, 그리고 당신은 미디엄 원래 예측 변수 미디엄 이러한 예측 변수의 선형 함수를 사용하면 일반적으로 정보를 얻거나 잃을 수 없습니다. 선형 함수의 점수를 사용하여 원래 변수의 점수를 재구성할 수 있습니다. 그러나 다중 회귀는 새로운 변수(예: 특정 과정의 성적)를 예측하기 위해 최적의 방법으로 보유한 정보(현재 샘플의 제곱 오차의 합으로 측정)를 사용합니다. 선형 함수에는 원래 변수와 동일한 정보가 포함되어 있으므로 이전과 동일한 예측을 얻을 수 있습니다.

      정확히 동일한 예측을 얻는 방법이 많다는 점을 감안할 때 다른 것보다 한 세트의 선형 함수를 사용하는 것이 이점이 있습니까? 예, 한 세트가 있을 수 있습니다. 더 간단 다른 것보다. 하나의 특정 선형 함수 쌍을 사용하면 두 개의 변수가 아닌 하나의 변수(즉, 하나의 선형 함수)에서 많은 코스 성적을 예측할 수 있습니다. 예측 변수가 더 적은 회귀를 더 간단한 것으로 간주하면 다음과 같은 질문을 할 수 있습니다. 전형적인 회귀에서 필요합니까? 단순성의 측정을 최대화하는 예측 변수 쌍은 다음을 가지고 있다고 말할 수 있습니다. 단순한 구조. 성적이 관련된 이 예에서는 구두 시험 점수만으로 일부 코스의 성적을 정확하게 예측하고 수학 점수만으로 다른 코스의 성적을 정확하게 예측할 수 있습니다. 그렇다면 모든 예측에 대해 두 테스트를 모두 사용한 경우보다 예측에서 "간단한 구조"를 얻었을 것입니다.

      요인 분석의 단순 구조

      단순한 구조의 극단적인 경우 각 X-변수에는 하나의 큰 항목만 있으므로 나머지는 모두 무시할 수 있습니다. 그러나 이는 일반적으로 달성할 것으로 예상하는 것보다 더 간단한 구조가 될 것입니다. 실제 세계에서 각 변수는 일반적으로 다른 하나의 변수에만 영향을 받지 않습니다. 그런 다음 부하 검사를 기반으로 요소의 이름을 주관적으로 지정합니다.

      공통 요인 분석에서 회전 프로세스는 실제로 요인에 대한 개별 사례 점수를 알지 못하기 때문에 여기에서 암시한 것보다 다소 추상적입니다. 그러나 여기에서 가장 관련성이 높은 다중 회귀에 대한 통계(다중 상관 관계 및 표준화된 회귀 기울기)는 모두 관련된 변수 및 요인의 상관 관계에서 계산할 수 있습니다. 따라서 개별 점수를 사용하지 않고 해당 상관 관계에 대한 간단한 구조로 회전 계산을 기반으로 할 수 있습니다.

      요인이 상관관계가 없는 상태로 유지되어야 하는 회전은 다음과 같습니다. 직교 다른 사람들은 비스듬한 회전. 사선 회전은 종종 결과를 해석할 때 요인 상호상관 행렬도 고려해야 하지만 더 간단한 구조를 달성합니다. 매뉴얼은 일반적으로 어느 것이 무엇인지 명확하지만 모호한 점이 있는 경우 간단한 규칙은 요인 상관 행렬을 인쇄할 수 있는 기능이 있는 경우 직교 회전에 이러한 용량이 필요하지 않기 때문에 회전이 비스듬하다는 것입니다. .

      Gorsuch(1983)의 24개 정신 능력 변수 중 4개 요소의 Oblique Promax 회전

      이 표는 아주 좋은 간단한 구조를 보여줍니다. 4개의 변수 블록 각각 내에서 높은 값(절대값이 약 .4 이상)은 일반적으로 4개의 블록 각각에 대해 별도의 열인 단일 열에 있습니다. 또한 각 블록 내의 변수는 모두 동일한 종류의 일반적인 정신 능력을 측정하는 것으로 보입니다. 이러한 일반화의 주요 예외는 세 번째 블록에 있습니다. 해당 블록의 변수는 시각적 능력과 추론 모두의 측정값을 포함하는 것으로 보이며 추론 변수(블록의 마지막 4개)는 일반적으로 하나 이상의 다른 열에 있는 부하보다 높지 않은 열 3에 부하가 있습니다.이것은 별도의 "시각적" 및 "추론" 요인을 산출할 수 있기를 희망하면서 5단계 솔루션을 시도해 볼 가치가 있음을 시사합니다. 표 1의 요인 이름은 Gorsuch에 의해 주어졌지만 두 번째 블록의 변수를 조사한 결과 "단순 반복 작업"이 "수치적"보다 요인 2에 대한 더 나은 이름일 수 있음을 시사합니다.

      항상 한 가지 요소에 대해 모든 변수가 크게 로드되도록 해야 한다는 의미는 아닙니다. 예를 들어, 산술 단어 문제를 다루는 능력 테스트는 언어적 요인과 수학적 요인 모두에 높은 부하를 줄 수 있습니다. 이것은 실제로 클러스터 분석보다 요인 분석의 장점 중 하나입니다. 두 개의 다른 클러스터에 동일한 변수를 넣을 수 없기 때문입니다.

      주성분 분석(PCA)

      기초

      PCA의 중심 개념은 표현 또는 요약입니다. 큰 변수 집합을 더 큰 집합을 가장 잘 요약하는 더 작은 집합으로 대체하려고 한다고 가정합니다. 예를 들어, 30번의 정신 테스트에서 수백 명의 학생들의 점수를 기록했는데 그 모든 점수를 저장할 공간이 없다고 가정합니다. (이것은 컴퓨터 시대에 매우 인공적인 예이지만 PCA가 발명된 그 이전에는 더 매력적이었습니다.) 저장의 경제를 위해 세트를 학생당 5점으로 줄이고 싶습니다. 가능한 한 정확하게 원래의 30개 점수를 재구성합니다.

      허락하다 NS 그리고 미디엄 현재 예에서 30과 5의 원래 변수와 감소된 변수 수를 각각 나타냅니다. 원래 변수는 X, 요인에 대한 요약 변수 F로 표시됩니다. 가장 단순한 경우 재구성 정확도의 측정값은 다음의 합입니다. NS X-변수와 요인에서 만든 X의 예측 간의 다중 상관 관계를 제곱했습니다. 보다 일반적인 경우에는 대응하는 X-변수의 분산으로 각 제곱 다중 상관 관계에 가중치를 부여할 수 있습니다. 각 변수의 점수에 선택한 상수를 곱하여 이러한 분산을 직접 설정할 수 있기 때문에 선택한 모든 가중치를 다른 변수에 할당할 수 있는 능력에 해당합니다.

      이제 수학적 의미로 잘 정의된 문제가 있습니다. NS 집합에 대한 변수 미디엄 원본을 가장 잘 요약하는 변수의 선형 함수 NS 방금 설명한 의미에서. 그러나 무한히 많은 선형 함수가 똑같이 좋은 요약을 제공한다는 것이 밝혀졌습니다. 문제를 하나의 고유한 솔루션으로 좁히기 위해 세 가지 조건을 소개합니다. 먼저, 미디엄 파생된 선형 함수는 상호 관련이 없어야 합니다. 둘째, 모든 세트 미디엄 선형 함수는 더 작은 집합에 대한 함수를 포함해야 합니다. 예를 들어, 최상의 4개의 선형 함수는 최상의 3을 포함해야 하며, 여기에는 최상의 2가 포함되어야 합니다. 셋째, 각 선형 함수를 정의하는 제곱 가중치는 합이 1이어야 합니다. 이 세 가지 조건은 대부분의 데이터 세트에 대해 하나의 고유한 솔루션을 제공합니다. 일반적으로 있습니다 NS 선형 함수( 주성분) 모두 사용하여 중요성이 감소 NS 원래 X-점수를 완벽하게 재구성하고 첫 번째 미디엄 (어디 미디엄 범위 1에서 NS) 해당 값에 대해 가능한 최상의 재구성을 얻을 수 있습니다. 미디엄.

      각 구성 요소의 정의 고유 벡터 또는 특징 벡터 또는 잠재 벡터 X-변수로부터 그것을 형성하는 데 사용되는 가중치의 열로. 원래 행렬 R이 상관 행렬이면 각 성분의 고유값 또는 특성 값 또는 잠재 가치 X-변수와의 상관관계 제곱의 합입니다. R이 공분산 행렬인 경우 고유값을 상관 제곱의 가중 합으로 정의하고, 각 상관은 해당 X-변수의 분산으로 가중됩니다. 고유값의 합은 항상 R의 대각선 항목의 합과 같습니다.

      고유하지 않은 솔루션은 둘 이상의 고유값이 정확히 같을 때만 발생하며 해당 고유 벡터가 고유하게 정의되지 않은 것으로 판명되었습니다. 이 경우는 실제로 거의 발생하지 않으므로 앞으로는 무시하겠습니다.

      각 구성요소의 고유값을 구성요소가 설명하는 "분산량"이라고 합니다. 이에 대한 주요 이유는 제곱 상관의 가중 합으로 고유값의 정의가 있기 때문입니다. 그러나 구성 요소 점수의 실제 분산이 고유값과 동일한 것으로 나타났습니다. 따라서 PCA에서 "요인 분산"과 "요인이 설명하는 분산의 양"은 항상 동일합니다. 따라서 두 구는 개념적으로 매우 다른 양을 나타내더라도 종종 같은 의미로 사용됩니다.

      주성분의 수

      1. 고유값의 합 = p
      입력 행렬이 상관 행렬인 경우

      고유값의 합 = 입력 분산의 합
      입력 행렬이 공분산 행렬인 경우

      2. 설명된 분산의 비율 = 고유값 / 고유값의 합

      3. 제곱 요인 적재의 합 제이th 주성분
      = 고유값제이

      4. 변수에 대한 제곱 요인 적재의 합 NS
      = 변수에 설명된 분산 NS
      = Cii (대각선 입력 NS 매트릭스 C)
      = 공동체NS 공통 요인 분석에서
      = 변수의 분산 NS 만약 미디엄 = NS

      5. 열 간 외적의 합 NS 그리고 제이 인자 로딩 행렬의
      = C아이 (기입 아이 매트릭스 C)

      6. #3, #4, #5의 관계는 회전 후에도 여전히 유효합니다.

      7. R - C = U. 필요한 경우 규칙 4를 사용하여 C에서 대각선 항목을 찾고 규칙 7을 사용하여 U에서 대각선 항목을 찾을 수 있습니다.

      두 가지 요인 분석 비교

      실제로 두 가지 요인 분석의 유사성에 대한 질문에는 여러 가지 다른 질문이 있을 수 있습니다. 먼저 두 가지 다른 데이터 형식을 구별해야 합니다.

      1. 동일한 변수, 두 그룹. 남성과 여성, 또는 치료 그룹과 통제 그룹에 대해 동일한 조치가 취해질 수 있습니다. 그러면 두 요인 구조가 동일한지 여부에 대한 질문이 발생합니다.

      2. 하나의 그룹, 두 개의 조건 또는 두 개의 변수 세트. 두 개의 테스트 배터리가 한 그룹의 피험자에게 주어질 수 있으며 두 세트의 점수가 어떻게 다른지에 대한 질문이 나옵니다. 또는 두 가지 다른 조건에서 동일한 배터리가 제공될 수 있습니다.

      다음 두 섹션에서는 이러한 질문을 개별적으로 고려합니다.

      두 그룹의 요인 분석 비교

      "이 두 그룹의 요인 구조가 동일합니까?"라는 질문입니다. 실제로 "같은 요소를 가지고 있습니까?"라는 질문과 상당히 다릅니다. 후자의 질문은 "두 그룹에 대해 두 가지 다른 요인 분석이 필요합니까?"라는 질문에 더 가깝습니다. 요점을 보기 위해 5개의 "언어" 테스트와 5개의 "수학" 테스트가 있는 문제를 상상해 보십시오. 단순화를 위해 두 테스트 세트 간의 모든 상관 관계가 정확히 0이라고 상상해 보십시오. 또한 단순성을 위해 구성 요소 분석을 고려하지만 공통 요인 분석과 관련하여 동일한 사항이 만들어질 수 있습니다. 이제 5가지 언어 테스트 간의 상관 관계가 모두 정확히 여성은 .4, 남성은 .8인 반면, 5가지 수학 테스트 간의 상관 관계는 모두 정확히 여성은 .8, 남성은 .4라고 상상해 보십시오. 두 그룹의 요인 분석은 개별적으로 다른 요인 구조를 산출하지만 각 성별의 동일한 요인 분석은 모든 수학 항목에 대해 가중치가 0인 모든 언어 항목의 균등 가중치 평균인 "언어" 요인과 "수학" 요인을 식별합니다. " 반대 패턴의 요인. 이 예에서는 두 요인 구조가 상당히 다르지만 두 성별에 대해 별도의 요인 분석을 사용하여 얻을 수 있는 것은 없습니다.

      2군 문제의 또 다른 중요한 점은 A군에 대해 4개의 요인을 도출하고 B군에 대해 4개의 요인을 도출하는 분석은 결합된 집단에서 8을 도출하는 분석만큼 총 요인이 많다는 점이다. 따라서 실용적인 질문은 분석이 다음을 도출하는지 여부가 아닐 수 있습니다. 미디엄 두 그룹 각각의 요인이 분석에서 파생된 것보다 데이터에 더 적합합니다. 미디엄 결합된 그룹의 요인. 오히려 두 개의 분리된 분석을 2를 유도하는 분석과 비교해야 합니다.미디엄 결합된 그룹의 요인. 구성 요소 분석을 위해 이 비교를 수행하려면 첫 번째 미디엄 각 개별 그룹의 고유값을 계산하고 이 두 합계의 평균을 처음 2개의 합계와 비교합니다.미디엄 결합된 그룹의 고유값. 이 분석이 두 그룹에 대해 별도의 요인 분석을 수행하는 것이 더 낫다는 것을 시사하는 경우는 매우 드뭅니다. 이 동일한 분석은 공통 요인 분석에 대한 질문에도 최소한 대략적인 답변을 제공해야 합니다.

      질문이 실제로 두 요인 구조가 동일한지 여부라고 가정합니다. 이 질문은 두 상관 또는 공분산 행렬이 동일한지 여부에 대한 질문과 매우 유사합니다. 이는 요인 분석을 전혀 참조하지 않고 정확하게 정의된 질문입니다. 이러한 가설에 대한 테스트는 이 작업의 범위를 벗어나지만 두 공분산 행렬의 동일성에 대한 테스트는 Morrison(1990) 및 다변량 분석에 대한 다른 작업에 나타납니다.

      단일 그룹에 있는 두 변수 세트의 요인 분석 비교

      두 개의 개별 샘플 사례의 경우와 같이 종종 요인의 관점에서 표현되는 질문이 있지만 두 상관 또는 공분산 행렬의 평등에 대한 질문으로 더 잘 표현됩니다. 요인 분석 참조. 현재 사례에서 우리는 두 개의 평행한 변수 집합을 가지고 있습니다. 즉 집합 A의 각 변수는 집합 B의 변수와 평행합니다. 사실 집합 A와 B는 두 개의 다른 조건에서 관리되는 매우 동일한 측정일 수 있습니다. 그러면 문제는 두 상관 행렬 또는 공분산 행렬이 동일한지 여부입니다. 이 질문은 요인분석과는 아무런 관련이 없지만 AB 상관관계가 높은지 여부와도 거의 관련이 없습니다. 세트 A와 B 내의 두 상관 또는 공분산 행렬은 AB 상관 관계가 높거나 낮은지 여부에 관계없이 동일할 수 있습니다.

      Darlington, Weinberg, and Walberg(1973)는 집합 A와 B가 동일한 사례 표본에서 측정될 때 변수 집합 A와 B에 대한 공분산 행렬이 동일하다는 귀무 가설의 검정을 설명했습니다. AB 공분산 행렬이 대칭이라는 가정이 필요합니다. 따라서 예를 들어 세트 A와 B가 1년차와 2년차에 시행된 동일한 테스트 세트인 경우 가정에서는 1년차의 테스트 X와 2년차의 테스트 Y 사이의 공분산이 2년차의 테스트 X와 테스트 2년차 사이의 공분산과 같아야 합니다. 1년차의 Y. 이 가정이 주어지면 두 세트에 있는 병렬 변수의 합과 차이로 구성된 두 세트의 점수를 A+B와 AB라고 부를 수 있습니다. 그런 다음 원래 귀무 가설은 집합 A+B의 모든 변수가 집합 A-B의 모든 변수와 상관 관계가 없다는 가설과 동일합니다. 이 가설은 MANOVA로 테스트할 수 있습니다.

      SYSSTAT 5의 요인 및 성분 분석

      데이터 입력

      FACTOR는 표준 직사각형 형식의 데이터를 허용합니다. 자동으로 상관 행렬을 계산하고 추가 분석에 사용합니다. 대신 공분산 행렬을 분석하려면 다음을 입력하십시오.

      나중에 상관 행렬을 분석하려면 다음을 입력하십시오.

      "상관" 유형이 기본 유형이므로 상관 행렬만 분석하려는 경우 입력할 필요가 없습니다.

      요인 분석을 위한 데이터를 준비하는 두 번째 방법은 CORR 메뉴에서 상관 또는 공분산 행렬을 계산하고 저장하는 것입니다. SYSSTAT는 저장된 시점에 행렬이 상관 행렬인지 공분산 행렬인지 자동으로 기록하고 해당 정보를 저장합니다. 그러면 FACTOR는 자동으로 올바른 유형을 사용합니다.

      세 번째 방법은 인쇄물의 상관 또는 공분산 행렬이 있고 해당 행렬을 직접 입력하려는 경우에 유용합니다. 이렇게 하려면 INPUT 및 TYPE 명령을 결합하십시오. 예를 들어 행렬이 있다고 가정합니다.

      4개의 변수 ALGEBRA, GEOMETRY, COMPUTER, TRIGONOM에 대한 공분산 행렬입니다. (보통 이보다 더 중요한 숫자에 상관관계 또는 공분산을 입력합니다.) DATA 모듈에서 다음을 입력할 수 있습니다.

      수학 저장
      입력 대수학, 기하학, 컴퓨터, 삼각법
      유형 공분산
      운영
      .94
      .62 .89
      .47 .58 .97
      .36 .29 .38 .87
      그만두 다

      행렬의 하부 삼각 부분만 입력했음을 주목하십시오. 이 예에서는 대각선을 입력하지만 모든 대각선 항목이 1.0이 되도록 상관 행렬을 입력하는 경우 RUN 직전에 DIAGONAL ABSENT 명령을 입력한 다음 대각선 항목을 생략합니다.

      네 번째 방법, 습관 작업은 상관 또는 공분산 행렬을 워드 프로세서에 입력하거나 스캔한 다음 SYSSTAT의 GET 명령을 사용하여 행렬을 SYSSTAT로 이동하는 것입니다. 이 방법에서 SYSSTAT는 행렬 TYPE을 적절하게 기록하지 않으며 행렬을 상관 또는 공분산이 아닌 점수 행렬로 취급합니다. 불행히도 SYSSTAT는 예상한 형식으로 출력을 제공하며 전체 분석이 잘못 수행되었다는 명백한 징후가 없습니다.

      요인 분석 명령

      요인 대수학, 기하학, 컴퓨터, 삼각법

      주성분 대신 공통 요인 분석을 선택하려면 "반복 주축"에 대한 옵션 IPA를 추가하십시오. 모든 옵션은 슬래시 뒤에 나열됩니다. IPA는 옵션이지만 변수 목록은 그렇지 않습니다. 따라서 명령은 다음과 같이 읽을 수 있습니다.

      요인 대수학, 기하학, 컴퓨터, 삼각법 / IPA

      ITER(반복) 옵션은 공통 요인 분석에서 공통성을 추정하기 위한 최대 반복 횟수를 결정합니다. 커뮤니티 추정치가 ITER = 25라고 SYSSTAT가 경고하는 경우 ITER를 늘립니다. TOL 옵션은 FACTOR가 커뮤니티 추정치를 개선하려는 시도를 중지하는 커뮤니티 추정치의 변경을 지정합니다. 기본값은 TOL = .001입니다. PLOT 옵션은 요인 또는 성분 쌍에 대한 요인 적재 플롯을 생성합니다. 이러한 플롯의 수는 m(m-1)/2이며 다음과 같은 경우 클 수 있습니다. 미디엄 크다. 이 모든 옵션을 사용하는 명령은 다음을 읽을 수 있습니다.

      요인 / IPA, TOL = .0001, ITER = 60, 플롯

      이것은 FACTOR 명령에 대한 유일한 옵션입니다. FACTOR 프로그램에 대한 다른 모든 명령은 별도의 명령으로 실행됩니다.

      요인 수를 제어하는 ​​데 사용할 수 있는 두 가지 명령은 NUMBER 및 EIGEN입니다. 명령

      FACTOR에게 4개의 요소를 유도하도록 지시합니다. 명령

      FACTOR에게 .5 이상의 고유값 수와 동일한 수의 인수를 선택하도록 지시합니다. 따라서 상관 행렬을 인수분해하면 명령

      요인의 수를 선택하는 카이저 규칙을 구현합니다. 기본값은 EIGEN = 0이며 FACTOR가 가능한 모든 요소를 ​​유도합니다. NUMBER 및 EIGEN 명령을 모두 사용하는 경우 FACTOR는 더 적은 수의 요인을 생성하는 규칙을 따릅니다.

      한 단어로 된 명령 SORT는 FACTOR가 인자 로딩 행렬을 인쇄할 때 인자 로딩에 따라 변수를 정렬하도록 합니다. 특히, FACTOR가 먼저 요소 1에서 .5 이상으로 로드하는 모든 변수를 인쇄한 다음 요소 2에서 .5 이상으로 로드하는 모든 변수를 인쇄하게 합니다. 각 변수 블록 내에서 변수는 로드 크기에 따라 정렬됩니다. 로드가 가장 높은 해당 요소가 먼저 표시됩니다. 이 정렬을 사용하면 간단한 구조에 대한 요인 구조 행렬을 더 쉽게 조사할 수 있습니다.

      ROTATE 명령을 사용하면 회전 방법을 선택할 수 있습니다. 선택 사항은

      이러한 방법 간의 차이점은 이 장의 범위를 벗어납니다. 어쨌든 회전은 데이터에 대한 요인 구조의 적합성에 영향을 미치지 않으므로 원하는 경우 모두 사용하고 결과가 가장 좋은 것을 선택할 수 있습니다. 사실 그렇게 하는 것이 일반적입니다. 기본 회전 방법은 varimax이므로 ROTATE만 입력하면 varimax가 구현됩니다.

      요인 분석 결과를 파일로 저장하는 세 가지 옵션이 있습니다. 이렇게 하려면 FACTOR 명령보다 먼저 SAVE 명령을 사용하십시오. 명령

      주성분에 대한 점수를 MYFILE이라는 파일에 저장합니다. 공통 요인 점수가 정의되지 않았기 때문에 공통 요인 분석(IPA 옵션)과 함께 사용할 수 없습니다. 명령

      구성 요소를 정의하는 데 사용되는 계수를 저장합니다. 이러한 계수는 어떤 의미에서 요인 적재의 반대입니다. 적재는 요인에서 변수를 예측하는 반면 계수는 원래 변수의 관점에서 요인을 정의합니다. 회전을 지정하는 경우 계수는 회전된 구성요소를 정의하는 계수입니다. 명령

      공통 요인 분석 또는 성분 분석과 함께 사용할 수 있는 요인 적재 행렬을 저장합니다. 다시 말하지만, 회전을 지정하면 저장된 하중은 회전된 요인에 대한 것입니다.

      산출

      • 고유값
      • 요인 로딩 행렬(IPA의 경우 요인 패턴이라고 함)
      • 요인으로 설명되는 분산(일반적으로 고유값과 같음)
      • 요인으로 설명되는 분산 비율
      • 초기 커뮤니티 추정
      • 커뮤니티 추정치의 변화 지수
      • 최종 커뮤니티 추정치
      • 입력 상관 또는 공분산 행렬 R
      • 잔차 공분산 행렬--U의 비대각선 부분
      • 줄거리
      • 요인 적재 플롯, 한 번에 두 요인

      사용 데이터
      회전 = 바리맥스
      종류
      길게 인쇄하다
      숫자 = 2
      factor cardio, 암, 폐, pneu_flu, 당뇨병, 간/ipa, 줄거리

      생략된 스크리 플롯과 인자 로딩 플롯, 그리고 명확성을 위해 내가 만든 몇 가지 사소한 편집을 제외하고 이 명령은 다음 출력을 생성합니다.

      참조

      Gorsuch, Richard L. (1983) 요인 분석. 힐스데일, 뉴저지: 얼바움

      모리슨, 도널드 F. (1990) 다변수 통계 방법. 뉴욕: McGraw-Hill.

      Rubenstein, Amy S. (1986). 질문지형 지적 호기심 척도의 항목별 분석. Cornell University 박사 학위 논문.

      Galina Miklosic이 작성한 이 기사의 벨로루시어 번역을 읽으려면 여기를 클릭하십시오.


      총 분산 설명

      고유값은 실제로 합이 요인 분석 대상 항목의 수와 같아야 하는 추출된 요인의 수를 반영합니다. 다음 항목은 고유값과 함께 분석에서 추출할 수 있는 모든 요인을 보여줍니다.

      고유값 테이블은 초기 고유값, 제곱 하중의 추출된 합 및 제곱 하중 합의 회전이라는 세 가지 하위 섹션으로 나뉩니다. 분석 및 해석을 위해 제곱 하중의 추출된 합에만 관심이 있습니다. 여기서 첫 번째 요인은 분산의 46.367%, 두 번째 요인은 18.471%, 세 번째 요인은 17.013%를 설명한다는 점에 유의해야 합니다. 나머지 모든 요인은 유의하지 않습니다(표 5).

      1. 요소: 위의 커뮤니티 표 3에서 볼 수 있듯이 표 3 아래 열 1에 표시된 8개의 구성 요소가 있습니다.
      2. 초기 고유값 합계: 총 분산.
      3. 초기 고유값 분산 %: 각 요인에 기인하는 분산의 백분율입니다.
      4. 초기 고유값 누적 %: 이전 요인에 추가된 요인의 누적 분산입니다.
      5. 제곱 하중 합계의 추출 합계: 추출 후 총 분산.
      6. 제곱 하중 추출 합 분산 %: 추출 후 각 요인에 기인하는 분산의 백분율입니다.이 값은 우리에게 중요하므로 이 단계에서 이들이 특정 제품을 사용하는 이유에 기여하는 세 가지 요소임을 결정합니다.
      7. 제곱 누적 %의 추출 합계: 추출 후 이전 요인에 추가할 때 요인의 누적 분산입니다.
      8. 총 하중 제곱합의 회전: 회전 후 총 분산입니다.
      9. 하중 제곱합의 회전 분산 %: 회전 후 각 요인에 기인하는 분산의 백분율입니다.
      10. 누적 하중 제곱 % 합계의 회전: 이전 요인에 추가된 요인의 누적 분산입니다.

      성격/인격 신경과학과 네트워크 분석 통합

      3.1.1 요인 분석

      요인 분석은 관찰, 명시 또는 측정된 변수를 발생시키는 잠재 변수 또는 "인자" 측면에서 연관 구조를 개념화합니다. 요인 분석(및 밀접하게 관련된 주성분 분석)은 분석에서 다른 관찰된 변수보다 서로 공통점이 더 많은 관찰된 변수 세트를 식별하여 이를 수행합니다. 요인 분석은 관찰된 변수 간의 이변량 연관성의 상관 행렬로 시작됩니다. 개념적으로 요인 분석은 행렬을 스캔하여 함께 사용되는 관찰된 변수를 식별합니다. 서로 강하게 상관되어 있고 다른 클러스터의 관찰 변수와 약한 상관 관계가 있는 관찰된 변수의 클러스터를 검색합니다. 보다 기술적으로는 관찰된 변수의 변동을 가능한 한 많이 설명하는 요인을 추출합니다.

      탐색적 요인 분석은 추출, 여러 요인 선택, 순환, 요인 로딩 및 (잠재적으로) 요인 상관 관계와 같이 반복적이고 앞뒤로 자주 수행되는 단계로 볼 수 있습니다. 79 첫 번째 단계는 관찰된 변수의 조합을 식별하는 "추출 방법"을 적용하는 것이며 이러한 조합을 요인이라고 합니다. 추출 방법에는 여러 가지가 있지만 주축 요인 분석과 주성분 분석이 가장 많이 사용됩니다. 추출은 하나를 생성합니다. 고유값 각 잠재적 요인에 대해 관찰된 변수만큼 많은 잠재적 요인이 있습니다. 요인의 고유값은 요인에 의해 설명되는 관찰된 변수의 분산량으로 볼 수 있습니다.

      두 번째 단계에서 연구자는 원래 변수 간의 관계를 적절하게 요약하는 요인의 수를 결정합니다. "적절한" 요인의 수는 모호할 수 있지만 프로세스에 도움이 되는 경험적 규칙이 있습니다. 80 경험 법칙은 일반적으로 고유값의 상대적 크기에 따라 달라지지만 후속 단계의 정보를 사용하여 결정을 알릴 수 있습니다(예: 요인 적재의 명확성, 4단계 참조).

      세 번째 단계에서 연구자들은 일반적으로 요인의 심리적 의미를 명확히 하기 위해 "회전"을 사용합니다. 회전은 다음을 생성하기 위한 것입니다. 단순한 구조, 관찰된 각 변수가 하나의 요인 및 단 하나의 요인과 강력하게 연관되는(즉, "부하되는") 연관 패턴입니다. 회전에는 두 가지 일반적인 유형이 있습니다. 직교 회전은 상관 관계가 없는 요소를 생성하고 경사 회전은 서로 상관될 수 있는 요소를 생성합니다.

      넷째, 연구자들은 주요 통계적 결과, 주로 요인 적재 및 (해당되는 경우) 요인 간 상관 관계를 기반으로 심리학적 결론을 도출합니다. 요인 적재는 관측된 각 변수와 각 요인 간의 연관성을 나타내는 값입니다. 어떤 관찰 변수가 각 요인과 가장 강하게 연관되어 있는지 주목함으로써 연구자는 요인의 심리적 의미를 해석할 수 있습니다. 생성될 수 있는 여러 유형의 요인 적재가 있지만 모두 대략적으로 또는 문자 그대로 -1에서 +1의 상관 메트릭에 있으며 -1 또는 +1에 가까운 값은 강한 연관성을 나타내고 0에 가까운 값은 없음을 나타냅니다. 관찰된 변수와 요인 간의 연결. 요인간 상관관계는 연구자가 하나 이상의 요인을 추출하고 비스듬한 회전을 구현할 때 얻어지며, 관찰된 변수의 기본이 되는 차원이 서로 연관되어 있는 정도를 나타냅니다.


      요인 분석에서 지수 점수를 계산하는 방법

      주성분 분석(PCA) 또는 요인 분석(FA)을 실행하는 일반적인 이유 중 하나는 변수 감소입니다.

      즉, 하나의 질문으로 정확하게 측정하기 어려운 불안과 같은 것을 측정하기 위한 10개 항목 척도로 시작할 수 있습니다.

      10개 항목 모두를 분석의 개별 변수로 사용할 수 있으며 회귀 모델의 예측 변수로 사용할 수 있습니다.

      하지만 결국 엉망.

      이러한 모든 계수를 해석하는 데 문제가 있을 뿐만 아니라 다중 공선성 문제가 있을 수 있습니다.

      그리고 가장 중요한 것은, 당신은 결과에 대한 개별 10개 항목 중 당신은 불안의 효과에 관심이 있습니다. 전체적으로.

      그래서 우리는 FA 또는 PCA와 같은 변수 축소 기술로 전환하여 10개의 관련 변수를 불안의 구성을 나타내는 변수로 전환합니다.

      FA와 PCA는 서로 다른 이론적 토대와 가정을 가지고 있으며 서로 다른 상황에서 사용되지만 프로세스는 매우 유사합니다. 이 예에서는 FA를 사용합니다.

      따라서 좋은 요인 분석 솔루션을 성공적으로 찾았고 실제로 이 10개 항목이 모두 불안으로 해석될 수 있는 단일 요인을 나타낸다는 것을 발견했다고 가정해 보겠습니다. 이 10개 항목을 단일 색인으로 결합하는 유사하지만 이론적으로 서로 다른 두 가지 방법이 있습니다.

      요인 점수

      요인 분석 결과의 일부는 요인 적재 표입니다. 각 항목의 로딩은 해당 항목이 기본 요소와 얼마나 강하게 연관되어 있는지를 나타냅니다.

      일부 로딩은 너무 낮아서 해당 항목이 요소와 관련이 없는 것으로 간주하고 색인에 포함하고 싶지 않습니다.

      그러나 상당히 높은 적재량을 가진 품목들 사이에서도 적재량은 상당히 다를 수 있습니다. 이러한 로딩이 서로 매우 다른 경우 인덱스가 각 항목이 요인과 동등하지 않은 연관성을 가지고 있음을 반영하기를 원합니다.

      항목을 결합하는 한 가지 방법은 다음을 통해 인덱스 변수를 계산하는 것입니다. 최적 가중치 요인 점수라고 하는 항목의 선형 조합입니다. 각 항목의 가중치는 요소 로딩에서 파생됩니다. 따라서 요인 점수에 대한 각 항목의 기여도는 요인과 얼마나 밀접하게 관련되어 있는지에 따라 다릅니다.

      요인 점수는 기본적으로 항목의 가중치 합계입니다. 이러한 가중치는 모두 -1과 1 사이에 있기 때문에 요인 점수의 척도는 순수 합계와 매우 다릅니다. 요인 점수를 표준화된 가중 평균으로 생각하는 것이 도움이 됩니다.

      요인 기반 점수

      두 번째로 간단한 접근 방식은 가중치를 무시하고 선형 조합을 계산하는 것입니다. 합계 또는 평균이 작동하지만 평균은 항목과 동일한 척도에 있다는 이점이 있습니다.

      이 접근 방식에서는 요인 분석을 실행하여 각 요인에 로드되는 항목을 확인한 다음 각 요인에 대한 항목을 결합합니다.

      이 새 변수의 기술적인 이름은 요인 기반 점수입니다.

      요인 기반 점수는 하중이 모두 유사한 상황에서만 의미가 있습니다. 이 경우 가중치는 어쨌든 많은 일을 하지 않았을 것입니다.

      어떤 점수를 사용할 것인가?

      요인 점수를 사용하는 것은 결코 잘못된 일이 아닙니다. 요인 적재가 매우 다른 경우 요인을 더 잘 나타냅니다. 그리고 모든 소프트웨어는 데이터 세트를 빠르고 쉽게 저장하고 추가합니다.

      요인 기반 점수에는 두 가지 장점이 있습니다. 첫째, 일반적으로 더 직관적입니다. 연구 대상이 아닌 사용자는 표준화된 최적 가중치 선형 조합보다 항목의 평균을 더 잘 이해할 수 있습니다.

      둘째, 샘플에 따라 다른 가중치에 대해 걱정할 필요가 없습니다. 요인 적재는 다른 샘플에서 유사해야 하지만 동일하지는 않습니다. 이는 실제 요인 점수에 영향을 주지만 요인 기반 점수에는 영향을 미치지 않습니다.

      그러나 요인 기반 점수를 사용하기 전에 적재가 실제로 유사한지 확인하십시오. 그렇지 않으면 요인을 잘못 표시할 수 있습니다.


      요인 분석

      요인 분석은 관찰된 많은 변수 간의 상관 관계를 분석하고 잠재 요인을 탐색하도록 설계된 다변량 기술입니다. 이 장에서는 20세기 초반 이후의 요인 분석의 발전에 대한 개요와 다양한 분야의 응용 연구에 대한 검토를 제공합니다. 오늘날 요인분석은 심리학 분야뿐만 아니라 정치, 문학, 생물학, 의학 등의 분야에서도 널리 활용되고 있다. 예를 들어, 인류학에서는 인간 뼈의 측정된 형질 간의 상관관계에 대한 요인분석과 동식물의 측정된 형질에 대한 요인분석을 통해 형태학적 지식을 획득하였다. 이 장에서는 요인분석 모형을 소개하고 요인분석의 통계적 추론을 다룬다. 요인 분석에서 모수 추정치의 표준 오차 공식은 복잡하거나 닫힌 형식으로 표현되지 않을 수 있습니다. 부트스트랩 방법의 장점 중 하나는 분석 유도 없이 사용할 수 있다는 것입니다. 그러나 요인 분석에서 부트스트랩 방법을 사용할 때는 주의가 필요합니다. 또한 이 장에서는 요인 회전 및 요인 점수 추정의 다양한 방법을 다룹니다.


      커뮤니티

      출력의 다음 항목은 분산(즉, 추가 분석을 위해 고려해야 하는 0.5보다 커야 하는 공통성 값. 그렇지 않으면 이러한 변수는 추가 단계 요인 분석에서 제거됨)의 분산 정도를 보여주는 공통성 표입니다. 변수는 추출된 요인에 의해 설명되었습니다. 예를 들어 이상

      “제품의 품질” 편차의 90%가 설명되고, “제품의 가용성” 편차의 73.5%가 설명됩니다(표 4).


      콘텐츠 미리보기

      요인 분석 더 적은 수의 기본 관찰 불가능한(잠재) "인자" 측면에서 관찰된 변수 및 해당 공분산 구조를 모델링하는 방법입니다. 요인은 일반적으로 관찰된 현상을 설명할 수 있는 광범위한 개념 또는 아이디어로 간주됩니다. 예를 들어, 특정 사회적 수준을 얻고자 하는 기본적인 욕구는 대부분의 소비 행동을 설명할 수 있습니다. 이러한 관찰되지 않은 요소는 관찰된 정량적 측정보다 사회 과학자에게 더 흥미롭습니다.

      요인 분석은 일반적으로 많은 주관적 판단이 필요한 탐색적/기술적 방법입니다. 모델, 방법 및 주관성이 매우 유연하여 해석에 대한 논쟁이 발생할 수 있기 때문에 널리 사용되는 도구이며 종종 논란의 여지가 있습니다.

      방법은 주성분과 유사하지만 교과서에서 지적한 것처럼 요인 분석이 더 정교합니다. 어떤 의미에서 요인 분석은 주성분의 역전입니다. 요인 분석에서 우리는 관찰된 변수를 "요인"의 선형 함수로 모델링합니다. 주성분에서 관찰된 변수의 선형 조합인 새 변수를 만듭니다. PCA와 FA 모두 데이터 차원이 축소됩니다. PCA에서 주요 구성 요소의 해석은 종종 매우 명확하지 않다는 것을 기억하십시오. 경우에 따라 특정 변수가 하나 이상의 구성 요소에 크게 기여할 수 있습니다. 이상적으로는 각 변수가 하나의 구성 요소에만 크게 기여하는 것이 좋습니다. 그 목표를 향해 요인 회전이라는 기술이 사용됩니다. 요인 분석이 관련된 분야의 예로는 생리학, 건강, 지능, 사회학, 때로는 생태학 등이 있습니다.


      요인 분석: 짧은 소개, 2부–회전

      요인 분석의 중요한 특징은 요인의 축이 다차원 변수 공간 내에서 회전할 수 있다는 것입니다. 그게 무슨 뜻이야?

      다음은 간단한 용어로 요인 분석 프로그램이 변수와 잠재 요인 간의 최적의 적합성을 결정하는 동안 수행하는 작업입니다. 요인 분석에 들어가는 10개의 변수가 있다고 상상해 보십시오.

      프로그램은 변수와 잠재요인 사이의 가장 강한 상관관계를 먼저 찾아 그것을 Factor 1로 만듭니다. 시각적으로 축(Axis 1)으로 생각할 수 있습니다.

      그런 다음 요인 분석 프로그램은 두 번째 상관 관계 집합을 찾고 이를 요인 2라고 부르는 식으로 진행합니다.

      때로는 초기 솔루션으로 인해 여러 요인이 있는 변수의 강한 상관 관계가 발생하거나 어떤 요인과도 강한 상관 관계가 없는 변수가 생성됩니다.

      실제 데이터 포인트에 더 잘 맞는 축 위치를 만들기 위해 프로그램에서 축을 회전할 수 있습니다. 이상적으로는 회전을 통해 요인을 더 쉽게 해석할 수 있습니다.

      다음은 두 개의 차원(x축 및 y축)만 있는 경우 회전하는 동안 어떤 일이 발생하는지 보여줍니다.

      원래 x축과 y축은 검은색입니다. 회전하는 동안 축은 실제 데이터 포인트를 전반적으로 더 잘 포함하는 위치로 이동합니다.

      프로그램은 다양한 유형의 회전을 제공합니다. 그들 사이의 중요한 차이점은 서로 상관되거나 상관되지 않는 요인을 생성할 수 있다는 것입니다.

      상관 관계를 허용하는 회전을 호출합니다. 비스듬한 회전 요인이 상관관계가 없다고 가정하는 회전을 호출합니다. 직교 회전. 그래프는 직교 회전을 보여줍니다.

      다시 한 번 부의 지표를 살펴보겠습니다.

      직교 회전이 이전에 표시된 것처럼 잘 작동하지 않았다고 상상해 봅시다. 대신 다음과 같은 결과를 얻습니다.

      변수 요인 1 요인 2
      소득 0.63 0.14
      교육 0.47 0.24
      직업 0.45 0.22
      집값 0.39 0.25
      인근 공공 공원 수 0.12 0.20
      연간 강력범죄 건수 0.21 0.18

      분명히 변수 2에 많이 로드되는 변수는 없습니다. 무슨 일이 일어났습니까?

      첫 번째 시도는 직교 회전이었기 때문에 요인 1과 2는 상관 관계가 없다고 지정했습니다.

      그러나 "개인의 사회경제적 지위"(요인 1)가 높은 사람이 "이웃의 사회경제적 지위"(요인 2)가 높은 지역에도 산다고 가정하는 것이 합리적입니다. 요인을 의미합니다 ~해야한다 상관되다.

      결과적으로 두 요소의 두 축은 직교 회전으로 만들 수 있는 것보다 더 가깝습니다. 다음은 요인이 서로 상관관계가 있는 새로운 예에 대한 축의 비스듬한 회전을 표시한 것입니다.

      분명히, 두 요소 사이의 각도는 이제 90도보다 작아서 요소가 이제 상관 관계가 있음을 의미합니다. 이 예에서 비스듬한 회전은 직교 회전보다 데이터를 더 잘 수용합니다.


      I. 탐색적 요인 분석(EFA)

      • 소개
        1. 동기 부여 예: SAQ
        2. 피어슨 상관 공식
        3. 요인 분석의 분산 분할
      • 추출 요소
        1. 주성분 분석
        2. 공통 요인 분석
          • 주축 인수분해
          • 최대 가능성
          1. 간단한 구조
          2. 직교 회전(Varimax)
          3. 오블리크(직접 오블리민)


          비디오 보기: გამზრდელი - მხატვრული ანალიზის საკითხები (유월 2022).


코멘트:

  1. Zushura

    그리고 나는 그것을 직면했다. 이 질문에 대해 논의합시다. 여기 또는 오후.

  2. Camdyn

    나는 당신과 동의하지 않습니다

  3. Arashikasa

    실수를하는 것 같아요. 나는 그것을 증명할 수 있습니다. 오후에 저에게 편지를 보내십시오.



메시지 쓰기