| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- 이항분포
- ncbi
- CNN
- 서열정렬
- 시그모이드
- 블록체인
- COVID
- 생명정보학
- bioinformatics
- RNN
- 오류역전파
- 생물정보학
- 바이오인포매틱스
- 결정트리
- Java
- 인공지능 수학
- HMM
- 딥러닝
- 인공지능
- SVM
- 인공신경망
- AP
- 캐글
- MERS
- AP Computer Science A
- 파이썬
- 자바
- 바이오파이썬
- Kaggle
- BLaST
- Today
- Total
데이터 과학
편향 Bias 본문
Household bias (가구 편향)
대가족을 가진 구성원이 일반 가족 구성원보다 많기에 가구당 1명에 대한 표본을 만들때 생길 수 있는 편향입니다.
Non respoonse bias (무응답 편향)
설문에 답하지 않는 상황이거나 답할 수 없는 상황에서의 편향입니다. 설문을 우편으로 보내거나 이메일로 보냈을 때 대부분 무응답 합니다. 설문조사할 때도 대부분의 사람들이 응답하지 않습니다. 이러한 문제점이 있어서 설문조사할 때 볼펜 하나라도 주는 것입니다. 응답에 대한 보상이죠.
Quota sampling bias (할당 표본 편향)
1936년 이후 미국 대통령 선거에서 인구, 성별, 나이를 구분하여 할당하여 여론조사를 실시하였는데, 좀 더 세분화 되지 못하고 특정 기준만 가지고 나누다 보면 표본 오류를 범할 수 있습니다. 여론조사 시 백인과 흑인, 개신교와 천주교의 비율 등을 고려해서만 나눴는데 그 안에 남녀 성비, 연령 대등 등을 고려해서 분류를 해야 정확한 표본이 나타납니다. Quota를 나누다 보니 누락된 기준으로 인해 생길 수 있는 편향된 결과입니다.
예)
도시의 주민들을 대상으로 여름 여행 계획에 대한 연구를 진행 중이라는 예제를 들어 설명해 봅시다.
총 1,000명의 표본을 추출하기로 결정했습니다. 표본이 인구통계학적으로 대표성을 가지도록 하기 위해, 표본을 다음과 같은 집단( strata )으로 나눕니다:
- 성별 정체성
- 연령
- 고용 상태
- 거주 지역
- 주거 형태
위 변수들을 조합하여(예: 25세 미만의 직장 여성), 표본을 뚜렷한 하위 집단( strata )으로 나눕니다.
표본을 성별 정체성에 따라 계층화하고 성별 정체성 내에서 연령과 연령 그룹 내에서 고용 상태를 나타냅니다. 여러 변수를 결합하여 할당(Quota)을 정의하는 방식을 Interlocking라고 합니다.
인구 조사 데이터를 활용해 각 하위 집단에 대한 할당량을 결정하며, 도시의 모집단 비율에 따라 표본을 동일한 비율로 선택합니다.결합된 계층 전반에 걸쳐 도시 인구의 비율과 동일한 비율로 응답자 수가 충족되면 표집을 중단합니다.
(참고: https://www.scribbr.com/methodology/quota-sampling/)
Response Bias (응답 편향)
설문에 대해 응답을 하는데 결과에 대해 응답하고 원인에 대해서는 이야기 하지 않는 경우 잘못된 결과가 나타날 수 있습니다. 설문조사식 응답을 하는 경우입니다. 예를 들어 아침 1교시 수업이 힘듭니까?라고 물어보면 1교시 수업이 힘듭니다라고 하는 경우가 많겠죠. 그 이유는 1교시 수업이 힘들 수도 있겠지만, 새벽까지 공부를 하거나 게임을 하거나 해서 늦잠을 자서 힘든데, 단순한 결과를 보면 1교시 수업이 힘든 것처럼 보일 수 있습니다. 인과관계를 보면 늦잠을 자서 힘든 것인데 결과를 보면 1교시 수업 듣기가 힘들다는 결론입니다.
Selection bias (선택 편향)
Literary Digest가 진행한 1936년 대통령 선거 결과가 선택 편향적 여론조사입니다. 약 1000만명에게 설문지를 보내서 240만명이 응답을 한 조사 결과인데 앨프레드 랜던(Alfred Landon)의 압승을 예측했습니다. 이 조사는 자동차와 전화기를 가진 사람들을 대상으로 했는데, 당시인 1936년에는 주로 공화당을 지지했던 부유한 소수만이 자동차와 전화기를 소유하고 있었습니다. 이 조사에서 루스벨트는 선거에서 60.8% 이상의 응답을 얻고 재선에 성공하였습니다. 1938년 Literary Digest는 폐간하였습니다.
Size bias (크기 편향)
병원을 나서는 환자들에게 설문조사를 대체적으로 입원기간이 짧은 환자들을 대상으로 설문조사가 이루어지게 됩니다. 비용 문제로 인해 대부분의 사람들이 짧은 입원을 선호하기 때문입니다.
Undercoverage bias (누락 편향)
설문조사 할 때 특정 집단이 누락되는 상황을 일컫는데 집에 전화가 없거나 집주소가 없는 사람들에게 전화나 우편으로 설문조사를 하는 경우에 해당됩니다. 인구조사할 때 집에 찾아가면 집에 사람이 없는 경우가 해당되겠죠. 노숙자나 각국을 여행하면서 호텔에서 거주하는 분들이 누락됩니다.
Voluntary Response Bias (자발적 응답 편향)
라디오 청취자들 중에 일부 응답자들의 성향을 듣고 결정을 내리는 경향이 있으며, 대체적으로 적극적인 의견이 반영되는 소수의 의견이 대부분의 의견인 것 처럼 오류를 범하는 경우와 SNS에서 특정 정당 활동과 연계되어 비슷한 정치 성향의 사람들끼리 연결되어 나타나는 편향성이 해당됩니다.
Wordig bias (단어 편향)
설문질문 자체가 헷갈리게 되어 있는 경우입니다. 질문 중에 XX에 대해 찬성합니까? 에 대해 찬성합니까라고 한다면 그렇다와 아니다로 구성된다면 질문 자체에 찬성인지 질문 안에 있는 내용에 대한 질의인지 헷갈립니다. 그리고, 의도적으로 헷갈리게 설문조사를 하여 편향성을 부추기는 경우도 있습니다. 어떤 이유인지 모르겠지만...
이 정도가 많이 나타나는 편향성이고, 관찰 학습(Observational Studies)을 통한 설문조사에서 이뤄지는 사건들입니다.
실제 실험에 대한 결과는 가설검증을 통해 귀무가설에 대한 기각 결과를 반영합니다.
'AP > AP Statistics' 카테고리의 다른 글
| 실험과 관찰학습 (0) | 2023.01.09 |
|---|---|
| AP Statistics 시작 (0) | 2023.01.01 |
| 파이썬에서 정규분포 (0) | 2022.04.28 |
| 파이썬 이항분포 (0) | 2022.03.31 |
| 순열과 조합 - 이항분포 (2) | 2022.03.29 |