데이터 단답형 대비 2
데이터의 일관성을 위해서 시행하는 것 중 하나로, 데이터 정제의 규칙을 적용하기 위해서 의미를 가지는 가장 작은 단위로 나누는 방법을 무엇이라 하는가?
파싱
결측값을 대치하는 방법 중 하나로, 완전하지 못한 자료들은 제외하고, 완전한 데이터만 사용해서 분석하는 방법입니다. 분석은 용이하나, 부분적으로 자료들이 없어져서 효율성은 떨어지고, 통계적인 면에서 타당성의 문제가 생길 수 있는 단순 대치법의 종류는 무엇입니까?
완전 분석법
단순 확률 대치법 중에서 무응답으로 처리된 자료를 현재 시행하고 있는 연구에서 비슷한 모습을 가진 지원자의 데이터로 대체하는 방법으로, 표본조사 등에서 활용하는 방법을 무엇이라 하는가?
핫 덱 대체
그렇다면, 대체 자료를 현재의 연구가 아닌 외부 또는 과거의 연구 자료를 통해서 대체하는 방법은 무엇입니까?
콜드 덱 대체
어떠한 사건을 관측하고, 관측 전과 후의 원인의 가능성을 추측하고, 그 둘 사이의 관계를 나타내는 설명 이론을 무엇이라 하는가?
베이지안 이론
통계학에서 알 수 없는 분포에 대해서 제일 근사한 값으로 추정하는 방법을 무엇이라 합니까?
점 추정
평균에서 3 표준편차 떨어진 값을 이상치로 인식하는 이상값 검출 기법은 무엇입니까?
ESD
관측치 주변의 밀도의 상대적인 비교를 통해서 이상치를 탐색하는 기법으로, 근접 이웃까지의 거리를 계산하여 그 안에 포함된 관측치의 개수를 나눈 역수로 산출하는 이상치 탐색방법은?
LOF
시간에 따른 자료의 변화나 추세를 보여주는 그래프는?
시계열 그래프
인공지능의 하위분류 중 하나로, 인간의 학습 능력과 비슷하게 컴퓨터에서도 학습이 가능하게 만들기 위해 사용하는 기술은?
머신러닝
데이터의 차원이 증가하면, 공간의 부피가 기하급수적으로 증가하기에, 데이터의 밀도가 희박해지는데, 이로 인해 추정에 필요한 샘플 데이터가 기하급수적으로 증가하게 되는 현상을 무엇이라 하는가?
차원의 저주
변수 선택 기법으로, 통계적 특성을 통해 변수를 선택하는 기법입니다. 계산 속도가 빠르고, 래퍼 기법을 사용하기 전에 전처리를 위해 사용하는 기법은?
필터 기법
변수의 일부분만을 사용하고, 결과를 확인해서 반복 작업을 통해 변수를 선택하는 기법입니다. 그리디 알고리즘에 속하며, 시간의 오래 걸리고, 과적합 위험이 있지만 정확도는 높은 이 기법은?
래퍼 기법
임베디드 기법 중 하나로, 가중치의 절댓값의 합을 최소화하는 것을 추가 제약조건으로 하는 방법은?
라쏘
가중치의 제곱 합을 최소화하는 것을 추가적인 제약조건으로 내세운 방법은?
릿지
라쏘와 릿지를 선형 결합한 방법으로, 가중치의 절댓값의 합과 제곱 합을 동시적으로 제약조건으로 거는 방법은?
엘리스틱 넷
행렬 데이터에서 특이값을 추출하여 데이터 세트를 효과적으로 줄일 수 있는 방법은?
SVD(특이값 분해)
데이터 안에 관찰이 불가능한 잠재적인 변수가 존재한다고 가정하고, 관찰 가능한 데이터들을 통해서 잠재요인을 도출하는 방법으로, 사회과학과 설문조사에서 주로 사용하는 이것은?
요인 분석
개체들의 유사성과 비유사성을 통해 2,3차원 공간 위에 점으로 표현하여 집단화를 시각적으로 표현하는 분석방법은?
MDS(다차원 척도법)
기존 변수에 특정한 조건 또는 함수 등을 이용해 새롭게 재정의하는 변수이며, 변수를 조합, 함수 적용 등을 통해 새로운 변수를 만들어 분석하는 것을 말하는 이것은?
파생변수
변수의 분포가 오른쪽으로 기울어진 것을 감소하여 분포를 고르게 만들기 위해서 사용하는 단순 기능 변환 방법이며, 0과 음수의 값에는 적용이 불가한 변환 방법은?
로그 변환
데이터 평활화에서 사용되는 기술로, 범주화에도 활용되며, 데이터를 몇 개의 Bin으로 나누어서 계산하는 방법은?
비닝
과소 표집 기법 중 하나로, 클래스를 구분하는 경계선 근처에 존재하는 데이터인 ( )를 제거하는 방법이 있습니다.
토멕 링크
소수의 클래스 주변에 다수 클래스 데이터를 제거해서 데이터의 비율을 맞추는 기법은?
ENN
다수 클래스에 모여있는 데이터들이 없어질 때까지 제거해서 대표적인 데이터들만 남도록 하는 기법은?
CNN
토멕 링크 방법과 CNN 방법의 장점들만 만든 것으로, 토멕 링크를 제거하고, 밀집된 데이터를 제거하는 방법은?
OSS
과대 표집 기법 중 하나로, 소수 클래스에서 중심 데이터와 주변 데이터 가운데에 직선을 만들고, 그 위에 데이터들을 추가하는 방법은?
SMOTE
모든 소수 클래스에서 다수 클래스의 관측 비율을 얻어내서 SMOTE를 적용하는 기법은?
ADASYN
임계값을 데이터가 많이 있는 곳으로 이동시키는 방법으로, 학습 단계에서는 이동하지 않고, 테스트 단계에서 임계값을 이동하는 방법은?
임계값 이동
변수의 공분산 행렬, 상관 행렬을 이용한 방법으로, 본래의 데이터를 잘 설명해주는 성분을 뽑아내기 위해 고차원 공간의 표본을 저차원 공간으로 바꾸는 차원 축소 기법 중 하나로, 행과 열의 수가 같은 행렬에서만 사용 가능한 이것은?
PCA(주성분 분석)
주성분 분석과 다르게 다변량의 신호를 분리해서 차원 축소를 진행하는 방법으로, 독립 성분의 분포가 비정규 분포를 따르게 되는 기법은?
ICA(독립성분 분석)
변수의 중복성을 최소화하기 위한 방법으로, 종속변수도 잘 예측하고, 독립변수와도 중복성이 적은 변수들을 선택하는 기법은?
mRMR
변수 선택 알고리즘 중 하나로, 비어있는 상태에서 시작해서 모형을 가장 많이 향상하게 만드는 변수를 하나씩 점진적으로 추가하는 방법으로, 더 이상 향상되지 않으면 중단하는 이것은?
전진 선택법
전진 선택법과 후진 제거법을 함께 사용하는 방법은?
단계적 방법