개요
머신러닝 절차에 대한 설명
Azure 리소스 구조도
통계 기초
기술 통계 | 추론 통계 | |
정의 | 데이터에 대한 분석 결과(수치)들을 활용하여 데이터 집합의 특성을 설명한다. |
모집단에서 추출한 표본을 통해 모집단의 특성을 표현한다. |
예시 | 평균값, 분산, 표준편차, 범위 히스토그램, 파이차트, 상자 도표 |
지방 선거 출구 조사, 제품 불량율 조사 |
통계의 방법에 따른 구분
기초 통계 용어 설명
확률적 표본 추출 (Probability Sampling Method) |
비확률적 표본 추출 (Non-porbability Sampling Method) |
|||
정의 | 동일한 확률 하에 표본을 추출하는 방법 | 조사자가 임의로 표본을 추출하거나 조사 대상이 자발적으로 표본에 참여하는 방법 |
||
종류 | 무작위 표본 추출 난수표에 따라 모집단에서 표본을 기계적으로 추출 체계적 표본 추출 모집단에서 특정 규칙으로 표본을 추출 층화 표본 추출 모집단의 일부 특성에 따라 여러 하위 집단으로 구분, 이후 집단 규모에 비례하여 추출 |
편의 표본 추출 연구자가 편리한 방법으로 표본 추출 규칙도 대표성도 띄지 않는다. 판단(유의) 표본 추출 연구자 주관을 기준으로 표본을 추출 지원자 표본 추출 연구 대상이 지원자인 경우 사용하는 추출 눈덩이(스노우볼) 표본 추출 초기 표본 선택 후, 해당 표본에서 추가 표본을 확 |
표본 추출 방법
정의 | 장점 | 단점 | 특징 | |
평균 (Mean) |
모든 값을 더한 후 데이터 개수로 나눈 값 |
데이터를 통합하여 하나의 대표값으로 표현 |
이상치에 민감 극단적인 값에 영향을 받음 |
연속적이고 정규분포를 따르는 데이터에서 유용 |
중앙값 (Median) |
표본 내의 원소를 크기로 정렬한 후 중앙에 위치한 값 |
이상치 영향이 적음 | 표본 크기가 클 경우 정렬에 시간 소요가 큼 |
비대칭이거나 이상치가 있을 때 유용 |
최빈값 (Mode) |
표본에서 가장 자주 나타나는 값 |
표본의 원소들의 빈도 분포를 잘 나타냄 |
표본 내 최빈값이 없거나 여러 개 있는 경우가 존재 |
범주형 데이터에서 가장 높은 빈도 탐색에 유용 |
중심경항성(Central Tendency) 측정 방법
표본 내의 원소들의 중심을 나타내는 지표로 쓰인다.
그밖에도 평균에 대해 여러 가지 측정 방법이 있다.
ㆍ 가중 평균(Weighted Mean)
표본의 원소들의 값에 가중치를 부여하여 계산한 평균
모든 원소들의 값이 동일한 중요도를 가지지 않을 때 사용한다.
ㆍ 조화 평균 (Harmonic Mean)
원소들의 값들의 역수의 평균을 다시 역수로 변환하여 계산한다.
정의 | 특징 | |
범위 (Range) |
표본 집합에서 가장 큰 값과 가장 작은 값의 차이 | 극단값(outlier)에 민감함 |
분산 (Variance) |
각 데이터에서 평균을 뺸 값을 제곱한 후, 이 값들의 평균을 구함 |
데이터 값들이 평균에서 얼마나 떨어져 있는지 알 수 있는 통계량 |
표준편차 (Standard Deviation) |
분산의 제곱근 | 데이터가 평균에서 얼마나 떨어져 있는지에 대해 표준적인 거리를 나타냄 |
사분위수 범위 (InterQuartile Range) |
데이터의 중앙 50%를 포함한 범위, Q3(3사분위수)와 Q1(1사분위수)의 차이 |
극단값의 영향을 덜 받음 |
산포도 (Measure of Dispersion) 측정 방법
통계에서 산포도를 측정하는 방법들은 데이터의 변동성을 파악하는 데 중요한 역할을 한다.
왜도(Skewness)는 분포의 비대칭성을 측정하는 지표다.
통계에서 데이터 분포의 특성을 설명하는 지표로써 사용한다.
양의 왜도 (Positive Skewness): 분포의 꼬리가 오른쪽(양의 방향)으로 길게 늘어져 있는 경우, 평균이 중앙값보다 크다.
양의 왜도 예시: 급여, 주택 가격 등
음의 왜도 (Negative Skewness): 분포의 꼬리가 왼쪽(음의 방향)으로 길게 늘어져 있는 경우, 평균이 중앙값보다 작다.
음의 왜도 예시: 시험 점수, 전자 제품의 수명 등
첨도(Kurtosis)는 분포의 뾰족함과 꼬리의 두꺼움을 측정하는 지표다.
통계에서 데이터 분포의 특성을 설명하는 지표로써 사용한다.
양의 첨도(Leptokurtic): 정규 분포보다 뾰족하고 꼬리가 두꺼운 분포, Kurtosis > 3인 경우를 말한다.
양의 첨도 특징: 극단적인 값(이상치)이 더 자주 발생한다.
음의 첨도(Platykurtic): 정규 분포보다 평평하고 꼬리가 얇은 분포, Kurtosis < 3인 경우를 말한다.
음의 첨도 특징: 극단적인 값이 덜 발생한다.
확률과 분포
용어 | 설명 |
표본 공간 (Sample Space) |
실험을 통해 나타날 수 있는 모든 결과들의 집합 |
사건 (Event) |
표본공간에 있는 일부 원소들로 이루어진 부분 집합 |
확률 (Probability) |
특정 사건이 일어날 가능성을 나타내는 척도(사건이 발생할 가능성을 수치로 표현) 0에서 1 사이의 값을 가지며, 0은 사건이 절대로 일어나지 않음을 의미하며, 1은 사건이 반드시 일어남을 의미 |
확률 함수 (Probability Function) |
사건이 발생할 확률을 나타내는 함수 덧셈 법칙 : 두 사건 𝐴, 𝐵 에 대하여, 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵) 곱셈 법칙 : 두 사건 𝐴, 𝐵 가 독립 사건일 때, 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 × 𝑃 𝐵 |
확률 변수 (Random Variable) |
특정 값이 나타날 가능성이 확률적으로 주어지는 변수 표본 공간의 각 표본점에 실수 값을 대응시키는 함수 역할을 한다 이산 확률변수와 연속 확률변수로 구분 |
표본점 (Sample point) |
모집단에서 무작위로 뽑은 하나의 표본 |
확률 표본 (Random sample) |
모든 표본점(sample point)들이 동일한 확률로 추출된다는 조건 하에서 추출된 표본 |
확률과 분포에 대한 기초 용어 설명
확률 변수 용어 | 설명 |
확률 변수 (Random Variable) |
특정 값이 나타날 가능성이 확률적으로 주어지는 변수 표본 공간의 각 표본점에 실수 값을 대응시키는 함수 역할을 한다 이산 확률변수와 연속 확률변수로 구분 |
이산형 확률변수 (Discrete random variable) |
0이 아닌 확률 값을 갖는 값이, 셀 수 있는 경우의 확률 변수 예시: 주사위를 굴렸을 때 나오는 눈의 수, 동전 던지기의 결과 |
확률질량함수 (Probability Mass Function) |
이산형 확률변수에 대해 그리는 확률 함수 그래프 이산형 확률변수에 의한 확률 분포 : 이항분포, 기하분포, 포아송분포 등 |
연속형 확률변수 (Continuous random variable) |
가능한 값이 실수의 어느 특정 구간 전체에 해당하는 확률 변수로 연속적인 값을 가진다 예시: 특정 시간 동안의 온도, 사람의 키 |
확률밀도함수 (Probability Density Function) |
연속형 확률변수에 대해 그리는 확률 함수 그래프 연속형 확률변수에 의한 확률 분포 : 정규분포, 균일분포, t-분포, 카이제곱분포 등 |
확률 변수(하나의 column)와 그에 따른 함수에 대한 기초 용어 설명
확률 분포 구분 | 설명 |
이산 확률 분포 (Discret Probability Distribution) |
확률 변수가 취할 수 있는 값이 유한하거나 셀 수 있는 경우 확률질량함수(Probability Mass Function : PMF)로 표현한다 예시: 베르누이분포, 이항분포, 포아송분포 |
연속 확률 분포 (Continuous Probability Distribution) |
확률 변수가 취할 수 있는 값이 연속적인 경우. 확률밀도함수(Probability Density Function : PDF)로 표현 예시: 정규 분포, 지수 분포, 카이제곱 분포 |
확률 분포란, 확률 변수가 가질 수 있는 값들과 그 값들이 발생할 확률을 나타내는 함수를 말한다.
베르누이 분포(Bernoulli Distribution)
이산 확률 분포(Discret Probability Distribution)에 속하는 분포다.
이항 분포(Binomial Distribution)
이산 확률 분포(Discret Probability Distribution)에 속하는 분포다.
포아송 분포(Poisson Distribution)
이산 확률 분포(Discret Probability Distribution)에 속하는 분포다.
정규 분포(Normal Distribution)
연속 확률 분포(Continuous Probability Distribution)에 속하는 분포다.
지수 분포(Exponential Distribution)
연속 확률 분포(Continuous Probability Distribution)에 속하는 분포다.
카이제곱 분포(Chi-Square Distrbution)
연속 확률 분포(Continuous Probability Distribution)에 속하는 분포다.
추론
추론이란, 표본을 활용하여 모집단의 특성을 추측하는 방법이다.
모집단 전체를 조사할 수 없는 경우에 주로 사용한다.
추정(Estimation) | 가설 검정(Hypothesis Testing) | |
정의 | 미지수인, 모집단의 모수에 대한 추측 또는 추측값을 정확도와 함께 제시함 |
모집단의 모수에 대한 여러 가설들이 적합한지 여부를 표본으로부터 판단함 |
추론은 추정(Estimation)과 가설 검정(Hypothesis Testing) 2개로 나눈다.
추정 관련 용어 | 설명 |
점추정 (Point Estimation) |
모집단의 모수를 단일 값(점)으로 추정하는 방법 일반적으로 표본평균, 표본분산 등을 사용한다. 예시 : 표본평균이 50이라면 모집단 평균도 50으로 추정 |
구간추정 (Interval Estimation) |
모집단의 모수를 포함할 것으로 예상되는 구간을 제시하는 방법 신뢰구간(Confidence Interval)과 신뢰수준(Confidence Level)으로 구성한다. 예시 : 95% 신뢰수준에서 신뢰구간이 [25, 55]라면 관심있는 모수가 25~55 사이에 있을 확률이 95%라는 뜻 |
신뢰 구간 (Confidence Interval) |
모수가 신뢰구간 안에 포함될 것으로 예상하는 범위 표본을 사용하여 계산하며, 구간이 넓을 수록 모수를 포함할 확률이 높아진다. |
신뢰 수준 (Confidence Level) |
모수가 신뢰구간에 포함될 확률로 90%, 95%, 99%를 자주 사용한다. 𝑃 𝑎≤𝜇≤𝑏 =1−𝛼, 이때 𝛼는 유의 수준이다. |
유의 수준 (Significance level, α) |
모수가 신뢰구간에 포함되지 않을 확률 |
추정에 관한 용어 설명이다.
신뢰 구간, 신뢰 구준, 유의 수준에 대한 관계는 위 그림으로 표현할 수 있다.
가설 검정 관련 용어 | 설명 |
가설 검정 (Hypothesis Testing) |
어떤 추측이나 주장, 가설에 대해 타당성을 조사하는 작업 표본 통계량으로 모수 추정 시, 추정한 모수값이나 확률분포 등이 타당한지 평가하는 통계적 추론 방법 |
귀무 가설 (Null Hypothesis, H0) |
버릴 것으로 예상하는 가설 |
대립 가설 Alternative Hypothesis, H1) |
실제 주장 또는 증명하려는 가설 |
가설 검정에 관한 용어 설명이다.
가설 검정 단계는 '가설 수립 - 유의 수준 결정 - 검정 통계량 계산 - 기각 혹은 채택'으로 이루어진다.
가설 검정 단계의 예시는 아래와 같다.
1. 가설 수립
귀무 가설 H0: 새로운 진통제의 효과가 기존 진통제와 차이가 없다.
대립 가설 H1: 새로운 진통제가 기존 진통제보다 더 효과적이다.
2. 유의 수준 결정
유의 수준을 0.05로 설정
(5%의 확률로 귀무 가설이 참인데도 불구하고 기각할 가능성을 허용함)
3. 검정 통계량 계산
임상 실험을 통해 두 그룹의 환자들을 각각 새로운 진통제와 기존 진통제 투약
각 그룹에서 진통 정도를 수치화한 데이터 수집
두 그룹의 평균 진통 수치를 비교하여 검정 통계량(예: t-검정) 계산
4. 기각/채택 결정
P-value 계산: 검정 통계량을 바탕으로 P-value를 계산
P-value: 귀무가설 하에서 관측된 데이터가 발생할 확률 (H0을 지지하는 값)
최종 결정: P-value가 유의수준 0.05보다 작으면 귀무가설 기각 (효과 있다)
최종 결정: 그렇지 않으면 귀무가설 채택 (효과 없다)
가설 검정 당시 오류에 신경 쓰는 부분
검정 방법 | 목적 | 비교 대상 | 예시 |
t-검정 (t-test) |
두 그룹의 평균 비교 | 두 그룹 또는 한 그룹의 두 상황 |
두 학급 간 평균 성적 비교 |
카이제곱 검정 (Chi-square test) |
데이터 간 독립성 또는 적합도 검정 |
두 범주형 변수 또는 한 변수 |
성별과 흡연 여부 간의 독립성 확인 |
분산 분석 (ANOVA) |
세 그룹 이상의 평균 비교 | 세 그룹 이상 | 여러 학급 간 평균 성적 비교 |
가설 검정 방법 종류
검정 방법 | 목적 | 비교 대상 | 예시 |
단일 표본 t-검정 (One-sample t-test) |
특정 값과의 비교 | 한 그룹 | 한 학급의 평균 성적이 70점인지 확인 |
독립 표본 t-검정 (Independent Two-sample) |
두 그룹의 평균 비교 | 두 그룹 | 남학생과 여학생의 평균 성적 비교 |
대응 표본 t-검정 |
같은 그룹의 두 상황 비교 | 한 그룹의 두 상황 | 다이어트 전후의 체중 비교 |
t-검정(t-test)에 대한 자세한 설명이다.
t-검정은 두 그룹 간의 평균의 차이가 유의미한지 확인하고자 할 때 주로 사용한다.
검정 방법 | 목적 | 비교 대상 | 예시 |
적합도 검정 (Goodness of fit test) |
관찰 빈도와 기대 빈도의 일치 여부 |
하나의 범주형 변수 | 주사위 굴리기 결과의 기대와 일치 확인 |
독립성 검정 (test of independence) |
두 변수 간의 독립성 확인 | 두 범주형 변수 | 성별과 흡연 여부 간의 독립성 확인 |
동질성 검정 (test of homogeneity) |
여러 표본이 동일한 분포를 따르는지 확인 |
두 개 이상의 범주형 변수 | 여러 지역의 질병 발생률 비교 |
카이제곱 검정(Chi-square test)에 대한 자세한 설명이다.
카이제곱 검정은 범주형 데이터에서 기대 빈도와 관찰 빈도 간의 차이를 확인할 때 사용한다.
혹은 두 범주형 데이터에서 변수 간 독립성 여부를 검정할 때 사용한다.
검정 방법 | 목적 | 비교 대상 | 예시 |
일원 분산 분석 (One-way ANOVA) |
한 요인에 대한 평균 비교 | 여러 그룹 | 여러 학급 간 평균 성적 비교 |
이원 분산 분석 (Two-way ANOVA) |
두 요인에 대한 평균 비교 | 여러 그룹 | 학급과 성별에 따른 평균 성적 비교 |
다원 분산 분석 (Multi-way ANOVA) |
여러 요인에 대한 평균 비교 |
분산 분석(ANOVA; ANalysis Of VAriance)에 대한 자세한 설명이다.
분산 분석은 3개 이상의 집단에 대한 평균 차이를 검증하는 분석 방법이다.
상관분석
상관분석 관련 용어 | 설명 |
상관분석 | 두 변수 간의 관계를 정략적으로 평가하는 통계 기법 하나의 변수가 변할 때 다른 변수가 어떻게 변하는지 파악할 수 있다. |
상관계수 (Correlation Coefficient) |
두 변수 간의 관계의 강도와 방향을 나타내는 수치 |
상관관계의 방향 | 양의 상관관계: 한 변수가 증가할 때 다른 변수도 증가하는 경향이 있는 경우 음의 상관관계: 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있는 경우 |
상관관계의 강도 | 강한 상관관계: 상관계수의 절댓값이 0.7 이상 중간 상관관계: 상관계수의 절댓값이 0.3 ~ 0.7 사이 약한 상관관계: 상관계수의 절댓값이 0.3 미만 |
상관분석에 관한 용어 설명이다.
피어슨 상관계수 (Pearson) |
스피어만 상관계수 (Spearmans's Rank) |
켄달 타우 (Kendall's Tau, Kendall's Rank) |
|
측정 대상 | 연속형 변수 간의 선형 관계를 측정 | 순위형 변수 간의 관계 측정 (비선형 관계일 경우에도 사용 가능) |
변수의 순서 간의 상관성을 측정 (작은 데이터셋에 적합) |
계산 방법 | 두 변수의 공분산을 각 변수의 표준편차로 나누어 계산 (두 변수가 얼마나 함께 변하는지를 표준편차를 통해 정규화한 값) |
각 변수의 순위를 매긴 후, 그 순위들 간의 상관계수를 계산함 (순위 차이에 따라 값을 계산하여, 변수 간의 비선형 관계 반영 가능) |
순위 쌍 간의 일치와 불일치를 비교하여 상관관계를 계산 |
해석 | 𝑟 = 1: 완전한 양의 상관관계 𝑟 = −1: 완전한 음의 상관관계 𝑟 = 0: 상관관계 없음 |
𝑟𝑠 = 1: 완전한 양의 상관관계 𝑟𝑠 = −1: 완전한 음의 상관관계 𝑟𝑠 = 0: 상관관계 없음 |
피어슨과 동일하게 해석(𝜏) |
장점 | 데이터 선형 관계 직접적으로 반영, 해석이 직관적 |
비선형 관계와 이상치에 덜 민감 | 순위 정보에 기반하여 비선형 관계도 잘 반영 |
단점 | 두 변수가 비선형 관계일 경우 이를 제대로 반영하지 못함 |
순위 정보만 사용하여 정보 손실이 발생할 수 있음 (원래 데이터의 크기 정보 등) |
계산이 복잡해, 해석이 다소 어려움 (특히 데이터셋이 클 경우 계산 부담 증가) |
예시 | 키와 몸무게 간의 관계 (일반적으로 키가 큰 사람이 몸무게도 더 나가는 경향이 있을 때 사용) |
성적과 스포츠 성적 순위 간의 관계 (성적 관계 분석 시 점수를 순위로 변경하여 상관관계 분석) |
직무 수행 순위와 승진 순위 관계 |
그 외 | 모수적 방법 | 비모수적 방법 순서를 보고 분석 |
조금 더 정밀한 순위 관계를 표시 순서쌍을 가지고 분석 |
상관계수 지표에 관한 용어 설명이다.
Azure ML Designer
ㅇㅇ
ㅇㅇ
불순도(Impurity): 데이터를 가장 잘 분류할수 있는 질문(조건)을 찾아내는 방법
이는 곧 순도가 높아지는 방향으로 구분한다는 말과 같다.
불순도는 여러 종류의 데이터가 있을수록 높아진다(불확실성이 높아진다).
불순도 개념은 데이터를 얼마나 잘 분류했는지 파악하는 척도로 사용하기도 한다.
지니 불순도: DecisionTree의 불순도를 측정하는 기본 지표
각 범주(클래스)의 비율을 제곱해서 더한 후, 1에서 뺀 값으로 계산한다.
결과가 0에 가까울수록 순도가 높다는 말과 같다.
DecisionTree의 규칙 생성 과정이다.
각 노드의 테스트(질문) 조건은 가급적 동일한 범주의 데이터를 모일 수 있도록(순도가 높게끔) 정한다.
즉 영향력이 높은 독립변수부터 시작한다.
1번처럼 계산했을 경우 좌측은 0, 우측은 0.278의 지니 불순도를 갖고,
2번처럼 계산했을 경우 상단은 0, 하단은 0.408의 지니 불순도를 갖는다.
즉 이 경우에는 1번을 가장 첫 번째 분기로써 사용한다.
이런 식으로 계속해서 가지(branch)를 뻗어나가는 방식으로 진행한다.
실제로 나무 형태로 시각화하면 테스트 조건, 불순도, 노드에 속한 총 샘플 수, 각 범주 별 샘플 등을 볼 수 있다.
이런 Tree 기반 모델의 경우 임계치(threshold)를 설정할 수 있다.
앙상블 모델 중에서 Tree 모델만을 사용한 앙상블 모델은 RandomForest라고 부른다.
앙상블에서 다수결로 사용하기도 하고, 아니면 학습마다 dropout을 걸기도 하고 다양하다.
배깅(bagging; bootstrap aggregating): 샘플링 시 중복을 허용하는 방식(복원 추출)
페이스팅(pasting): 샘플링 시 중복을 허용하지 않는 방식
하이퍼파라미터(Hyperparameter)는 모델링할 때 사용자가 직접 조정 및 세팅하는 값이다.
DecisionTree의 과적합을 방지하기 위해 최대 깊이(max depth)를 설정한다든가,
RandomForest 샘플링 시 배깅 (bootstrap aggregating) 방식을 허용한다든가 식이다.
이는 다음과 같은 질문들을 통해 drill down 할 수 있다.
ㆍ 의사결정나무의 최대 깊이는 몇으로 정할까?
ㆍ 랜덤포레스트에 의사결정나무를 몇 개 적용할까?
ㆍ 랜덤포레스트 샘플링 시 중복을 허용할까?
ㆍ 리프 노드에 포함해야 할 최소 샘플의 수는 몇 개로 할까?
Missing Value에 대해서 처리하는 다양한 방법들
범주형 변수에 대해서 처리나는 예시들
데이터의 종류
종류에 따른 모델 학습 선택
Azure Machine Learning 실습
리소스 그룹을 만든 다음, 해당 리소스 그룹에 Azure Machine Learning 환경을 만든다.
정상적으로 배포를 하고 나면 리소스로 이동 후, Studio 시작을 한다.
ML Studio로 들어가면 위와 같은 화면이 나온다.
Tabluar
dd
건드리지 않는 나머지 사항은 전부 default로 설정하고 파일을 가져온다.
자세한 쿼리 상황을 보고 가져온다.
스키마도 검증한다.
좌측의 포함 여부를 통해 column 단위로 import 여부를 결정할 수 있다.
매핑 전
매핑 후
컴퓨팅 자원 만들기
컴퓨팅 세부 설정하기
'다음'으로 넘기다가 설치 스크립트 설정을 발견했다.
Databricks의 cluster는 저 설치 스크립트가 없어서 골머리를 썩었는데 여기서는 수월하게 할 수 있어보인다.
컴퓨팅 생성 완료
Pipeline draft 새로 만들기
이름 바꾸기
좌측의 데이터를 Drag & Drop하여 파이프라인을 구성할 수 있다.
이후 가져온 데이터를 '더블 클릭'하면 우측의 상세 정보가 나온다.
상세 정보에서 출력(Output)으로 들어가면
미리보기(Preview)로 실제 들어가 있는 전체 데이터, 스키마, column 개수, row 개수 등을 볼 수 있고,
프로필(Profile)로 통계량, 결측치 값, 데이터 분포, 최솟값, 최대값 등을 보는 것도 가능하다.
ㅇㅇ
ㅇㅇ
Output에 붙지 않은 경우 이름별(By name)이 비활성화, 오로지 규칙 사용(with rule)만 활성화된다.
데이터에 직접 붙은 component만 저 조건이 활성화된다.
좌측에 clean missing를 검색하여 component를 더 이어준다.
해당 component는 결측치를 변경하거나 채워주는 component다.
Clenaing mode에서 전체 행을 지우라는 명령도 존재한다.
다양한 명령을 필요에 따라 처리하면 된다.
이런 형태로 각각 column에 대해서 결측치 처리를 하면 된다.
이후 edit meta를 검색하여 기존에 존재하는 column에 대해서 타입 변경을 해준다.
이번 component에서는 3가지 column에 대해서 categorical 타입으로 변경한다.
물론 이때 Edit column 항목에서 3가지 column을 수동으로 전부 기입해야 한다.
이때 오탈자를 주의하자. 나중에 Job 돌리면 error 뜨는 사유가 높은 확률로 오탈자다.
이렇게 변경한 categorical column을 one hot encoding으로 쪼개준다.
이때 Overwrite categorical columns를 True로 설정하면 기존에 존재하는 column은 없애고 ohe 결과만 남겨준다.
이후 테스트를 위해 우상단의 Configure & Submit을 눌러서 Job을 생성할 수 있다.
해당 파이프라인에서 한 번도 Job을 생성한 적이 없다면 Create new를 해서 생성하면 되고,
만약 Job을 생성했더라면(오류가 발생해서 다시 실행한다든가의 경우) Select existing으로 바꾸면 된다.
이후 어떤 compute 자원을 이용하여 Job을 돌릴지 설정한다.
좌측의 Assets의 Jobs로 가면 어떤 Job이 있는지, 현재 실행 중인지 등의 여부를 파악할 수 있다.
모든 Job을 확인하기 위해서는 상단의 All experiments를 눌러서 확인할 수 있다.
실제로 타고 들어가면 현재 얼마나 수행하고 있는지 직접 볼 수 있다.
Visual Tree를 사용하면 semantic error나 유효성 검사를 빠듯하게 보기 때문에 상당한 시간이 걸린다.
물론 같은 코드를 파이썬으로 수행한다면 금방 끝난다.
Job을 통해 pipeline을 한 바퀴 돌리고 나면 수행 결과를 볼 수 있다.
마지막 component를 우클릭하여 Preview data > Result dataset을 누르면 알 수 있다.
그럼 위와 같은 형태로 결과가 보인다.
물론 이 경우에는 마지막 component가 데이터 전처리에 해당하는 component이기에 데이터가 보인다.
'공부 > Microsoft Data School 1기' 카테고리의 다른 글
AzureDataFactory & AzureMachineLearning을 활용한 솔루션 설계 3 (1) | 2025.06.17 |
---|---|
AzureDataFactory & AzureMachineLearning을 활용한 솔루션 설계 2 (1) | 2025.06.16 |
1차 팀 프로젝트 기간 8 (0) | 2025.06.05 |
AzureDatabricks를 활용한 데이터 병렬 처리 7 (0) | 2025.05.22 |
AzureDatabricks를 활용한 데이터 병렬 처리 6 (0) | 2025.05.21 |