원-핫 인코딩 (One- Hot Encoding)
1. 인코딩이란?
어떠한 정보를 다른 형태로 바꾸는 행위를 인코딩이라 한다. 인공지능에 데이터를 넣어줄 때 컴퓨터가 이해할 수 있는 방식의 데이터로 변환해야 하므로 중요한 개념 중 하나이다.
2. 원-핫 인코딩
자연어 처리에서 단어를 숫자로 표현하는 가장 기본적인 방식이다.
1단계. 단어 집합에 속한 모든 단어에 고유한 정수를 각각 부여
2단계. 표현하고자 하는 단어에 해당하는 정수를 인덱스로 하는 위치에 1 부여, 나머지 0 부여
* 단어 집합 : 서로 다른 단어들의 집합 (500개의 단어가 존재하면 단어 집합의 크기도 500이다)
3. 과정
"나는 오늘 아침부터 학교를 간다"라는 문장을 기준으로 원-핫 인코딩을 통해 수행한다고 하자.
[1단계]
문장의 단어 집합 : { '나', '는', '오늘', '아침', '부터', '학교', '를', '간다' }
모든 단어에 대해 고유한 정수를 부여해보자
(일반적으로 각 단어들의 빈도수 순으로 정렬해 더 효율적으로 정수를 부여하기도 한다.)
문장의 단어 집합 : { '나': 0, '는': 1, '오늘': 2, '아침': 3, '부터': 4, '학교': 5, '를': 6, '간다': 7 }
[2단계]
'아침'이라는 단어를 다음과 같은 원-핫 벡터로 표현할 수 있다.
[0, 0, 0, 1, 0, 0, 0, 0]
- 24.02.24 LAB meeting -
랩 미팅 중 생소했던 개념을 정리한 글입니다.
'예바의 LAB' 카테고리의 다른 글
[논문 리뷰] SRDFM (1) (4) | 2024.04.06 |
---|---|
논문 발표 TIP (4) | 2024.04.06 |
이분 그래프 (Bipartite graph) (2) | 2024.03.19 |
패스웨이(Pathway)의 개념과 분석 (4) | 2024.03.14 |
[머신 러닝 교과서] 머신 러닝의 학습 방법 (4) | 2024.03.12 |