NLP (Natural Language Processing; 자연어 처리)

2025. 6. 22. 21:13

* NLP (Natural Language Processing; 자연어 처리)

- 컴퓨터 인간의 언어(자연어)를 이해하고, 해석하고, 생성할 수 있도록 하는 인공지능의 한 분야

* 텍스트 데이터

- 자연어로 작성된 글, 문장, 단어 등의 정보를 포함하는 비정형 데이터

: 언어로 표현된 의미와 문맥을 담고 있음

: 문장의 구조나 순서도 중요한 정보를 담고 있음

* 텍스트 데이터 수집 방법

- Web Scraping (웹 스크래핑)

: 웹 페이젱서 텍스트를 자동으로 수집하는 방법

(Python 의 BeautifulSoup, Scrapy, Selenium 같은 라이브러리 활용 가능)

- Database

: 이미 존재하는 데이터베이스에서 텍스트 데이터를 쿼리하여 수집

- OCR (Optical Character Recognition)

: 문서 스캔 등을 통해 텍스트를 수집

* 텍스트 데이터 정제

- Data Cleansing (데이터 클린징)

: 불필요한 부분 (HTML 태그, 특수 문자, 불필요한 공백 등) 을 제거하는 과정

: 오탈자 교정, 반복되는 단어 제거, 특수 기호 제거 등도 포함

- Data Filtering (데이터 필터링)

: 특정 기준에 따라 필요한 데이터만 남기는 작업

: 특정 언어나, 특정 주제에 관련된 텍스트만 추출하는 방법 등이 있음

* 텍스트 데이터 전처리

- 정제된 텍스트 데이터를 분석할 수 있도록 가공하는 과정

: ML Model 이나 기타 분석 도구에서 효과적으로 활용할 수 있도록 준비

- Tokenization (토큰화)

: 분석하기 쉬운 작은 단위로 분할하는 과정

: 주로 문장을 단어 단위로 분할

- Normalization (정규화)

: 일관된 형태로 변환하는 과정

: 대소문자 통일, 불필요한 구두점 제거, 동의어 처리, 어간 추출(Stemming), 표제어 추출(Lemmatization) 등

- Data Augmentation (데이터 증강)

: 텍스트 데이터의 양과 다양성을 늘리기 위해 기존 데이터를 변형하거나 새로운 데이터를 생성하는 방법

* Morphological Analysis (형태소 분석)

- 문장을 구성하는 단어들의 형태적 구조를 분석하는 과정

: 문장을 이루는 단어들을 그 형태소 단위로 분해하고 그에 따른 품사를 결정

RNN (Recurrent Neural Network; 순환신경망) (0)	2025.06.23
ViTs (Vision Transformers) (0)	2025.06.22
Transformer (트랜스포머) (0)	2025.06.22
CNN (Convolutional Neural Network; 합성곱 신경망) (1)	2025.06.22
Overfitting (과대적합) (0)	2025.06.22

MG's Lab