* NLP (Natural Language Processing; 자연어 처리)
- 컴퓨터 인간의 언어(자연어)를 이해하고, 해석하고, 생성할 수 있도록 하는 인공지능의 한 분야
* 텍스트 데이터
- 자연어로 작성된 글, 문장, 단어 등의 정보를 포함하는 비정형 데이터
: 언어로 표현된 의미와 문맥을 담고 있음
: 문장의 구조나 순서도 중요한 정보를 담고 있음
* 텍스트 데이터 수집 방법
- Web Scraping (웹 스크래핑)
: 웹 페이젱서 텍스트를 자동으로 수집하는 방법
(Python 의 BeautifulSoup, Scrapy, Selenium 같은 라이브러리 활용 가능)
- Database
: 이미 존재하는 데이터베이스에서 텍스트 데이터를 쿼리하여 수집
- OCR (Optical Character Recognition)
: 문서 스캔 등을 통해 텍스트를 수집
* 텍스트 데이터 정제
- Data Cleansing (데이터 클린징)
: 불필요한 부분 (HTML 태그, 특수 문자, 불필요한 공백 등) 을 제거하는 과정
: 오탈자 교정, 반복되는 단어 제거, 특수 기호 제거 등도 포함
- Data Filtering (데이터 필터링)
: 특정 기준에 따라 필요한 데이터만 남기는 작업
: 특정 언어나, 특정 주제에 관련된 텍스트만 추출하는 방법 등이 있음
* 텍스트 데이터 전처리
- 정제된 텍스트 데이터를 분석할 수 있도록 가공하는 과정
: ML Model 이나 기타 분석 도구에서 효과적으로 활용할 수 있도록 준비
- Tokenization (토큰화)
: 분석하기 쉬운 작은 단위로 분할하는 과정
: 주로 문장을 단어 단위로 분할
- Normalization (정규화)
: 일관된 형태로 변환하는 과정
: 대소문자 통일, 불필요한 구두점 제거, 동의어 처리, 어간 추출(Stemming), 표제어 추출(Lemmatization) 등
- Data Augmentation (데이터 증강)
: 텍스트 데이터의 양과 다양성을 늘리기 위해 기존 데이터를 변형하거나 새로운 데이터를 생성하는 방법
* Morphological Analysis (형태소 분석)
- 문장을 구성하는 단어들의 형태적 구조를 분석하는 과정
: 문장을 이루는 단어들을 그 형태소 단위로 분해하고 그에 따른 품사를 결정
'SW > AI (인공지능)' 카테고리의 다른 글
RNN (Recurrent Neural Network; 순환신경망) (0) | 2025.06.23 |
---|---|
ViTs (Vision Transformers) (0) | 2025.06.22 |
Transformer (트랜스포머) (0) | 2025.06.22 |
CNN (Convolutional Neural Network; 합성곱 신경망) (1) | 2025.06.22 |
Overfitting (과대적합) (0) | 2025.06.22 |