* NLP (Natural Language Processing; 자연어 처리)

   - 컴퓨터 인간의 언어(자연어)를 이해하고, 해석하고, 생성할 수 있도록 하는 인공지능의 한 분야

 

* 텍스트 데이터

   -  자연어로 작성된 글, 문장, 단어 등의 정보를 포함하는 비정형 데이터

      : 언어로 표현된 의미와 문맥을 담고 있음

      : 문장의 구조나 순서도 중요한 정보를 담고 있음

 

* 텍스트 데이터 수집 방법

   - Web Scraping (웹 스크래핑)

      : 웹 페이젱서 텍스트를 자동으로 수집하는 방법

        (Python 의 BeautifulSoup, Scrapy, Selenium 같은 라이브러리 활용 가능)

   - Database

      : 이미 존재하는 데이터베이스에서 텍스트 데이터를 쿼리하여 수집

   - OCR (Optical Character Recognition)

      : 문서 스캔 등을 통해 텍스트를 수집

 

* 텍스트 데이터 정제

   - Data Cleansing (데이터 클린징)

      : 불필요한 부분 (HTML 태그, 특수 문자, 불필요한 공백 등) 을 제거하는 과정

      : 오탈자 교정, 반복되는 단어 제거, 특수 기호 제거 등도 포함

   - Data Filtering (데이터 필터링)

      : 특정 기준에 따라 필요한 데이터만 남기는 작업

      : 특정 언어나, 특정 주제에 관련된 텍스트만 추출하는 방법 등이 있음

 

* 텍스트 데이터 전처리

   - 정제된 텍스트 데이터를 분석할 수 있도록 가공하는 과정

      : ML Model 이나 기타 분석 도구에서 효과적으로 활용할 수 있도록 준비

   - Tokenization (토큰화)

      : 분석하기 쉬운 작은 단위로 분할하는 과정

      : 주로 문장을 단어 단위로 분할

   - Normalization (정규화)

      : 일관된 형태로 변환하는 과정

      : 대소문자 통일, 불필요한 구두점 제거, 동의어 처리, 어간 추출(Stemming), 표제어 추출(Lemmatization) 등

   - Data Augmentation (데이터 증강)

      : 텍스트 데이터의 양과 다양성을 늘리기 위해 기존 데이터를 변형하거나 새로운 데이터를 생성하는 방법

 

* Morphological Analysis (형태소 분석)

   - 문장을 구성하는 단어들의 형태적 구조를 분석하는 과정

     : 문장을 이루는 단어들을 그 형태소 단위로 분해하고 그에 따른 품사를 결정

+ Recent posts