NLP

    [AI] 자연어 처리 - 전처리와 토큰화(1)

    🤔 전처리 과정 자연어 처리에서 가장 중요한 것은 전처리 과정이라고 할 수 있습니다. 외부로 드러나지 않는 과정이다 보니 상대적으로 주목도가 낮으며, 다루고자 하는 언어, 문제에 따라 전처리 과정이 다릅니다. 기술의 내용이 기반이 되어야 하지만 경험의 누적이 더욱 중요한 분야라고 할 수 있습니다. 일반적인 전처리 과정은 아래와 같습니다. 코퍼스(Corpus) 수집 → 정제(정규화)(Normalization) → 문장 단위 분절(Tokenizing) → 분절(Tokenizing) → 병렬 코퍼스 정렬 → 서브워드 분절 자연어 처리를 위한 전처리 과정에 대해 알아보도록 하겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 ..

    [AI] 자연어 처리 - 기본지식(1)

    🤔 새로운 공부의 시작 AI의 분야 중 하나인 자연어 처리에 대해 공부하고 이론과 실습을 진행하며 정리해보려고 합니다. 가장 먼저 자연어 처리의 개요를 알아보겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 자연어(Natural Language) 자연어란 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온, 한국어, 영어와 같이 오랜 세월에 걸처 자연적으로 만들어진 언어라는 의미입니다. 자연어라고 부르는 까닭은 컴퓨터 공학 등에서 언어라고 하면 우선적으로 C 등의 프로그래밍 언어를 떠올리기 때문입니다. 🔎 자연어 처리(NLP) 자연어 처리는 컴퓨터가 인간의 언어를 알아들..