AI/자연어 처리

    [AI] 자연어 처리 - 전처리와 토큰화(1)

    🤔 전처리 과정 자연어 처리에서 가장 중요한 것은 전처리 과정이라고 할 수 있습니다. 외부로 드러나지 않는 과정이다 보니 상대적으로 주목도가 낮으며, 다루고자 하는 언어, 문제에 따라 전처리 과정이 다릅니다. 기술의 내용이 기반이 되어야 하지만 경험의 누적이 더욱 중요한 분야라고 할 수 있습니다. 일반적인 전처리 과정은 아래와 같습니다. 코퍼스(Corpus) 수집 → 정제(정규화)(Normalization) → 문장 단위 분절(Tokenizing) → 분절(Tokenizing) → 병렬 코퍼스 정렬 → 서브워드 분절 자연어 처리를 위한 전처리 과정에 대해 알아보도록 하겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 ..

    [AI] 자연어 처리 - PyTorch 실습

    🤔 PyTorch 실습 자연어 처리를 하기 전에 PyTorch의 기본 지식에 대해 알아보도록 하겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 파이토치(PyTorch) 아래는 파이토치의 공식 문서 링크입니다. 기본 파이토치의 사용에 대해서는 아래의 링크를 참조하는것을 추천합니다. https://tutorials.pytorch.kr/beginner/blitz/tensor_tutorial.html 텐서(Tensor) 텐서(tensor)는 배열(array)이나 행렬(matrix)과 매우 유사한 특수한 자료구조입니다. PyTorch에서는 텐서를 사용하여 모델의 입력과 출력뿐만 아니라 모델의 매개변수를 부호화(encode)합..

    [AI] 자연어 처리 - 기본지식(3)

    🤔 자연어에 대하여(+a) 자연어 처리를 위한 언어학적 요소에 대해 조금 더 공부해보고 한국어의 자연어 처리에 대해 알아보겠습니다. 언어학적 요소를 알아야 자연어 처리에 대해 잘 이해할 수 있을 것입니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 자연어처리를 위한 언어학적 요소 지난 글에서 자연어 처리를 위한 언어학적 요소에는 음성학, 음운론, 형태소 분석, 구문론, 의미 분석, 실용 분석 등이 있다고 했습니다. 하나 하나 알아보도록 하겠습니다. 음성학(Phonetics) & 음운론(Phonology) 언어의 소리가 물리적으로 어떻게 형성되는지에 대한 이산적인 소리체계에 대한 연구입니다. "disconnect"라는 단어..

    [AI] 자연어 처리 - 기본지식(2)

    🤔 자연어에 대하여 저번 글에 이어 자연어에 대한 기본지식을 공부해보도록 하겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 텍스트 생성(자연어 생성) 자연어 생성은 뉴스기사 생성, 대화 생성, 챗봇 등 다양한 영역에서 활용되고 있습니다. 인간과 컴퓨터(AI) 사이의 의사소통을 위한 가장 자연스러운 방식이라고 할 수 있습니다. 언어 모델 기반, 패턴 기반의 자연어 생성 등의 형태로 나누어 생각할 수 있습니다. • 언어 모델을 이용한 방식 최근 이슈가 되는 초거대 AI는 사전학습된 거대한 언어모델을 말합니다. 수많은 데이터의 학습을 통하여 어떤 표현이 가장 적절한가를 예측하여 문장을 생성합니다. OpenAI의 GPT3,..

    [AI] 자연어 처리 - 기본지식(1)

    🤔 새로운 공부의 시작 AI의 분야 중 하나인 자연어 처리에 대해 공부하고 이론과 실습을 진행하며 정리해보려고 합니다. 가장 먼저 자연어 처리의 개요를 알아보겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 자연어(Natural Language) 자연어란 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온, 한국어, 영어와 같이 오랜 세월에 걸처 자연적으로 만들어진 언어라는 의미입니다. 자연어라고 부르는 까닭은 컴퓨터 공학 등에서 언어라고 하면 우선적으로 C 등의 프로그래밍 언어를 떠올리기 때문입니다. 🔎 자연어 처리(NLP) 자연어 처리는 컴퓨터가 인간의 언어를 알아들..