NLP

    [AI] 자연어 처리 - 단어의 표현(2)

    🤔 단어의 의미 파악 단어의 의미를 파악하기 위한 기법들에는 아래 세 가지의 기법이 있습니다. 시소러스 활용 기법 통계 기반 기법 추론 기반 기법 각각의 기법에 대해 알아보는 시간을 가져보도록 하겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 시소러스 활용 기법 사람의 경우 단어의 이해를 위하여 "사전"을 활용합니다. 사전에 단어의 의미를 정의해 둔 후 사용합니다. 컴퓨터도 이렇게 할 수 있지 않을까? 라고 생각하여 시소러스 활용 기법이 생겨났습니다. 시소러스란 유의어 사전, 어휘 분류 사전입니다. 즉 뜻이 같은 단어(동의어), 뜻이 비슷한 단어(유의어)가 한 그룹으로 분류되어 있는 사전입니다. car = auto ..

    [AI] 자연어 처리 - 단어의 표현(1)

    🤔 단어의 표현 자연어 처리 분야에서 가장 기초이면서 가장 어려운 문제인 것이 단어의 표현이라고 할 수 있습니다. 단어의 의미와 유사성, 모호성 등의 문제가 존재하기 때문입니다. 이번에는 자연어 처리 분야의 단어의 표현에 관하여 공부해보겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 단어의 의미와 유사성, 모호성 단어의 의미 단어는 글자로 적을 떄는 하나의 형태를 가지지만 상황에 따라 다른 의미로 사용됩니다. 주변 정보에 따라 숨겨진 의미를 파악, 이해할 수 있습니다. 주변 정보의 부족, 또는 다른 해석에 따라 모호성이 증가합니다. 국어에서 이러한 것을 문맥이라고 배웠던 기억이 납니다. 문맥을 이해하지 못한다면 사람..

    [AI] 자연어 처리 - 전처리와 토큰화(3)

    🤔 토큰화 실습 자연어 처리의 전처리에 이어 Tokenizing(토큰화)를 진행해보도록 하겠습니다. 토큰화에 대해 이론적으로 학습하고 싶은 분들은 아래의 링크를 참고해주시면 감사하겠습니다. https://2t-hong.tistory.com/29 [AI] 자연어 처리 - 전처리와 토큰화(2) 🤔 토큰화(Tokenizing) 개요 기본적으로 컴퓨터는 우리가 일상 생활에서 사용하는 언어인 자연어를 이해하지 못합니다. 그래서 컴퓨터에게 자연어를 이해하게 하기 위해 여러 방법이 연구되어 왔 2t-hong.tistory.com 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎단순한 띄어쓰기로 토큰화하기 영어의 경우에는 띄어쓰기 단위로 토큰..

    [AI] 자연어 처리 - 전처리와 토큰화(3)

    🤔 전처리 실습 자연어 처리 중 전처리 실습을 진행해보겠습니다. 참고도서 김기현의 자연어 처리 딥러닝 캠프-파이토치편(김기현, 한빛미디어) Do it! BERT와 GPT로 배우는 자연어처리(이기창, 이지스퍼블리싱) 전처리에 대한 이론은 아래의 링크를 통해 확인하실 수 있습니다. https://2t-hong.tistory.com/28 [AI] 자연어 처리 - 전처리와 토큰화(1) 🤔 전처리 과정 자연어 처리에서 가장 중요한 것은 전처리 과정이라고 할 수 있습니다. 외부로 드러나지 않는 과정이다 보니 상대적으로 주목도가 낮으며, 다루고자 하는 언어, 문제에 따라 전 2t-hong.tistory.com 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임..

    [AI] 자연어 처리 - 전처리와 토큰화(2)

    🤔 토큰화(Tokenizing) 개요 기본적으로 컴퓨터는 우리가 일상 생활에서 사용하는 언어인 자연어를 이해하지 못합니다. 그래서 컴퓨터에게 자연어를 이해하게 하기 위해 여러 방법이 연구되어 왔습니다. 그중 가장 일반적인 방법이 Tokenizing과 임베딩 기반으로 컴퓨터가 이해할 수 있도록 데이터 화를 하는 것입니다. 또한 텍스트 유사도를 이용하여 문맥을 분류합니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 토큰화(Tokenizing) - 형태소 분석 Tokenizing이란 주어진 문자에서 토큰 단위로 정보를 나누는 작업으로 형태소 분석입니다. 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업..