분류 전체보기

    [AI] 자연어 처리 - 전처리와 토큰화(2)

    🤔 토큰화(Tokenizing) 개요 기본적으로 컴퓨터는 우리가 일상 생활에서 사용하는 언어인 자연어를 이해하지 못합니다. 그래서 컴퓨터에게 자연어를 이해하게 하기 위해 여러 방법이 연구되어 왔습니다. 그중 가장 일반적인 방법이 Tokenizing과 임베딩 기반으로 컴퓨터가 이해할 수 있도록 데이터 화를 하는 것입니다. 또한 텍스트 유사도를 이용하여 문맥을 분류합니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 토큰화(Tokenizing) - 형태소 분석 Tokenizing이란 주어진 문자에서 토큰 단위로 정보를 나누는 작업으로 형태소 분석입니다. 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업..

    [AI] 자연어 처리 - 전처리와 토큰화(1)

    🤔 전처리 과정 자연어 처리에서 가장 중요한 것은 전처리 과정이라고 할 수 있습니다. 외부로 드러나지 않는 과정이다 보니 상대적으로 주목도가 낮으며, 다루고자 하는 언어, 문제에 따라 전처리 과정이 다릅니다. 기술의 내용이 기반이 되어야 하지만 경험의 누적이 더욱 중요한 분야라고 할 수 있습니다. 일반적인 전처리 과정은 아래와 같습니다. 코퍼스(Corpus) 수집 → 정제(정규화)(Normalization) → 문장 단위 분절(Tokenizing) → 분절(Tokenizing) → 병렬 코퍼스 정렬 → 서브워드 분절 자연어 처리를 위한 전처리 과정에 대해 알아보도록 하겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 ..

    [AI] Kaggle - Space Titanic (1) 정보 확인

    🤔 대회 설명 Kaggle에서 개최한 대회중 하나인 SPACE TITANIC입니다. 유명한 데이터 분석, 머신러닝 입문의 예제 중 하나인 TITANIC예제와 매우 유사하지만 조금 더 높은 난이도를 가지고 있습니다. 공부를 진행하며 대회에 직접 참가하는 것이 도움이 될 것이라고 생각하여 참가하게 되었습니다. 해당 대회의 Overview는 아래와 같습니다. Welcome to the year 2912, where your data science skills are needed to solve a cosmic mystery. We've received a transmission from four lightyears away and things aren't looking good. The Spaceship Ti..

    [AI] 자연어 처리 - PyTorch 실습

    🤔 PyTorch 실습 자연어 처리를 하기 전에 PyTorch의 기본 지식에 대해 알아보도록 하겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 파이토치(PyTorch) 아래는 파이토치의 공식 문서 링크입니다. 기본 파이토치의 사용에 대해서는 아래의 링크를 참조하는것을 추천합니다. https://tutorials.pytorch.kr/beginner/blitz/tensor_tutorial.html 텐서(Tensor) 텐서(tensor)는 배열(array)이나 행렬(matrix)과 매우 유사한 특수한 자료구조입니다. PyTorch에서는 텐서를 사용하여 모델의 입력과 출력뿐만 아니라 모델의 매개변수를 부호화(encode)합..

    [AI] 자연어 처리 - 기본지식(3)

    🤔 자연어에 대하여(+a) 자연어 처리를 위한 언어학적 요소에 대해 조금 더 공부해보고 한국어의 자연어 처리에 대해 알아보겠습니다. 언어학적 요소를 알아야 자연어 처리에 대해 잘 이해할 수 있을 것입니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 자연어처리를 위한 언어학적 요소 지난 글에서 자연어 처리를 위한 언어학적 요소에는 음성학, 음운론, 형태소 분석, 구문론, 의미 분석, 실용 분석 등이 있다고 했습니다. 하나 하나 알아보도록 하겠습니다. 음성학(Phonetics) & 음운론(Phonology) 언어의 소리가 물리적으로 어떻게 형성되는지에 대한 이산적인 소리체계에 대한 연구입니다. "disconnect"라는 단어..