AI
[AI] 자연어 처리 - 전처리와 토큰화(1)
🤔 전처리 과정 자연어 처리에서 가장 중요한 것은 전처리 과정이라고 할 수 있습니다. 외부로 드러나지 않는 과정이다 보니 상대적으로 주목도가 낮으며, 다루고자 하는 언어, 문제에 따라 전처리 과정이 다릅니다. 기술의 내용이 기반이 되어야 하지만 경험의 누적이 더욱 중요한 분야라고 할 수 있습니다. 일반적인 전처리 과정은 아래와 같습니다. 코퍼스(Corpus) 수집 → 정제(정규화)(Normalization) → 문장 단위 분절(Tokenizing) → 분절(Tokenizing) → 병렬 코퍼스 정렬 → 서브워드 분절 자연어 처리를 위한 전처리 과정에 대해 알아보도록 하겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 ..
[AI] Kaggle - Space Titanic (1) 정보 확인
🤔 대회 설명 Kaggle에서 개최한 대회중 하나인 SPACE TITANIC입니다. 유명한 데이터 분석, 머신러닝 입문의 예제 중 하나인 TITANIC예제와 매우 유사하지만 조금 더 높은 난이도를 가지고 있습니다. 공부를 진행하며 대회에 직접 참가하는 것이 도움이 될 것이라고 생각하여 참가하게 되었습니다. 해당 대회의 Overview는 아래와 같습니다. Welcome to the year 2912, where your data science skills are needed to solve a cosmic mystery. We've received a transmission from four lightyears away and things aren't looking good. The Spaceship Ti..
[AI] 자연어 처리 - PyTorch 실습
🤔 PyTorch 실습 자연어 처리를 하기 전에 PyTorch의 기본 지식에 대해 알아보도록 하겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 파이토치(PyTorch) 아래는 파이토치의 공식 문서 링크입니다. 기본 파이토치의 사용에 대해서는 아래의 링크를 참조하는것을 추천합니다. https://tutorials.pytorch.kr/beginner/blitz/tensor_tutorial.html 텐서(Tensor) 텐서(tensor)는 배열(array)이나 행렬(matrix)과 매우 유사한 특수한 자료구조입니다. PyTorch에서는 텐서를 사용하여 모델의 입력과 출력뿐만 아니라 모델의 매개변수를 부호화(encode)합..
[AI] 자연어 처리 - 기본지식(3)
🤔 자연어에 대하여(+a) 자연어 처리를 위한 언어학적 요소에 대해 조금 더 공부해보고 한국어의 자연어 처리에 대해 알아보겠습니다. 언어학적 요소를 알아야 자연어 처리에 대해 잘 이해할 수 있을 것입니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 자연어처리를 위한 언어학적 요소 지난 글에서 자연어 처리를 위한 언어학적 요소에는 음성학, 음운론, 형태소 분석, 구문론, 의미 분석, 실용 분석 등이 있다고 했습니다. 하나 하나 알아보도록 하겠습니다. 음성학(Phonetics) & 음운론(Phonology) 언어의 소리가 물리적으로 어떻게 형성되는지에 대한 이산적인 소리체계에 대한 연구입니다. "disconnect"라는 단어..
[AI] 자연어 처리 - 기본지식(2)
🤔 자연어에 대하여 저번 글에 이어 자연어에 대한 기본지식을 공부해보도록 하겠습니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 텍스트 생성(자연어 생성) 자연어 생성은 뉴스기사 생성, 대화 생성, 챗봇 등 다양한 영역에서 활용되고 있습니다. 인간과 컴퓨터(AI) 사이의 의사소통을 위한 가장 자연스러운 방식이라고 할 수 있습니다. 언어 모델 기반, 패턴 기반의 자연어 생성 등의 형태로 나누어 생각할 수 있습니다. • 언어 모델을 이용한 방식 최근 이슈가 되는 초거대 AI는 사전학습된 거대한 언어모델을 말합니다. 수많은 데이터의 학습을 통하여 어떤 표현이 가장 적절한가를 예측하여 문장을 생성합니다. OpenAI의 GPT3,..