Ai

    [AI] 자연어 처리 - 전처리와 토큰화(3)

    🤔 토큰화 실습 자연어 처리의 전처리에 이어 Tokenizing(토큰화)를 진행해보도록 하겠습니다. 토큰화에 대해 이론적으로 학습하고 싶은 분들은 아래의 링크를 참고해주시면 감사하겠습니다. https://2t-hong.tistory.com/29 [AI] 자연어 처리 - 전처리와 토큰화(2) 🤔 토큰화(Tokenizing) 개요 기본적으로 컴퓨터는 우리가 일상 생활에서 사용하는 언어인 자연어를 이해하지 못합니다. 그래서 컴퓨터에게 자연어를 이해하게 하기 위해 여러 방법이 연구되어 왔 2t-hong.tistory.com 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎단순한 띄어쓰기로 토큰화하기 영어의 경우에는 띄어쓰기 단위로 토큰..

    모각코 4차(2022-08-06)

    👉 TODAY'S GOAL → Space Titanic EDA → Space Titanic 전처리 → Space Titanic 모델 개발 🎵 WHAT I LEARNED 아래의 링크에 오늘 해야할 일을 전부 정리한 내용이 있습니다. https://2t-hong.tistory.com/31?category=952875 [AI] Kaggle - Space Titanic (2) 🤔 대회 설명 Kaggle에서 개최한 대회중 하나인 SPACE TITANIC입니다. 유명한 데이터 분석, 머신러닝 입문의 예제 중 하나인 TITANIC예제와 매우 유사하지만 조금 더 높은 난이도를 가지고 있습니다. 공 2t-hong.tistory.com 👌 느낀 점 SpaceTitanic 데이터는 머신러닝 분야에서 가장 유명한 데이터셋중 ..

    [AI] Kaggle - Space Titanic (2)

    🤔 대회 설명 Kaggle에서 개최한 대회중 하나인 SPACE TITANIC입니다. 유명한 데이터 분석, 머신러닝 입문의 예제 중 하나인 TITANIC예제와 매우 유사하지만 조금 더 높은 난이도를 가지고 있습니다. 공부를 진행하며 대회에 직접 참가하는 것이 도움이 될 것이라고 생각하여 참가하게 되었습니다. Space Titanic의 정보에 대해 확인하시려면 해당 링크를 참고해주세요. https://2t-hong.tistory.com/26 [AI] Kaggle - Space Titanic (1) 정보 확인 🤔 대회 설명 Kaggle에서 개최한 대회중 하나인 SPACE TITANIC입니다. 유명한 데이터 분석, 머신러닝 입문의 예제 중 하나인 TITANIC예제와 매우 유사하지만 조금 더 높은 난이도를 가지고..

    [AI] 자연어 처리 - 전처리와 토큰화(3)

    🤔 전처리 실습 자연어 처리 중 전처리 실습을 진행해보겠습니다. 참고도서 김기현의 자연어 처리 딥러닝 캠프-파이토치편(김기현, 한빛미디어) Do it! BERT와 GPT로 배우는 자연어처리(이기창, 이지스퍼블리싱) 전처리에 대한 이론은 아래의 링크를 통해 확인하실 수 있습니다. https://2t-hong.tistory.com/28 [AI] 자연어 처리 - 전처리와 토큰화(1) 🤔 전처리 과정 자연어 처리에서 가장 중요한 것은 전처리 과정이라고 할 수 있습니다. 외부로 드러나지 않는 과정이다 보니 상대적으로 주목도가 낮으며, 다루고자 하는 언어, 문제에 따라 전 2t-hong.tistory.com 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임..

    [AI] 자연어 처리 - 전처리와 토큰화(2)

    🤔 토큰화(Tokenizing) 개요 기본적으로 컴퓨터는 우리가 일상 생활에서 사용하는 언어인 자연어를 이해하지 못합니다. 그래서 컴퓨터에게 자연어를 이해하게 하기 위해 여러 방법이 연구되어 왔습니다. 그중 가장 일반적인 방법이 Tokenizing과 임베딩 기반으로 컴퓨터가 이해할 수 있도록 데이터 화를 하는 것입니다. 또한 텍스트 유사도를 이용하여 문맥을 분류합니다. 작성하기에 앞서 [ICT COG Academy] 인공지능 고급(언어)과정을 수강하며 복습을 위해 작성한 글임을 명시합니다. 🔎 토큰화(Tokenizing) - 형태소 분석 Tokenizing이란 주어진 문자에서 토큰 단위로 정보를 나누는 작업으로 형태소 분석입니다. 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업..