본문 바로가기

공부노트

12/23, 스물 한 번째 날의 TIL(NLP) 오늘부터 AI활용 강의가 추가가 되었다. 이번주부터 도커와 쿠버네티스, 그리고 과제도 할 내용이 있었는데 강의가 추가되는줄은 몰라서 빨리 듣고 넘어가야겠다. Django 강의도 선지급 되었으므로, 얼른 마무리하고 주말에는 Django 강의를 들어봐야지.NLP어간 추출, 표제어 추출 : 단어를 줄일 수 있는 기법이다. 눈으로 보기에는 다른 단어이지만 하나의 단어로 일반화시킬 수 있으면 일반화시켜서 문서 내의 단어 수를 줄이는 것이다. 표제어 추출은 am, are, is의 뿌리 단어 be를 보았을 때 이 표제어 be를 추출하는 것이고, 어간 및 접사를 분리하는 것도 가능한데 cats에서 cat : 어간, s : 접사로 분리를 하는 것이다.주의 해야 할 점은 단어의 형태가 적절히 보존되지만 표제어 추출기가 본.. 더보기
12/16 ~ 12/20, 넷째 주의 WIL 이번 주는 그동안 진행하던 Redis 스터디와 Chat GPT OpenAI 스터디가 마무리되면서 성취감을 느낀 한 주였다. 특히, 내가 열심히 작성한 TIL(Today I Learned)이 우수 TIL로 인정받아 매우 기분 좋은 한 주였다. 이번 주에는 데이터 분석에 대해 다양한 시도를 해보며, 창의적인 방법을 고안하고 새로운 내용으로 채팅 기능을 만들어보는 등 많은 공부가 있었다. 또한, 새로운 내용을 빠르게 받아들이고 바로 적용할 수 있는 단계에 도달했다는 점에서 자신감을 얻었다. 이번 주는 한 가지 주제에 더 깊이 파고드는 학습을 중점적으로 진행했는데, 이 과정에서 많은 흥미로운 점을 발견할 수 있었다. 특히, 다양한 방법과 이론을 실제로 적용해보며 새로운 시각으로 접근할 수 있었다는 점이 큰 성취.. 더보기
12/20, 스무 번째 날의 TIL(데이터 전처리, Medium, 코드카타) 벌써 캠프의 4주가 지났다. 되돌아보면 정말 빠른 시간이었던 것 같다. 4주동안 새로 배운 내용도 많았고, 원래 알고 있던 내용을 더 강화해서 배운 내용도 많은 것 같다. 앞으로 시간이 더 많이 남았기 때문에, 퍼지지 말고 페이스를 유지해가면서 꾸준히 내 할 일을 하고 새로운 것을 배워서 내걸로 만들어야겠다.과제를 하면서 데이터 전처리에 대한 내용을 다시 정리해보게 되었다. 전처리의 순서나 여러가지 기법들을 좀 더 알고 있으면 전처리에 확실히 도움이 되는 것 같다.그리고 오늘도 Medium에서 읽은 아티클을 정리하고 오늘 풀어본 알고리즘 문제 하나를 정리해보았다.1. 데이터 전처리모든 작업에 있어서, 데이터 전처리 과정이 제일 중요한 것 같다. 실제로 현업에서도 데이터 전처리에 상당히 많은 시간을 투자한.. 더보기
12/19, 열아홉 번째 날의 TIL(NLP) NLP 교재를 e-book으로 읽어보고 있는데, 매주 4개의 챕터씩 읽고 노션에 정리를 하는 중이다. 반복해서 읽고 검색하다 보니 거의 이해를 할 수 있었고, 어떤 내용이 중요한지 어떤 문제가 있는지도 알게 되어 좋았다.1. NLP자연어(Natural language) : 우리가 일상에서 사용하는 언어자연어 처리(Natural language processing) : 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일사용분야 : 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업, 챗봇 등구체적 예시 : 구글 어시스턴트, 파파고, Grammarly(영어 문법 수정), Otter.ai(회의 내용 요약) 등오늘날 자연어는 다양한 분야에서 사용되고 있고, 이는 우리 생활 속에서 많.. 더보기
12/18, 열여덟 번째 날의 TIL(Medium - LLM 성능 높이기) 어제에 이어서 Redis를 이용한 채팅을 웹으로 구현하려고 Websocket과 FastAPI를 공부해보고 있지만 아직 많이 부족하기에 ㅠㅠ 내일 마무리한 다음 올려야겠다. Medium에서 LLM의 성능을 높일 수 있는 트릭에 대한 아티클을 읽어보았다.1Medium - LLM 성능 높이는 트릭글의 작성자는 LLM의 출력이 종종 기대에 미치지 못하거나 불필요한 정보로 가득 찬 경우를 해결하기 위해 방법을 고안했는데, 출력의 일관성과 정확성을 높이는 데 중점을 두었다. 문제점은 크게 두 가지였는데왜곡된 출력: 모델이 생성하는 텍스트가 초기 프롬프트와 관련이 없거나 일관성이 떨어지는 경우컨텍스트 부족: LLM은 특정한 확률로 다음 단어를 생성하는데, 낮은 확률로 선택된 단어가 결과의 품질 저하이 두 가지였다. .. 더보기
12/17, 열일곱 번째 날의 TIL(Redis - 채팅) 오늘은 Redis를 이용해서 간단하게 채팅 프로그램을 만들어보았다. 내가 생각했던 채팅이랑은 조금 달랐는데, 웹에 연결하고 실제로 구현해보면 좀 더 내가 생각하는 채팅 프로그램에 가까울 것 같다.Redis - 채팅원래 검색해봤을 때는 백엔드, 그리고 웹사이트 소켓에 연결하고 프론트엔드까지 해서 구현을 해야 하는줄 알았지만, 단순 채팅 시스템을 위해서라면 Redis의 pub/sub만 사용해도 가능했다.이때 pub/sub 기능은 메시지 발행(public)과 구독(subscribe)을 통해 실시간 메시지 브로커 역할을 수행하는 기능으로, 이를 통해 여러 클라이언트가 메시지를 교환할 수 있는데 단어를 봤을 때 Pub : 발행자는 특정 채널에 메시지를 보냄Sub : 구독자는 특정 채널을 구독하고, 그 채널에 발행.. 더보기
12/9 ~ 12/13, 셋째 주의 WIL 이번 주는 GPT 독스 스터디와 Redis 스터디, 그리고 공부로 정신없이 바쁜 한 주였다. 팀원들과 함께 점차 분위기가 좋아지면서 함께하는 시간이 즐거워졌고, 그런 점에서 기쁘고 뿌듯한 한 주였다. 이번 주의 가장 인상 깊었던 배움은 모델들의 원리와 적용 사례, 그리고 각 모델들의 차이점을 공부하면서 더 깊은 내용을 이해하고자 노력했던 점이다. 이 과정에서 단순히 내용만 공부하는 것이 아니라 더 깊이 탐구하고 연관된 내용을 찾아보며 확장적으로 학습하는 방법을 알게 되었다는 점이 특히 좋았다.지금까지는 학교 수업이나 어떤 내용을 배울 때 그 자체만 받아들이고 넘어가는 경우가 많았다. 하지만 이번 주에는 집중적으로 관심을 갖고 학습하다 보니 호기심이 더 많아졌고, 깊이 알아보며 깨닫는 과정에서 성취감을 느.. 더보기
12/13, 열다섯 번째 날의 TIL(앙상블학습, Redis) 벌써 세 번째 주의 마지막 날이다. 매일 12시간씩 공부를 해도 시간이 너무 빨리 가는 것 같다. 개인 공부 외에 스터디도 따로 두개 하고 있고, 수준별 학습반에서 하는 화요일 프로젝트반/ 목요일 스터디 및 연구 반에 모두 참여 할 것이기 때문에 앞으로 매우 바빠질 예정이다. 하지만 이 캠프를 하러 온 것이 놀러 온 것이 아니라 취업이라는 목표를 가지고 들어왔기 때문에 그걸 이루기 위해 최선을 다할 것이다.1. 배깅과 부스팅, 그리고 랜덤 포레스트대학교에서 앙상블학습에 대한 내용을 배울 때, 배깅과 부스팅이 무엇인지, 어떤 원리인지. 랜덤 포레스트도 마찬가지로 무엇이고 어떤 원리인지 배운 다음 각각 실습을 하고 넘어가는 정도로 공부를 했다. 그래서 깊게는 아니고 내용을 알고만 있는 정도였는데, 이번에 모.. 더보기