하오츠

전체 글 25

언어 모델이란 무엇인가?1. 언어 모델이란 무엇인가? 자연언어 : 인간의 언어, 정보 전달의 수단언어모델 : 인간의 언어를 컴퓨터가 이해할 수 있게 하는 지식 표현 체계, 언어를 이루는 구성(글자, 형태소, 단어, 단어열(문자열), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측하거나 생성하는 모델전통적 언어 모델 : 규칙기반 언어모델 -> 통계기반 언어모델 -> 딥러닝 기반 언어 모델Encoder과 Decoder의 차이 : Encoder : 전체 문장을 이해를 요구하는 task 에 적합( BERT, RoBERT), Decoder : 텍스트 생성과 관련 task 가 가장 적합(GPT) 2. 자연언어 처리 속 언어 모델의 역할NLP = NLU (Natural Language Unde..

FastCampus UpStage AI/LM to LLM 2025.02.05

(5) ML - Feature Engineering

1. Data Cleansing: 노이즈 데이터, 이상치 데이터, 누락된 데이터를 처리해서 데이터 분포를 잘 학습할 수 있도록 전처리: 데이터의 정확성과 품질을 확보 - Noise Data 식별: 오류나 무작위한 값으로 인해 데이터 셋을 혼란스럽게 만들 수 있음 - Anomaly Data 식별: 다른 데이터와 너무나 다른 데이터이며, 모델 학습에 부정적인 영향을 미침 - 누락 Data 식별: 다른 데이터에는 있지만 일부 데이터에 누락된 속성을 식별하여 보정 2. Feature Selection의 중요성: 입력 데이터의 특성중에서 가장 관련성이 높거나 유요한 특성을 선택하고, 불필요한 특성을 제거하는 과정: 머신 러닝 모델을 개선하고, 모델 효율성을 향상시킬 수 있음 - 차원의 저주 : 높은 차원의 데이터..

카테고리 없음 2024.11.27

(4) ML - Class Imbalance

1. Class Imbalance : 기계 학습과 분류 문제에서 발생하는 현상 중 하나, 클래스 간의 데이터 불균형을 나타내는 개념: 하나의 클래스가 다른 클래스에 비해 데이터 포인트 수가 현저히 적을때 바랭: 현실 세계의 불균형한 데이터 분포를 가짐 : 데이터 수집과정에서 클래스 불균형 발생 - Sampling 오류, Data 수집 방법, Labeling 오류 2. Class Imbalance 를 줄이는 방법 2가지- 데이터 기반 접근법 : Resampling: ML Algorithm 접근법 3. Resampling: 데이터 수를 조절하여 Class Imbalance를 다루는 방법- OverSampling: 소수 클래스 데이터를 확장하지만, 데이터 중복 및 과적합 문제가 발생할 수 있음 - UnderS..

카테고리 없음 2024.11.26

(3) ML - 라벨링

1. Data Labeling: 모델을 훈련하기 위해 필요한 데이터에 의미를 부여하는 과정 2. Data Labeling의 예시 - Image Labeling: 객체 인식, 세그멘테이션, 특징 포인트 지정, 이미지 분류 - Text Labeling : 텍스트 분류, 감정 분류, 주관적 의견 분석, 키워드 추출 - Audio Labeling: 음성 인식, 음악 분류, 화자 인식 - 의료 분야: 의료 영상 데이터의 Labeling - 자연어 처리: Text Labeling - 자율 주행 자동차: 센서 데이터의 Labeling - 환경 모니터링: 환경 데이터의 Labeling 3. Labeling과 AI 모델 학습 유형 - Supervised Learning: Data에 모든 Labeling이 존재한 상태에..

FastCampus UpStage AI/ML 2024.11.26

(2) ML - 데이터 샘플링

1. Data Sampling: 큰 데이터 집합에서 작은 부분 집합을 추출하는 프로세스: 통계 및 데이터 분석 분야에서 사용되는 일반적인 기술로, 데이터의 일부를 조사하고 전체 데이터 집합에 대해 결론을 도출하는데 활용 -> 전체 데이터 셋에 대한 통찰력을 얻거나 계산/저장 공간을 줄이는데 도움 * 데이터 샘플링의 목적 : 자원 및 시간 절약, 품질향상, 통계적 추론, 데이터 시각화, 데이터 테스트 2. Data Sampling 의 종류 - Random Sampling : 무작위로 데이터 집합에서 샘플을 선택하는 방법 - Stratified Sampling: 데이터를 계층적으로 분류한 후, 각 계층에서 샘플을 추출하는 방법: 각 계층의 특성을 고려하여 샘플을 얻기 위해 사용 - Cluster Sampli..

FastCampus UpStage AI/ML 2024.11.26

(1) ML - 학습시킬 데이터 준비

1. 데이터 유형- 정형 데이터: 구조화된 데이터로 표 형태로 표형되며 고정된 스키마를 갖는다: 데이터베이스, CSV 및 스프레드 시트 - 비정형 데이터 : 구조가 없거나 매우 제한적인 구조를 가지지 않는 데이터로 텍스트, 이미지, 오디오, 비디오 같은 형태를 갖음: 트위터의 트윗, 의료이미지(X-ray 이미지 또는 MRI 스캔 이미지) - 반정형 데이터: 구조가 명확하게 정의되어 있지 않은 데이터로 일부 구조화된 정보를 갖음: XML, JSON, HTML 과 같은 마크업 언어를 사용하여 주로 표현된다.: 웹 스크래핑 데이터, 기업 문서 데이터 - 실시간 데이터: 데이터를 실시간으로 분석하고 수행해야 하는 데이터: 유투브 시청 데이터, 금융 거래 데이터, IoT 센서 데이터 * 실시간 데이터 처리의 ..

FastCampus UpStage AI/ML 2024.11.26

머신러닝(Machine Learning) : 데이터의 특성과 패턴을 학습해서 학습결과를 바탕으로 테스트 데이터에 대한 미래값을 예측하는 알고리즘: 데이터 전처리 필수 인공지능의 종류약인공지능(Artificail Narrow Intelligence) : 정해져있는 과제들을 잘 수행하는 ai강인공지능(Artifical General Intelligence) : 사람처럼 복합적인 사고를 통해 어떤일이든 수행하는 ai 초인공지능 : 사람보다 뛰어난 지식을 지님 low-level function : 하드웨어 동작에 대응: 간단하고 가벼운 작은 단위의 작업 High level function : 사람이 생각하는 기능에 대응: 복잡하고 무거운 큰 단위의 작업 Input: features, 독립변수, x OutPut..

FastCampus UpStage AI/ML 2024.10.29

데일 카네기 - 인간관계론

1. 기본적 태도 - 비난,비판, 불평하지 않기 : 비난은 쓸데없는 짓이다. 비난받은 대상은 방어태세를 취하고 대게 자신을 합리화하려고 애쓰기 때문이다. : 브라우닝 "사람은 자기 자신과의 싸움을 시작할 때 비로소 가치있는 사람이 된다. " : 공자 "네 집앞이 깨끗하지 않다면 이우스이 지붕에 눈이 쌓여있다고 투덜대지 마라" : 이해하고 용서하기 위해서는 인격과 자제력이 필요하다 : 칼라일 "위대한 사람은 소인배를 다루는 모습에서 자신의 위대함을 드러낸다." => 비난하지 말고 그들의 무엇을 왜 하고 싶은지 파악하자(이해하자)- 거짓없이 진실하게 인정하라(그 사람의 좋은 점을 찾으려고 노력해라)- 상대방에게 간절한 욕구를 불러일으켜라(상대방의 입장을 생각하라) 2. 호감을 얻는 태도 - 다른 ..

책 2024.10.29

웹 크롤링

개발 환경 구축pycharm 크롤링 - 데이터를 불러오는것파싱 - 불러온 데이터에서 필요한 정보를 뽑아내는 것스크래핑 - 데이터를 수집하는 모든 작업 데이터를 수집하는 방법1. 직접 데이터를 뽑는 방법2. API 를 호출하는 방법 크롤링 주의 사항- robots.txt 확인해 허용범위 확인하기 HTTP의 웹 작동 방식HTTP: 서버와 클라이언트가 인터넷 상에서 데이터를 주고받기 위한 프로토콜: 요청 메소드 종류(Get(select), Post(insert), Put(update), Delete(delete)) URL: HTTP와는 독립된 체계로 자원의 위치를 알려주기 위한 프로토콜 파라미터: 소프트웨어나 시스템상의 작동에 영향에 미치는 데이터(code='0000') : 예시 ) https://hye..

FastCampus UpStage AI/ML 2024.10.28

FastCamPus X Upstage AI 5기 Git

Shell : 운영체제의 커널과 사용자를 이어주는 소프트웨어 실습pwd : 현재 최상단 위치ls : 파일 리스트 - ls [./디렉토리] : 해당 디렉토리의 파일리스트 확인cd [디렉토리] : 디렉토리로 이동mkdir [디렉토리] : 디렉토리 생성touch [파일명.파일확장자] : 파일 생성 - touch [./디렉토리/파일명.파일확장자] : 디렉토리 안에 파일 생성mv [파일명.파일확장자] [디렉토리] : 파일을 디렉토리로 이동시킨다. - mv [./디렉토리/파일명.파일확장자] [디렉토리] : 파일을 디렉토리로 이동시킨다. - mv [파일명.파일확장자] [파일명.파일확장자] : 파일명, 파일 확장자를 바꾼다. - mv [파일명.*] [디렉토리] : 해당 파일명을 가진 모든 파일들을 디렉토리로 이동시킨..

FastCampus UpStage AI/git 2024.10.24

1 2 3

하오츠

맛있다

#패스트캠퍼스ai부트캠프 ‎#업스테이지패스트캠퍼스 ‎#upstageailab ‎#패스트캠퍼스업스테이지에이아이랩 ‎#패스트캠퍼스업스테이지부트캠프, #패스트캠퍼스 #패스트캠퍼스ai부트캠프 #업스테이지패스트캠퍼스 #upstageailab #국비지원 #패스트캠퍼스업스테이지에이아이랩 #패스트캠퍼스업스테이지부트캠프,

Today :
Yesterday :

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

전체 글 25

티스토리툴바