FastCampus UpStage AI 22

LM to LLM

언어 모델이란 무엇인가?1. 언어 모델이란 무엇인가? 자연언어 : 인간의 언어, 정보 전달의 수단언어모델 : 인간의 언어를 컴퓨터가 이해할 수 있게 하는 지식 표현 체계, 언어를 이루는 구성(글자, 형태소, 단어, 단어열(문자열), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측하거나 생성하는 모델전통적 언어 모델 : 규칙기반 언어모델 -> 통계기반 언어모델 -> 딥러닝 기반 언어 모델Encoder과 Decoder의 차이 :  Encoder : 전체 문장을 이해를 요구하는 task 에 적합( BERT, RoBERT), Decoder : 텍스트 생성과 관련  task 가 가장 적합(GPT) 2. 자연언어 처리 속 언어 모델의 역할NLP = NLU (Natural Language Unde..

(3) ML - 라벨링

1. Data Labeling: 모델을 훈련하기 위해 필요한 데이터에 의미를 부여하는 과정 2. Data Labeling의 예시 - Image Labeling: 객체 인식, 세그멘테이션, 특징 포인트 지정, 이미지 분류  - Text Labeling : 텍스트 분류, 감정 분류, 주관적 의견 분석, 키워드 추출 - Audio Labeling: 음성 인식, 음악 분류, 화자 인식 - 의료 분야: 의료 영상 데이터의 Labeling - 자연어 처리: Text Labeling - 자율 주행 자동차: 센서 데이터의 Labeling - 환경 모니터링: 환경 데이터의 Labeling 3. Labeling과 AI 모델 학습 유형 - Supervised Learning: Data에 모든 Labeling이 존재한 상태에..

(2) ML - 데이터 샘플링

1. Data Sampling: 큰 데이터 집합에서 작은 부분 집합을 추출하는 프로세스: 통계 및 데이터 분석 분야에서 사용되는 일반적인 기술로, 데이터의 일부를 조사하고 전체 데이터 집합에 대해 결론을 도출하는데 활용 -> 전체 데이터 셋에 대한 통찰력을 얻거나 계산/저장 공간을 줄이는데 도움 * 데이터 샘플링의 목적 : 자원 및 시간 절약, 품질향상, 통계적 추론, 데이터 시각화, 데이터 테스트 2. Data Sampling 의 종류 - Random Sampling : 무작위로 데이터 집합에서 샘플을 선택하는 방법 - Stratified Sampling: 데이터를 계층적으로 분류한 후, 각 계층에서 샘플을 추출하는 방법: 각 계층의 특성을 고려하여 샘플을 얻기 위해 사용 - Cluster Sampli..

(1) ML - 학습시킬 데이터 준비

1. 데이터 유형- 정형 데이터: 구조화된 데이터로 표 형태로 표형되며 고정된 스키마를 갖는다: 데이터베이스, CSV 및 스프레드 시트  - 비정형 데이터 : 구조가 없거나 매우 제한적인 구조를 가지지 않는 데이터로 텍스트, 이미지, 오디오, 비디오 같은 형태를 갖음: 트위터의 트윗, 의료이미지(X-ray 이미지 또는 MRI 스캔 이미지) - 반정형 데이터: 구조가 명확하게 정의되어 있지 않은 데이터로 일부 구조화된 정보를 갖음: XML, JSON, HTML 과 같은 마크업 언어를 사용하여 주로 표현된다.: 웹 스크래핑 데이터, 기업 문서 데이터 - 실시간 데이터: 데이터를 실시간으로 분석하고 수행해야 하는 데이터: 유투브 시청 데이터, 금융 거래 데이터, IoT  센서 데이터 * 실시간 데이터 처리의 ..

ML

머신러닝(Machine Learning) : 데이터의 특성과 패턴을 학습해서 학습결과를 바탕으로 테스트 데이터에 대한 미래값을 예측하는 알고리즘: 데이터 전처리 필수 인공지능의 종류약인공지능(Artificail Narrow Intelligence) : 정해져있는 과제들을 잘 수행하는 ai강인공지능(Artifical General Intelligence) : 사람처럼 복합적인 사고를 통해 어떤일이든 수행하는  ai 초인공지능 : 사람보다 뛰어난 지식을 지님 low-level function : 하드웨어 동작에 대응: 간단하고 가벼운 작은 단위의 작업 High level function : 사람이 생각하는 기능에 대응: 복잡하고 무거운 큰 단위의 작업 Input: features, 독립변수, x OutPut..

웹 크롤링

개발 환경 구축pycharm  크롤링 - 데이터를 불러오는것파싱 - 불러온 데이터에서 필요한 정보를 뽑아내는 것스크래핑 - 데이터를 수집하는 모든 작업 데이터를 수집하는 방법1. 직접 데이터를 뽑는 방법2. API 를 호출하는 방법 크롤링 주의 사항- robots.txt 확인해 허용범위 확인하기  HTTP의 웹 작동 방식HTTP: 서버와 클라이언트가 인터넷 상에서 데이터를 주고받기 위한 프로토콜: 요청 메소드 종류(Get(select), Post(insert), Put(update), Delete(delete)) URL: HTTP와는 독립된 체계로 자원의 위치를 알려주기 위한 프로토콜 파라미터: 소프트웨어나 시스템상의 작동에 영향에 미치는 데이터(code='0000')  : 예시 ) https://hye..

FastCamPus X Upstage AI 5기 Git

Shell : 운영체제의 커널과 사용자를 이어주는 소프트웨어 실습pwd : 현재 최상단 위치ls : 파일 리스트 - ls [./디렉토리] : 해당 디렉토리의 파일리스트 확인cd [디렉토리] : 디렉토리로 이동mkdir [디렉토리] : 디렉토리 생성touch [파일명.파일확장자] : 파일 생성  - touch [./디렉토리/파일명.파일확장자] : 디렉토리 안에 파일 생성mv [파일명.파일확장자] [디렉토리] : 파일을 디렉토리로 이동시킨다. - mv [./디렉토리/파일명.파일확장자] [디렉토리] : 파일을 디렉토리로 이동시킨다. - mv [파일명.파일확장자] [파일명.파일확장자] : 파일명, 파일 확장자를 바꾼다. - mv [파일명.*] [디렉토리] : 해당 파일명을 가진 모든 파일들을 디렉토리로 이동시킨..

리눅스 실습

cmd 명령어 - ren [A] [B] : A를 B로 수정(파일 확장자끼리, 파일 명끼리)- ls [옵션] : 폴더 파일 리스트 확인- touch [옵션] [파일명] : 파일명으로 파일이 생성- cat [옵션] [파일명] : 파일 내용 보여주기- less [옵션] [파일명] : 파일 내용보여주기 (space : 페이지 단위  이동, enter : 줄단위 이동, 방향키 : 위/아래)  - rm [옵션] [파일명] : 파일 삭제- mkdir [옵션] [파일명] : 디렉토리 생성(폴더 생성)- rmdir [옵션] [파일명] : 디렉토리 삭제(폴더 삭제)- cd [옵션] : 이동 (. : 나 자신, .. : 부모,  ~ : 홈 디렉토리)- cp [옵션] [A] [B]  : A 를 B에 복사(파일/디렉토리 가능)..

FastCamPus X Upstage AI 5기 컴퓨터 공학 개론

정리를 해야하는 이유- 컴퓨터 성능, 신뢰성, 에너지 효율성 등을 결정하기 때문에 우리는 컴퓨터 구조에 대해 알아야 한다. 정리하며 알아야 할 것- 컴퓨터 구조와 구성요소- 구성요소들의 상호작용에 대한 설계 스택 : LIFO(Last In First Out) : 삽입삭제가 항상 제일 뒤(최근 요소에서 이루어진다.) 큐 : LIFO(Last In First Out): 리스트 큐, 원형 큐가 있다 Array: 연속된 메모리 공간에 같은 타입의 데이터를 순차적으로 저장하는 자료구조: 인덱스로 빠르게 접근 가능: 크기가 고정되어있기 때문에 배열 생성시 크기를 지정해줘야함 LinkList : Array와는 다르게 메모리를 할당하지 않아도 자유롭게 원소를 추가/삭제가 가능하다 Hash Table: 데이터의 key ..

운영체제 - 페이징과 페이지 테이블

스와핑: 프로세스를 보조기억장의 일부 영역으로 쫓아내고, 당장 필요한 프로세스를 적재하는 메모리 관리기법 페이징: 외부 단편화(연속적 메모리 할당 중 프로세스가 실행되고 삭제되면서 메모리가 충분함에도 불구하고 프로세스를 실행할 수 없는 상태)를 막기 위해 프로세스를 페이지 단위로 나눈것  : 단, 내부 단편화가 발생할 수 있음(페이지 내부에 빈 메모리가 발생)   페이지 테이블: 프레임과 페이지 매핑 정보를 담고 있는 표 형태의 데이터: 프로세스마다 페이지 테이블을 가지고 있다.   페이지 테이블 베이스 레지스터(PTBR): 각 프로세스의 페이지 테이블 위치를 가리키는 레지스터(베이스 레지스터) 페이지 테이블의 캐시메모리(TLB): 페이지 테이블이 메모리에 적재되면 페이지의 위치를 찾느라 한번, 프레임에..