FastCampus UpStage AI/ML

웹 크롤링

하오츠(해석:맛있다) 2024. 10. 28. 11:00

개발 환경 구축

pycharm

 

 

크롤링 - 데이터를 불러오는것

파싱 - 불러온 데이터에서 필요한 정보를 뽑아내는 것

스크래핑 - 데이터를 수집하는 모든 작업

 

데이터를 수집하는 방법

1. 직접 데이터를 뽑는 방법

2. API 를 호출하는 방법

 

크롤링 주의 사항

- robots.txt 확인해 허용범위 확인하기

 

 

HTTP의 웹 작동 방식

HTTP

: 서버와 클라이언트가 인터넷 상에서 데이터를 주고받기 위한 프로토콜

: 요청 메소드 종류(Get(select), Post(insert), Put(update), Delete(delete))

 

URL

: HTTP와는 독립된 체계로 자원의 위치를 알려주기 위한 프로토콜

 

파라미터

: 소프트웨어나 시스템상의 작동에 영향에 미치는 데이터(code='0000')  

: 예시 ) https://hyehing.tistory.com/manage/newpost?code=0000

 

HTML

: 웹 페이지를 작성하기 위한 코드

 

 

 

'FastCampus UpStage AI > ML' 카테고리의 다른 글

(3) ML - 라벨링  (0) 2024.11.26
(2) ML - 데이터 샘플링  (0) 2024.11.26
(1) ML - 학습시킬 데이터 준비  (1) 2024.11.26
ML  (2) 2024.10.29