개발 환경 구축
pycharm
크롤링 - 데이터를 불러오는것
파싱 - 불러온 데이터에서 필요한 정보를 뽑아내는 것
스크래핑 - 데이터를 수집하는 모든 작업
데이터를 수집하는 방법
1. 직접 데이터를 뽑는 방법
2. API 를 호출하는 방법
크롤링 주의 사항
- robots.txt 확인해 허용범위 확인하기
HTTP의 웹 작동 방식
HTTP
: 서버와 클라이언트가 인터넷 상에서 데이터를 주고받기 위한 프로토콜
: 요청 메소드 종류(Get(select), Post(insert), Put(update), Delete(delete))
URL
: HTTP와는 독립된 체계로 자원의 위치를 알려주기 위한 프로토콜
파라미터
: 소프트웨어나 시스템상의 작동에 영향에 미치는 데이터(code='0000')
: 예시 ) https://hyehing.tistory.com/manage/newpost?code=0000
HTML
: 웹 페이지를 작성하기 위한 코드
'FastCampus UpStage AI > ML' 카테고리의 다른 글
(3) ML - 라벨링 (0) | 2024.11.26 |
---|---|
(2) ML - 데이터 샘플링 (0) | 2024.11.26 |
(1) ML - 학습시킬 데이터 준비 (1) | 2024.11.26 |
ML (2) | 2024.10.29 |