Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 퍼스트 뷰
- 중요한건 꺾이지 않는 마음
- 도메인
- 不不怕变
- javascript function
- 반응형 디자인
- 릴리스
- 사이트 이동 경로
- 레거시 마이그레이션
- Great things take time
- first view
- 각자의 밤
- 내장객체
- 怕不变
- 기술면접 후기
- 자바스크립트
- pop
- release
- Array
- bom
- 객체
- 인공지능
- Electronic Commerece
- 제어문
- ADSL
- 자바스크립트 함수
- javascript
- Done is better than perfect
- 직귀율
- 배열
Archives
- Today
- Total
1일1끄적
스크래핑 본문
웹페이지에서 정보를 추출
웹페이지에 포함되는 데이터를 프로그램을 사용해서 자동으로 추출하는 것. 검색 엔진을
만드는 경우와 본문의 일부에서 데이터를 추출하고자 하는 경우 등 웹페이지의 HTML 데이터에서
태그와 메뉴 등을 제외하고 원하는 항목만을 추출하기 위해 사용된다. 한편 웹사이트를
자동으로 순회하는 것을 크롤링이라고 한다
*이용 규약
스크래핑을 단시간에 반복 수행하면 서버에 부하가 걸릴
가능성이 있다는 점에서 서브스에 따라서 이용 규약으로
금지하는 경우가 있다
*HTML을 해석하는 파서
스크래핑으로 HTML에서 정보를 추출하기 위해서 그 문서의 구조를
프로그램으로 자동으로 해석할 필요가 있고 그를 위한 툴에 파서가 있다
*프로그램에서 DOM을 조작
HTML 등의 문서를 프로그램에서 조작할 때 사용되는 기술에 DOM(문서 객체 모델)
이 있고 파서로 해석한 내용에서 목구조를 생성해서 각 요소에 액세스할 수 있다.
Comments