1일1끄적

스크래핑 본문

카테고리 없음

스크래핑

inkor 2022. 4. 12. 21:38

웹페이지에서 정보를 추출

웹페이지에 포함되는 데이터를 프로그램을 사용해서 자동으로 추출하는 것. 검색 엔진을 
만드는 경우와 본문의 일부에서 데이터를 추출하고자 하는 경우 등 웹페이지의 HTML 데이터에서
태그와 메뉴 등을 제외하고 원하는 항목만을 추출하기 위해 사용된다. 한편 웹사이트를 
자동으로 순회하는 것을 크롤링이라고 한다 

*이용 규약
스크래핑을 단시간에 반복 수행하면 서버에 부하가 걸릴 
가능성이 있다는 점에서 서브스에 따라서 이용 규약으로 
금지하는 경우가 있다 

*HTML을 해석하는 파서
스크래핑으로 HTML에서 정보를 추출하기 위해서 그 문서의 구조를 
프로그램으로 자동으로 해석할 필요가 있고 그를 위한 툴에 파서가 있다 

*프로그램에서 DOM을 조작
HTML 등의 문서를 프로그램에서 조작할 때 사용되는 기술에 DOM(문서 객체 모델)
이 있고 파서로 해석한 내용에서 목구조를 생성해서 각 요소에 액세스할 수 있다. 

Comments