보드짱 - 홈페이지 및 웹개발, 모바일웹 제작

Crawlering을 위해서는 외부 url를 file_get_contens , curl 함수를 직접 사용해서 웹페이지를 가져와야 한다.
여기서 가져온 페이지를 html 파싱하기 위해서는 simplehtmldom 라이브러리를 이용하여 크롤링한 웹 페이지의 데이터를 파싱해 불수 있다.
정기적인 크롤링을 위해서는 crontab등 예약작업을 걸어 시간별로 데이타를 받아올수 있다.

The URL's you submit for crawling are recorded.
See All Crawled URL's here.