Web Crawler in PHP

  • Crawlering을 위해서는 외부 url를 file_get_contens , curl 함수를 직접 사용해서 웹페이지를 가져와야 한다.
  • 여기서 가져온 페이지를 html 파싱하기 위해서는 simplehtmldom 라이브러리를 이용하여 크롤링한 웹 페이지의 데이터를 파싱해 불수 있다.
  • 정기적인 크롤링을 위해서는 crontab등 예약작업을 걸어 시간별로 데이타를 받아올수 있다.
URL :   ex: http://www.daum.net/

The URL's you submit for crawling are recorded.
See All Crawled URL's here.

skill list