Server
[Nginx] 웹사이트 크롤링 방지
유저인사이트 강윤구
2022. 8. 5. 17:30
728x90
여러 서비스를 운영하다 보면 정말 많은 크롤러들이 인터넷 망을 샅샅이 뒤지고 다닌다는 것을 체감하게 된다.
예를 들어 사내에서 운영중인 관리 시스템이 구글에서 검색이 될 때 깜짝 놀라게 되는데, 왜 미리 막지 않았을까 후회하면서 글을 적는다.
따로 robots.txt 파일을 루트 디렉토리에 보관할 수도 있지만 우리회사는 보통 nginx를 reverse proxy로 사용하기때문에 설정 파일에 직접 입력한다.
nginx.conf
server {
listen 80;
server_name hello.userinsight.co.kr;
location /robots.txt {
return 200 "User-agent: *\nDisallow: /";
}
location / {
proxy_pass http://localhost:0000/;
proxy_something...
}
}
이렇게 하면 이 도메인은 크롤링으로부터 자유로워진다. (모든 신사 크롤러들에게 정중하게 이 사이트는 크롤링 하지 마세요~ 라고 하며..)
728x90