본문 바로가기

Server

[Nginx] 웹사이트 크롤링 방지

728x90

여러 서비스를 운영하다 보면 정말 많은 크롤러들이 인터넷 망을 샅샅이 뒤지고 다닌다는 것을 체감하게 된다.

예를 들어 사내에서 운영중인 관리 시스템이 구글에서 검색이 될 때 깜짝 놀라게 되는데, 왜 미리 막지 않았을까 후회하면서 글을 적는다.

 

따로 robots.txt 파일을 루트 디렉토리에 보관할 수도 있지만 우리회사는 보통 nginx를 reverse proxy로 사용하기때문에 설정 파일에 직접 입력한다.

 

nginx.conf

	server {
        listen       80;
        server_name  hello.userinsight.co.kr;
		
		location /robots.txt {
			return 200 "User-agent: *\nDisallow: /";
		}

		location / {
			proxy_pass http://localhost:0000/;
			proxy_something...
		}
    }

 

이렇게 하면 이 도메인은 크롤링으로부터 자유로워진다. (모든 신사 크롤러들에게 정중하게 이 사이트는 크롤링 하지 마세요~ 라고 하며..)

728x90