728x90
여러 서비스를 운영하다 보면 정말 많은 크롤러들이 인터넷 망을 샅샅이 뒤지고 다닌다는 것을 체감하게 된다.
예를 들어 사내에서 운영중인 관리 시스템이 구글에서 검색이 될 때 깜짝 놀라게 되는데, 왜 미리 막지 않았을까 후회하면서 글을 적는다.
따로 robots.txt 파일을 루트 디렉토리에 보관할 수도 있지만 우리회사는 보통 nginx를 reverse proxy로 사용하기때문에 설정 파일에 직접 입력한다.
nginx.conf
server {
listen 80;
server_name hello.userinsight.co.kr;
location /robots.txt {
return 200 "User-agent: *\nDisallow: /";
}
location / {
proxy_pass http://localhost:0000/;
proxy_something...
}
}
이렇게 하면 이 도메인은 크롤링으로부터 자유로워진다. (모든 신사 크롤러들에게 정중하게 이 사이트는 크롤링 하지 마세요~ 라고 하며..)
728x90
'Server' 카테고리의 다른 글
다음 메일 또는 다음 메일서버를 사용하는 이메일 스팸으로 반송될 때 조치방법 (0) | 2022.09.19 |
---|---|
[Nginx] React 앱 페이지 이동 시 404 에러 해결 (0) | 2022.08.10 |