-
오토핫키와 Winhttp #3. 원래 주소가 숨겨진 사이트를 파싱하는 방법오토핫키/winhttp 2023. 2. 16. 08:35
압살맨 오픈채팅 바로가기
압살맨 유튜브 바로가기
시작
안녕하세요. 2강에서는 파라미터가 주소에 노출되는 사이트를 크롤링하는 방법에 대해 알아봤는데요.
이번에는 파라미터를 숨기는 사이트의 원래 주소를 알아내는 방법을 알아보겠습니다.
본문
지금은 검색엔진으로서의 가치를 상실했지만 여전히 한국에서는 많이 쓰고 있는 네이버
네이버는 원래 사이트 주소를 숨기고 사용자에게는 최종 주소가 아닌 다른 주소를 보여준다.
물론 해당 주소는 브라우저에서는 js 를 로드함으로써 최종적으로 원하는 결과물을 보여주는 주소이기 때문에 문제가 되지 않지만
브라우저를 사용하지 않고 사이트에서 원하는 내용을 얻기 위해서는 숨겨진 주소를 반드시 알아내야 한다.
일단은 아무 블로그의 포스팅에 들어가본다.
들어가서 주소를 확인해보면 'https://blog.naver.com/goglkms/222423901363' 로 되어있다.
해당 주소를 그대로 들고가서 Winhttp 로 ResponseText 를 받아보면
그 어디에도 네이버 RSA 로그인이라는 내용은 찾을 수가 없다. 즉 원래 주소가 숨겨져 있다는 뜻이다.
그렇다면 다시 크롬으로 돌아와서 F12 를 눌러 개발자도구를 켜주고 네트워크 탭에 들어간다.
이후 사이트를 리디렉션을 해주면
하단에 수많은 데이터들이 오고간 것을 확인할 수가 있는데 여기서 최상단으로 돌아가보면
이런주소가 있는 것을 볼 수 있다. 2강에서 이미 설명을 했기 때문에 눈에는 익숙한 파라미터들이 보인다.
blogId=goglkms&
logNo=222423901363&
redirect=Dlog&
widgetTypeCall=true&
directAccess=false
파라미터를 풀었더니 이런 내용이 나오는 것을 볼 수 있다.
즉 네이버 블로그 포스트 주소는
'https://blog.naver.com/PostView.naver?' 이후에 파라미터들을 통해 값을 바꿔주는 것을 알 수 있다.
그렇다면 해당 주소로 내가 원하는 내용을 받아올 수 있는지 확인해볼까
결론
이것을 통해 어지간한 사이트들은 파라미터의 변화를 통해 사이트를 바꿔주는 것을 알 수 있었다.
왜 이 사이트는 내가 원하는 결과를 안주고 이상한걸 주지? 싶으면 이 파라미터를 확인해보면 된다.
숨겨진 주소를 알아내는 과정을 거치긴 하지만 난이도 자체는 쉽다.
난이도 : ★
'오토핫키 > winhttp' 카테고리의 다른 글
오토핫키와 Winhttp #6. multipart/form-data (0) 2024.07.13 오토핫키와 Winhttp #5. Winhttp 와 Adodb Stream 으로 파일 다운로드 구현 (0) 2023.07.11 오토핫키와 Winhttp #4. 파라미터를 주소에 표시하지 않는 사이트 파싱하기 (0) 2023.02.22 오토핫키와 Winhttp #2. 파라미터가 주소에 입력되는 사이트 크롤링 (1) 2023.02.15 오토핫키와 Winhttp #1. winhttp 의 이해 (3) 2023.01.19