-
오토핫키와 Winhttp #2. 파라미터가 주소에 입력되는 사이트 크롤링오토핫키/winhttp 2023. 2. 15. 03:43
압살맨 오픈채팅 바로가기
압살맨 유튜브 바로가기
시작
이제 본격적으로 우리는 Winhttp 를 활용한 크롤링을 시작해볼거에요.
지금까지 많은 사이트들을 다뤄보며 제가 나름대로 정한 난이도가 있는데요
오늘은 그 중에서 가장 난이도가 낮은 사이트 중에 하나를 예시로 들어보겠습니다.
본문
일단 먼저 사이트를 들여다보자.
http://www.khma.org/portal/00011/00109/00114.web
해당 사이트는 대한주택관리사협회 이고 구인을 할 수 있는 곳이다.
물론 내가 주택관리사는 아니고 다른 분이 질문하셨던 사이트다.
주택관리사협회 사이트는 한국 IP 가 아니면 접속을 허용하지 않는 듯 하다.
여기서 구인을 할 수 있는데 구인의 세부설정이 가능하다.
지역, 직종, 급여, 상태 이다.
이 것들을 선택한 후의 결과값을 받으려면 어떻게 해야할까?
일단은 무작정 선택을 해주고 검색을 누르면
사이트의 주소가 다른 것을 볼 수 있다.
?sido=seoul&
sigungu=도봉구&
workGrade=관리과장&
payType=PAYTYPE10
이것을 이렇게 나열해서 보면 보기 편하다.
시도=서울
시군구=도봉구
직분류=관리과장
급여분류=PayType10
이 것이 우리가 선택한 체크박스들의 결과이다.
파라미터들이 주소에 그대로 노출되어있기 때문에 저것을 바꿔서 엔터를 눌러도 원하는 결과가 나올 것이다.
wh := ComObjCreate("WinHttp.WinHttpRequest.5.1") wh.Open("Get", "http://www.khma.org/portal/00011/00109/00114.web?sido=seoul&sigungu=%EB%8F%84%EB%B4%89%EA%B5%AC&workGrade=%EA%B4%80%EB%A6%AC%EA%B3%BC%EC%9E%A5&payType=PAYTYPE10&isEnd=&stype=title&sstring=&jumpMenuGuideSido=&userPageUint=20&cpage=1") wh.Send() clipboard := wh.ResponseText
해당 스크립트를 실행 후 결과를 메모장에 붙여넣기 하면
우리가 브라우저에서 보는 요소와 메모장에 표시된 html 가 일치하는 것을 볼 수 있다.
이것을 우리는 적절하게 정규식 과정을 거치고 결과를 이쁘게 잘 플레이팅 해주면 된다.
결론
파라미터가 이런식으로 주소에 나오는 사이트들은 비교적 크롤링이 쉽다.
난이도 : ★
'오토핫키 > winhttp' 카테고리의 다른 글
오토핫키와 Winhttp #5. Winhttp 와 Adodb Stream 으로 파일 다운로드 구현 (0) 2023.07.11 오토핫키와 Winhttp #4. 파라미터를 주소에 표시하지 않는 사이트 파싱하기 (0) 2023.02.22 오토핫키와 Winhttp #3. 원래 주소가 숨겨진 사이트를 파싱하는 방법 (0) 2023.02.16 오토핫키와 Winhttp #1. winhttp 의 이해 (3) 2023.01.19