-
오토핫키 연습일지 #3] 네이버 카페 크롤링 후 게시글 타이틀 파싱오토핫키/연습일지 2022. 6. 21. 06:29
https://open.kakao.com/me/apsalman
https://www.youtube.com/channel/UC6hW-NrL9CxDQd2IzWbekYA
연습 #3
지난 번에는 간편 크롤링이라 해서 3가지의 방식으로 크롤링을 했었다. 이번 시간에는 나의 1차 목표였던 네이버 카페 게시글 타이틀을 크롤링할 것이다.
일단은 내가 크롤링하려는 사이트의 원래 주소를 알아야 한다.
사이트에서 F12 를 누르고 NetWork 선택
2번째가 원래 주소이다. 우클릭 후 링크 복사를 한다.
이런 사이트가 두번째에 뜨게 된다.
사이트의 형식을 보면 네이버카페/클럽아이디 = 30422868 & 검색.보드타입=L & 어쩌구저쩌구… & 사용자화면=20
이 클럽아이디를 가진 네이버카페에 사용자화면에 20개의 게시글을 띄운다. 로 해석할 수 있을 것이다.
그리고 우리는 https://cafe.naver.com/perq 일반적으로 보여주는 해당 URL 을 크롤링하면 ClubId 에 대한 정보를 얻을 수 있다.
그렇다면 일반적인 사용자는 그냥 카페의 주소를 입력하고 검색을 누르면 1차 크롤링으로 해당 ClubId 를 얻고 https://cafe.naver.com/ArticleList.nhn?search.clubid=30422868&search.boardtype=L&search.menuid=&search.marketBoardTab=D&search.specialmenutype=&userDisplay=20 여기서 clubId 를 바꿔주고 userdisplay 를 사용자선택으로 바꿔준 결과를 보여줄 수 있을 것이다.
귀찮게 F12 누르고 본 주소따고 ClubId 를 얻어낼 필요가 없다는 것이다.
URL := "https://cafe.naver.com/ArticleList.nhn?search.clubid=" . ClubId1 . "&search.boardtype=L&search.menuid=&search.marketBoardTab=D&search.specialmenutype=&userDisplay=" . CbSelect
이렇게 고정적인 URL 은 놔두고 ClubId 와 표시 게시글 수만 변수로 지정해주면 된다.
그 이후 urldownload 로 받은 결과값에서 정규식을 사용하여 타이틀과 게시자 그리고 게시날짜를 ListView 에 추가한다.
굿
'오토핫키 > 연습일지' 카테고리의 다른 글
오토핫키 연습일지 #6] Winhttp 활용 뉴스기사 크롤링하여 타이틀, 기사 내용 따오기 (0) 2022.07.30 오토핫키 연습일지 #5] 다음카페 최신글 크롤링 (1) 2022.07.23 오토핫키 연습일지 #4] 카카오톡 파일 전송 (0) 2022.07.02 오토핫키 연습일지 #2 ] 웹 간편 크롤링 (0) 2022.06.18 오토핫키 연습일지 #1 ] WinHttp 웹 크롤링 + 정규식 연습 (2) 2022.06.14