1. 엑셀에서 파워쿼리로 비트코인 시세 크롤링을 하는 방법
이전 포스팅에서 엑셀을 이용한 크롤링의 종류를 개략적으로 소개했습니다만, 이번 포스팅에서는 실제로 엑셀의 파워쿼리라는 기본기능을 사용해 비트코인 사이트에서 시세표를 크롤링해보겠습니다.
하기 이미지처럼 해당 사이트의 가상화폐 시세표를 엑셀로 받아와서 자동으로 표시하며 엑셀에서 갱신버튼만 누르면 자동으로 해당 사이트의 내용이 엑셀에서도 반영되는 크롤링 시스템을 만들어보겠습니다. 매우 쉽습니다.
먼저, 파워쿼리로 크롤링을 하기 위해서는 이하 순서와 같이 따라해주세요.
● 파워쿼리로 비트코인 시세 크롤링 순서
① 엑셀을 열고 이하 이미지처럼 데이터 탭에서 "웹"을 클릭, URL 부분에 하기 사이트 URL을 넣고 확인을 눌러주세요.
(*비트코인 시세 사이트 주소 :https://kr.investing.com/crypto/currencies)
② 확인버튼을 누른후 몇초간 기다리면 하기와 같은 창이 뜹니다. 여기서 Table0이라는 부분을 보면 비트코인 사이트에서 보여지는 시세표가 표형식으로 출력되는 것을 미리보기로 볼 수 있습니다. 여기서 "데이터변환" 을 클릭해주세요.
③ 데이터 변환을 누르면 하기와 같이 파워쿼리 창이 뜨는데요. 상세하게는 여러 변환 옵션이 있습니다만, 이번 포스팅에서는 해당 표를 그대로 사용합니다. 따라서 닫기 및 로드를 눌러주세요.
④ 닫기 및 로드를 클릭하면, 모든 과정이 완료되었습니다. 엑셀에 하기와 같이 자동으로 표가 생성이 됩니다. 이 표가 바로 비트코인 사이트와 연동된 표입니다. 여기서 표를 우클릭하여 하기 이미지처럼 "새로고침"을 눌러주면 비트코인 사이트의 표 실시간 내용으로 변경됩니다.
상기 과정을 통해 크롤링된 파일을 하기에 공유드립니다. 공부용으로 참조해주세요.
2. 파워쿼리 크롤링의 장점 및 주의사항
상기와 같이 비트코인 사이트 URL에 있는 표부분을 크롤링하여 엑셀에 연동된 표를 만들었습니다만, 이 파워쿼리를 이용한 크롤링의 경우 URL에 있는 Table형식의 데이터만 읽어서 쿼리형식으로 나타낼 수 있습니다. 원하는 웹사이트의 내용이 Table형식인지 아닌지 확인하는 방법은 대단히 간단합니다. 이하 내용을 순서대로 확인해주세요.
● 웹사이트의 HTML 구성요소 확인방법
① 웹사이트에서 우클릭하여 제일 하단의 "검사"를 클릭합니다.
② 그러면 하기와 같은 창이 나타나는데요. 이 창이 바로 해당 웹사이트를 구성하는 HTML을 분석할 수 있는 창입니다.
여기서 우측 상단의 클릭한 요소의 HTML을 찾는 메뉴를 선택한 상태에서 원하시는 웹사이트의 정보를 클릭하면, 해당 HTML의 요소가 어떻게 이루어졌는지 바로 확인할 수 있습니다.
③ 여기서 td형식 즉 Table형식으로 시작한다면 상기 알려드린 파워쿼리를 활용한 크롤링이 가능합니다.
(일부 웹사이트에서 막아놓은 경우 파워쿼리로는 불가능할 가능성도 있습니다.)
파워쿼리는 매우 간단하게 크롤링을 할 수 있다는 장점이 있습니다만, 모든 웹사이트 요소를 크롤링 할 수는 없기 때문에 상세한 내용을 포함한 크롤링이 필요하시다면, 다음 포스팅에서 알려드릴 셀레니움을 통한 크롤링이나 VBA XML라이브러리 등의 크롤링 편에서 알려드리겠습니다.