2025/02/16 2

(colab) web scrapping

웹스크래핑이란 웹서버로 부터 html 전체를 가져와서 html 태그내에 있는 유용한 데이터를 추출하는 것이다. 최근 사이트들은 Scrapping 방지를 해 놔서 일반적인 python 의 requests.get(url) 로는 Timeout 에러가 발생한다. 하지만 웹 브라우저(Chrome, Firefox 등등)을 이용하면 제한은 없어지기 때문에 프로그램적으로 웹 브라우저를 통제하기 위해서 python에서 selenium 라이브러리를 통하여 작동할 OS에 설치되어 있는 브라우저에 맞는 Webdriver를 이용한다.  프로그램이 동작할 OS에서의 설정은 까다로운 편이지만, Google Colab 에서는 아래와 같이 간단하게 설정하면 된다.!pip install google-colab-selenium impor..

data science/python 2025.02.16

close contours (convexHull 사용)

과제findContours 에 RETR_EXTERNAL 옵션을 주면 가장 외곽의 연결된 선의 좌표들을 추출하는데, 만약 그 외곽선의 일부가 약한 픽셀로 되어 있다면 결과는 봉쇄되지 않은 contour로 인해 안쪽의 contour 좌표들도 결과로 추출되게 된다.결과적으로 가장 외곽의 contour만 추출하고자 한다.  아이디어모든 contour의 포인터들을 하나의 벡터에 집어넣고 그 벡터를 convexHull 로 처리하면 외곽에 완만한 곡선의 결과 포인트들만 얻을 수 있다.처리속도를 고려한다면 모든 포인트들을 전부 벡터에 넣을 필요는 없고 간격을 두고 처리하는 것도 좋은 아이디어이다.※ convexHull 과 approxPolyDP 의 차이점은 approxPolyDP 가 모든 contour 포인트들 대상으..

opencv 2025.02.16