BEAUTIFULSOUP

Category
아이템: BEAUTIFULSOUP(1)
포스트 갯수1

[Python] BeautifulSoup 과 HTML 인코딩에 관한 고찰

By 지훈현서 | 2019년 6월 2일 | 
얼마전 필요에 따라 BeautifulSoup을 이용하여 HTML 파싱하여 데이터를 추출하는 프로그램을 작성했는데, HTML을 읽고 그 내용을 파싱하기 위하여 다음과 같이 시도했습니다. with open('1.html', 'r', encoding='utf-8') as ifp: hstr = ifp.read() soup = BeautifulSoup(hstr, self.parser) 말로 설명하면 1.html 이라는 HTML 파일을 UTF-8 로 열어 그것을 hstr 문자열에 넣고 BS로 파싱한다는 의미입니다. 그런데 문제는 이 HTML이 동일한 사이트라도 때때로 다른 인코딩으로 가져온다는 것이었습니다.아마도 나라에 따라 해당 인코딩을 사용하게 한다던지 아니면 크롬 웹브라우저에서 C