"뷰티플 수프"의 두 판 사이의 차이

잔글 (Jmnote님이 뷰티플 수프 문서를 뷰티플수프 문서로 이동했습니다)
잔글 (봇: 자동으로 텍스트 교체 (-<source +<syntaxhighlight , -</source> +</syntaxhighlight>))
 
(다른 사용자 한 명의 중간 판 4개는 보이지 않습니다)
1번째 줄: 1번째 줄:
==개요==
==개요==
;Beautiful Soup
;Beautiful Soup
;뷰티풀 수프, 뷰터펄 숲 [bjúːtəfəl suːp]
;뷰티플 수프, 뷰터펄 숲 [bjúːtəfəl suːp]
* HTML과 XML 문서를 파싱하는 파이썬 패키지
* HTML과 XML 문서를 파싱하는 파이썬 패키지
* 잘못 쓴 태그, 안닫힌 태그 등 소위 '[[태그 수프]]'를 잘 처리할 수 있다.
* 잘못 쓴 태그, 안닫힌 태그 등 소위 '[[태그 수프]]'를 잘 처리할 수 있다.


[[파일:bs4-doc-image-6.1.jpg]]
[[파일:bs4-doc-image-6.1.jpg]]
<syntaxhighlight lang='bash'>
pip install BeautifulSoup4
</syntaxhighlight>


==예시 1==
==예시 1==
33번째 줄: 37번째 줄:
* [[Selenium]]
* [[Selenium]]
* [[태그 수프]]
* [[태그 수프]]
* [[뷰티플 수프 문서]]
* [[파이썬 requests]]
* [[파이썬 requests]]
* [[파이썬 네이버 뉴스 스크래핑 시작하기]]
* [[파이썬 네이버 뉴스 스크래핑 시작하기]]

2021년 12월 18일 (토) 20:18 기준 최신판

1 개요[ | ]

Beautiful Soup
뷰티플 수프, 뷰터펄 숲 [bjúːtəfəl suːp]
  • HTML과 XML 문서를 파싱하는 파이썬 패키지
  • 잘못 쓴 태그, 안닫힌 태그 등 소위 '태그 수프'를 잘 처리할 수 있다.

Bs4-doc-image-6.1.jpg

pip install BeautifulSoup4

2 예시 1[ | ]

from bs4 import BeautifulSoup
print(BeautifulSoup("<html><head></head><body>Sacr&eacute; bleu!</body></html>", "html.parser"))
HTML 엔티티가 유니코드 문자로 변환되었다.

3 예시 2[ | ]

  • 웹 상의 HTML 페이지를 읽어와서 파싱한다.
  • requests와 함께 사용한 예시
import requests
from bs4 import BeautifulSoup

r = requests.get('https://en.wikipedia.org/wiki/Main_Page')
soup = BeautifulSoup(r.text, 'html.parser')
for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))

4 같이 보기[ | ]

5 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}