인터넷 정보 수집화 작업
웹 크로링
웹 상의 정보들을 수집,저장 하는 작업으로 반복적인 자료 조사를 자동화 할 때 유용하다.
HTML(HyperText Markup Language)
웹 문서를 만들기 위해 사용하는 웹 언어의 한 종류로 웹 사이트 제작의 기본이다.
웹 콘텐츠 표현에 초점을 둠
HTML파일 생성 시 기억할 점
태그
태그를 사용해 문단의 시작점, 종료점을 구분한다.
HTML문서 구조
자바스크립트를 이용해 콘텐츠를 동적 조작 할 수 있다.
<body>의 태그
기본적으로 『<태그명 속성명 = "속성값">내용</태그명> 』형식이다.
속성은 요소의 특성,동작을 부여
태그명 | 설멍 |
div | 나누어진 구역 |
a | 웹페이지 링크(하이퍼링크) |
p | 문단 |
h1 | 최상위 제목 |
ul | 순서 없는 목록 |
li | 목록의 항목 |
XML(Extensible Markup Language)
데이터 저장 및 교환을 위한 마크업 언어
데이터 구조화 및 교환에 초점으로 대량의 데이터 처리에는 비효율적이다.
문단구분 : HTML과 동일하게 < > , </ > 사용
requests 라이브러리
웹 페이지의 내용을 가져오거나 HTTP요청을 보내는 기능을 제공
사용전 설치
pip install requests
import requests
url = "https://news.naver.com/breakingnews/section/101/261"
response = requests.get(url)
print(response.text)
출력 :
Beautiful Soup 라이브러리
HTML, XML문서를 사람이 이해하기 좋은 형태로 파싱(의미있는 정보 추출)하고 데이터 추출하는 기능을 제공
주로 requests라이브러리와 함께 사용한다.
사용 전 설치
pip install beautifulsoup4
BeautifulSoup(markup, features)
HTML/XML 요소의 탐색,수정이 용이한 트리 구조의 객체
from bs4 import BeautifulSoup as bs
soup = bs(response.content,"html.parser")
find(name, attrs)
태그명,속성이 일치하는 첫 번째 요소를 반환하는 메서드로 tag를 쉽게 검색,추출 할 수 있다.
find_all(name, attrs)
태그명,속성이 일치하는 모든 요소를 반환
해당 내용은 제가 공부하며 개념 정리 및 요약을 위해 작성한 글로
틀린점이 있을 수 있습니다.
[파이썬 업무자동화] 여섯번째. 지도 불러오기, 데이터를 이용한 지도 시각화, 지도를 이미지로 변환 (2) | 2025.06.02 |
---|---|
[파이썬 업무자동화] 다섯번째 - 이미지 불러오기, 편집, 저장(워터마크) (2) | 2025.06.02 |
[파이썬 업무자동화] 네번째. 파이썬을 이용한 Excel, PPTX 파일 수정,저장하기 (0) | 2025.06.02 |
[파이썬 업무자동화] 세번째. 파이썬으로 PPT제작 그리고 수정 - python-pptx라이브러리 (1) | 2025.05.31 |
[파이썬 업무자동화] 두번째. pandas모듈 이용한 엑셀 파일병합,저장 - 자동화 (0) | 2025.05.30 |