본문 바로가기

Python16

파이썬 크롤링 selenium 네이버 이미지 검색을 통한 데이터 수집 파이썬 크롤링 selenium 네이버 이미지 검색을 통한 데이터 수집 ▶ 목표 사용자로부터 동물 이름을 입력 받아 네이버 이미지 탭에 검색된 동물의 이미지를 수집 네이버 이미지 탭에서 자동으로 스크롤을 내려 이미지를 계속 검색 후 수집 입력 받은 동물 이름의 폴더를 생성하고 이미지를 검색 이름 폴더에 저장 ① 필요한 라이브러리 불러오기 # 셀레니움 웹드라이버 from selenium import webdriver as wb # 셀레니움 다양한 선택자 접근 가능 라이브러리 from selenium.webdriver.common.by import By # 셀레니움에서 key 명령어 입력 라이브러리 from selenium.webdriver.common.keys import Keys # 딜레이 import t.. 2023. 1. 21.
파이썬 크롤링 selenium 네이버 검색 해보기, 한솥 도시락 메뉴 정보 수집 파이썬 크롤링 selenium 네이버 검색 기능해보기, 한솥 도시락 메뉴 정보 수집 셀레니움 (selenium) : 동적인 페이지(페이지를 바꾸지 않아도 바뀌는 내용들 네이버 광고, 날씨 등)의 데이터를 수집하기 위해 사용하는 라이브러리 selenium 설치 : !pip install selenium webdriver 프로그램 설치 https://chromedriver.chromium.org/ ChromeDriver - WebDriver for Chrome WebDriver is an open source tool for automated testing of webapps across many browsers. It provides capabilities for navigating to web pages.. 2023. 1. 21.
파이썬 크롤링 requests, BeautifulSoup 네이버 영화 관람객 리플 데이터 수집 파이썬 크롤링 requests, BeautifulSoup 네이버 영화 관람객 리플 데이터 수집 ▶ 목표 네이버 영화 > 영웅 > 평점 > 관람객 리플 데이터 수집 관람객 리플 데이터 10페이지까지 모으기 10페이지까지 모은 데이터를 파일 쓰기/읽기 함수를 통해 텍스트 파일로 저장해보기 리플 데이터를 워드클라우드로 그려보기 ① 평점 탭에 있는 리플 데이터 접근하기 ※ 네이버 영화의 평점 탭에 있는 리플 데이터는 iframe module로 하나의 html 문서 안에 또다른 html 문서가 있는 구조 개발자 도구로 리플 html의 주소를 확인해 들어가서 태그 위치 확인 ② 리플 데이터를 불러오고 출력하기 ※ 파일 쓰기, 읽기 쓰기 f = open('경로및파일명', '쓰기모드') f.write('') f.clo.. 2023. 1. 19.
파이썬 크롤링 requests, BeautifulSoup 네이버 영화 평점 수집 데이터 수집 파이썬 크롤링 requests, BeautifulSoup 네이버 영화 평점 수집 데이터 수집 ▶ 목표 네이버 영화 > 영화 랭킹 > 평점순 (현재 상영 영화) 데이터를 수집하기 페이지를 이동하면서 날짜별(1월12일~1월16일)로 영화명, 평점 데이터를 수집하기 ① 필요한 라이브러리 import 및 header 가져오기 import pandas as pd import requests as req from bs4 import BeautifulSoup as bs header = {'user-agent':'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/109.0.0.0 safari/537.36 edg/.. 2023. 1. 18.
파이썬 크롤링 requests, BeautifulSoup 멜론 Top100 차트 데이터 수집 파이썬 크롤링 멜론 requests, BeautifulSoup Top100 차트 데이터 수집 ▶ 목표 가수명(singer_lst), 곡명(song_lst) 수집 랭킹, 가수명, 곡명을 저장할 수 있는 딕셔너리 생성 {'랭킹':rank_lst, '가수명':singer_lst, '곡명':song_lst} pandas를 이용해서 DataFrame 생성하고 엑셀 파일 형식으로 저장 ① 멜론 탑100 차트에 접근하여 파이썬 객체 형식으로 가져오기 # pandas, requests, BeautifulSoup 불러오기 import pandas as pd import requests as req from bs4 import BeautifulSoup as bs # header 만들기 header = {'user-agen.. 2023. 1. 18.
파이썬 크롤링 requests, BeautifulSoup 파이썬 크롤링 requests, BeautifulSoup 1. requests 라이브러리 페이지의 정보 요청/응답 import requests as req url = 'https://www.naver.com/' # 네이버 페이지 요청 # url에 저장되어 있는 웹문서 요청하기! # 성공적으로 요청/응답이 진행된 상태 res = req.get(url) res # 문자열 -> txt res.text 2. BeautifulSoup 라이브러리 웹 문서 안에 있는 태그 데이터를 추출할 수 있도록 함수를 제공하는 라이브러리 웹 문서(문자열) → 파이썬 객체 변환 함수를 통해 원하는 정보에 접근 from bs4 import BeautifulSoup as bs # 웹 문서(res.text) -> 파이썬 객체 변환 # .. 2023. 1. 16.
파이썬 라이브러리 Matplotlib(Python Library Matplotlib) 파이썬 라이브러리 Matplotlib(Python Library Matplotlib) Matplotlib : 데이터를 시각화하는 라이브러리(모듈) ※ import matplotlib.pyplot as plt : matplotlib.pyplot 모듈을 import하고 plt라는 별칭으로 부르겠다. ( plt 사용 권장 ) 1. 선 그래프(line plot) : plt.plot() ※ 스타일 옵션 스타일 옵션 종류 마커 종류 정의 약자 color 선 색깔 c linewidth 선 굵기 lw linestyle 선 스타일 ls marker 마커 종류 markersize 마커 크기 ms markeredgecolor 마커 선 색깔 mec markeredgewidth 마커 선 굵기 mew markerfacecolor.. 2023. 1. 15.
파이썬 라이브러리 Pandas (Python Library Pandas) 파이썬 라이브러리 Pandas(Python Library Pandas) Pandas 공식 사이트 : https://pandas.pydata.org/ pandas - Python Data Analysis Library pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now! pandas.pydata.org ※ import pandas as pd : pandas 모듈을 import하고 pd라는 별칭으로 부르겠다. ( pd 사용 권장 ) 1차원 배열 :.. 2023. 1. 15.
파이썬 라이브러리 Numpy (Python Library Numpy) 파이썬 라이브러리 Numpy (Python Library Numpy) ※ import numpy as np : numpy 모듈을 import하고 np라는 별칭으로 부르겠다. ( np 사용 권장 ) 다차원 배열 제공 ndarray(number of dimension array) 클래스가 지원하고 있음 동일한 자료형을 가지는 값들이 배열 형태로 존재 n차원의 형태로 구성 가능 데이터에 접근을 최적화하기 위해 index(색인)를 부여 1. 배열 생성 ① 1차원 배열 생성 배열 생성 함수 : np.array() lst1 = [1, 2, 3, 4, 5] # 리스트 arr = np.array(lst1) # 배열을 생성하는 함수 np.array() arr # 배열 ② 2차원 배열 생성 arr2 = np.array([.. 2023. 1. 12.