Python Crawler需求套件:
- BeautifulSoup
- Requests
首先,要先import requests跟BeautifulSoup
Requests是一個在網路資源取得的套件,可以get、post、delete!
我們要從網站取得資料的時候可以透過requests.get('網址')來操作執行!
resp = requests.get('http://martychen920.blogspot.com/p/python.html')
這時候,resp取得資料之後,其實有很多的操作方法,像status確認網頁狀態,這邊我們要將網頁資料整個拉出的話,就是text!
所以,可以用print(resp.text)去看,會發現整個html都被搬過來了。
接著,這html的資料還要再過手,轉成BeautifulSoup看的懂的格式!
soup = BeautifulSoup(resp.text,'html.parser')
這樣,就可以把資料轉成BeautifulSoup這套件自己可以懂的格式了。
這時候去print(soup),也會是一堆像極了html的資料。
接著就可以去操作這soup上的資料了!
soup.find('h1').text
這樣就可以去找尋『h1』並取得文字資料。
假設是『藤原栗子工作室』
如果直接去print(soup.find('h1'))的話也是可以執行的,只是會連tag都帶出來而以。
就會是『<h1>藤原栗子工作室</h1>』
沒有留言:
張貼留言