阿寶哥
阿寶哥

退休小公務員,互拍👏👏👏。

【Python網路爬蟲筆記2】抓取真正的重點

(编辑过)

在開始本篇的進度之前,你需要先安裝BeautifulSoup和lxml這2個模組。

pip install BeautifulSoup
pip install lxml

上篇我們已經學會了抓取了ssr1網站整個首頁的內容。然而,整個網頁的內容包含了一堆HTML的標籤,通常這不會是我們想要的資訊。所以,我們這篇就來學習抓取網頁中真正的重點資訊--上述電影網站中首頁每一部電影的片名。
ssr1網站首頁按"Ctrl+U"鍵可以檢視網頁的原始碼。

h2標籤的內容

仔細觀察,我們會發現每部電影的片名洽位於h2標籤內;且除了10部電影的名稱外,沒有其他的h2標籤。
因此,我們可以將程式碼撰寫如下:

import requests
from bs4 import BeautifulSoup

url = 'https://ssr1.scrape.center/'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'lxml')
titles = soup.find_all('h2')

for title in titles:
    print(title.text)

BeautifulSoup是HTML的解析器,而lxml是搭配BeautifulSoup的解析器。soup是BeautifulSoup資料型態的物件,利用該物件的find_all()方法;我們可以解析出HTML中所有的h2標籤。最後,把titles串列(list)中(不含h2標籤的)文字內容列印出來,就大功告成了。

片名




CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…
加载中…

发布评论