关注我们

Python爬虫 - 数据处理

在前面的章节中，无涯教程学习了有关通过各种Python模块从网页中提取数据或进行网页抓取的知识。在本章中研究各种技术来处理已抓取的数据。

要处理已抓取的数据，必须将数据以特定格式存储在本地计算机上，例如电子表格(CSV)，JSON或有时存储在MySQL等数据库中。

CSV和JSON数据处理

首先，从网页抓取后，无涯教程将信息写入CSV文件或电子表格中，首先通过一个简单的示例来理解，在该示例中，将像以前一样使用 BeautifulSoup 模块获取信息，然后使用Python CSV模块将文本信息写入CSV文件。

首先，需要导入必要的Python库，如下所示:

import requests
from bs4 import BeautifulSoup
import csv

在下面的代码行中,使用请求对URL进行GET HTTP请求: 通过发出GET请求 https://authoraditiagarwal.com/。

r=requests.get('https://authoraditiagarwal.com/')

现在，需要创建一个Soup对象，如下所示:

soup=BeautifulSoup(r.text, 'lxml')

现在，在接下来的代码行的帮助下，将捕获的数据写入名为dataprocessing.csv的CSV文件中。

f=csv.writer(open(' dataprocessing.csv ','w'))
f.writerow(['Title'])
f.writerow([soup.title.text])

运行此脚本后，文本信息或网页标题将保存在本地计算机上的上述CSV文件中。

同样，可以将收集的信息保存在JSON文件中。以下是一个易于理解的Python脚本，用于执行与上一个Python脚本中相同的信息，但是这次使用JSON Python模块将所获取的信息保存在JSONfile.txt中。

无涯教程网

import requests
from bs4 import BeautifulSoup
import csv
import json
r=requests.get('https://authoraditiagarwal.com/')
soup=BeautifulSoup(r.text, 'lxml')
y=json.dumps(soup.title.text)
with open('JSONFile.txt', 'wt') as outfile:
   json.dump(y, outfile)

运行此脚本后，抓取的信息(即网页标题)将保存在本地计算机上的上述文本文件中。

MySQL数据处理

让无涯教程学习如何使用MySQL处理数据。如果您想了解MySQL,则可以点击链接 https://www.learnfk.com/mysql/。

借助以下步骤，可以将数据抓取并处理到MySQL表中-

链接：https://www.learnfk.comhttps://www.learnfk.com/python-web-scraping/python-web-scraping-data-processing.html

来源：LearnFk无涯教程网

第1步 - 首先，通过使用MySQL，需要创建一个数据库和表，要在其中保存抓取的数据。例如，使用以下查询创建表-

CREATE TABLE Scrap_pages (id BIGINT(7) NOT NULL AUTO_INCREMENT,
title VARCHAR(200), content VARCHAR(10000),PRIMARY KEY(id));

第2步 - 接下来，需要处理Unicode。请注意，默认情况下，MySQL不处理Unicode。需要借助以下命令来打开此函数，这些命令将更改数据库，表以及两列的默认字符集-

ALTER DATABASE scrap CHARACTER SET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
ALTER TABLE Scrap_pages CONVERT TO CHARACTER SET utf8mb4 COLLATE
utf8mb4_unicode_ci;
ALTER TABLE Scrap_pages CHANGE title title VARCHAR(200) CHARACTER SET utf8mb4
COLLATE utf8mb4_unicode_ci;
ALTER TABLE pages CHANGE content content VARCHAR(10000) CHARACTER SET utf8mb4
COLLATE utf8mb4_unicode_ci;

第3步 - 现在，将MySQL与Python集成。为此，将需要PyMySQL，可以通过以下命令进行安装

pip install PyMySQL

第4步 - 现在，无涯教程先前创建的名为Scrap的数据库已准备好将数据从Web上抓取后保存到名为Scrap_pages的表中。在示例中，将从Wikipedia抓取数据，并将其保存到数据库中。

首先，需要导入所需的Python模块。

from urllib.request import urlopen
from bs4 import BeautifulSoup
import datetime
import random
import pymysql
import re

现在，创建一个连接，将其与Python集成在一起。

conn=pymysql.connect(host='127.0.0.1',user='root', passwd=None, db='mysql',
charset='utf8')
cur=conn.cursor()
cur.execute("USE scrap")
random.seed(datetime.datetime.now())
def store(title, content):
   cur.execute('INSERT INTO scrap_pages (title, content) VALUES ''("%s","%s")', (title, content))
   cur.connection.commit()

现在，连接Wikipedia并从中获取数据。

def getLinks(articleUrl):
   html=urlopen('http://en.wikipedia.org'+articleUrl)
   bs=BeautifulSoup(html, 'html.parser')
   title=bs.find('h1').get_text()
   content=bs.find('div', {'id':'mw-content-text'}).find('p').get_text()
   store(title, content)
   return bs.find('div', {'id':'bodyContent'}).findAll('a',href=re.compile('^(/wiki/)((?!:).)*$'))
links=getLinks('/wiki/Kevin_Bacon')
try:
   while len(links) > 0:
      newArticle=links[random.randint(0, len(links)-1)].attrs['href']
      print(newArticle)
      links=getLinks(newArticle)