【爬虫实战】用python爬取微博任意关键词搜索结果、exe文件-Toy模板网

这篇具有很好参考价值的文章主要介绍了【爬虫实战】用python爬取微博任意关键词搜索结果、exe文件。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

项目功能简介：

1.交互式配置；

2.两种任意关键词来源（直接输入、本地关键词文件）；

3.自动翻页(无限爬取)；

4.指定最大翻页页码；

5.数据保存到csv文件；

6.程序支持打包成exe文件；

7.项目操作说明文档；

一.最终效果

python如何根据微博关键词搜索内容,python爬虫、js逆向,python,微博爬虫

视频演示：

用python爬取微博关键词搜索结果、exe文件视频演示

二.项目代码

2.1 数据来源分析

使用chrome浏览器，F12打开调试面板，使用元素选择工具确定元素位置，如下图

python如何根据微博关键词搜索内容,python爬虫、js逆向,python,微博爬虫

确定页面元素：
python如何根据微博关键词搜索内容,python爬虫、js逆向,python,微博爬虫

说明：为何不直接调用接口获取数据呢？通过调试面板会发现，搜索结果数据不是前后端分离方式返回到web端，而是通过服务端渲染之后一起发送到web端，所以只能对html解析，获取到关键字段内容。

2.2 解析数据

解析html需要使用bs4库，使用前请确保已经安装成功: pip install bs4,查看本地是否已经安装: pip list,如下图：

python如何根据微博关键词搜索内容,python爬虫、js逆向,python,微博爬虫


from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

elements = soup.select('#pl_feedlist_index .card-wrap')

高能总结：1. soup.select选择器返回的对象还能继续选择元素，例如上面的elements，elements.select_one('.card .info #title')；2. 元素如果使用了class对应选择器中用.,id用#，元素标签直接用标签名称，例如div、span、ul等等。

三.批量保存数据

数据保存使用pandas，因此需要先安装: pip install pandas,解析道的数据单行保存读写文件太费时间，使用pandas批量保存，用法如下：

import pandas as pd
list = [
  {
  "keywords":"",
  ...
  "like":"",
  },{
  "keywords":"",
  ...
  "like":"",
  }
]
df = pd.DataFrame(list)
df.to_csv('result.csv', index=False, columns=["keywords", "nickname", "publish_time", "device_info", "weibo_content", "forward", "comment", "like"])

高能总结：1. df.to_csv保存数据时，如果不存在result.csv文件会自动创建；2.往已经存在数据的result.csv文件中追加数据，使用追加方式：df.to_csv('result.csv', index=False, mode='a', header=False)

pandas保存检查完整代码：


import pandas as pd
import os


class DataTool:
    def __init__(self):
        self.file_path = 'result.csv'

    def check_data(self):
        if os.path.exists(self.file_path):
            with open(self.file_path, 'r') as file:
                first_line = file.readline()
                if first_line.strip():
                    return True
                else:
                    return False
        else:
            return False

    def data_to_save(self, list, page):
        df = pd.DataFrame(list)
        print("数据保存中...")
        if page == 1:
            has_file = self.check_data()
            if not has_file:
                df.to_csv(self.file_path, index=False, columns=["keywords", "nickname", "publish_time", "device_info", "weibo_content", "forward", "comment", "like"])
                return
        df.to_csv(self.file_path, index=False, mode='a', header=False)