如何使用Puppeteer进行新闻网站数据抓取和聚合

这篇具有很好参考价值的文章主要介绍了如何使用Puppeteer进行新闻网站数据抓取和聚合。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

如何使用Puppeteer进行新闻网站数据抓取和聚合,Puppeteer,爬虫代理,爬虫技术,Puppeteer,网络爬虫,数据抓取,爬虫代理,亿牛云

导语

Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。

概述

数据抓取是指从网页中提取所需的数据,如标题、正文、图片、链接等。数据聚合是指将多个来源的数据整合在一起,形成一个统一的视图或报告。数据抓取和聚合是爬虫技术的常见应用场景,它可以帮助我们获取最新的信息,分析舆情,发现趋势等。
使用Puppeteer进行数据抓取和聚合的基本步骤如下:

  1. 安装Puppeteer库和相关依赖
  2. 创建一个Puppeteer实例,并启动一个浏览器
  3. 打开一个新的页面,并设置代理IP和请求头
  4. 访问目标网站,并等待页面加载完成
  5. 使用选择器或XPath定位元素,并获取元素的属性或文本
  6. 将获取的数据存储到本地文件或数据库中
  7. 关闭页面和浏览器

正文

安装Puppeteer库和相关依赖

要使用Puppeteer,我们首先需要安装Node.js环境,以及Puppeteer库和相关依赖。我们可以使用npm命令来安装,如下所示:

// 在命令行中执行以下命令,安装Puppeteer库
npm install puppeteer

// 安装http-proxy-agent模块,用于设置代理IP
npm install http-proxy-agent

// 安装cheerio模块,用于解析HTML文档
npm install cheerio

创建一个Puppeteer实例,并启动一个浏览器

接下来,我们需要创建一个Puppeteer实例,并启动一个浏览器。我们可以使用puppeteer.launch方法来实现,该方法接受一个可选的配置对象作为参数,其中可以设置浏览器的各种选项,如是否显示界面、是否启用沙盒模式、是否忽略HTTPS错误等。例如:

// 引入puppeteer模块
const puppeteer = require('puppeteer');

// 创建一个异步函数,用于执行爬虫任务
(async () => {
  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
  const browser = await puppeteer.launch({ headless: false });
})();

打开一个新的页面,并设置代理IP和请求头

然后,我们需要打开一个新的页面,并设置代理IP和请求头。我们可以使用browser.newPage方法来创建一个新的页面对象,该对象提供了与页面交互的各种方法和事件。我们可以使用page.setExtraHTTPHeaders方法来设置请求头,以模拟正常的浏览器行为。我们还可以使用page.authenticate方法来设置代理IP,以避免被目标网站屏蔽或限制。例如:

// 引入http-proxy-agent模块,用于创建代理对象
const HttpProxyAgent = require('http-proxy-agent');

// 创建一个异步函数,用于执行爬虫任务
(async () => {
  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
  const browser = await puppeteer.launch({ headless: false });

  // 打开一个新的页面
  const page = await browser.newPage();

  // 设置请求头,模拟正常的浏览器行为
  await page.setExtraHTTPHeaders({
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'User-Agent':
      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
  });

  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码
  await page.authenticate({
    username: '16YUN',
    password: '16IP',
    agent: new HttpProxyAgent('http://www.16yun.cn:9020'),
  });
})();

访问目标网站,并等待页面加载完成

接下来,我们需要访问目标网站,并等待页面加载完成。我们可以使用page.goto方法来访问一个URL,该方法返回一个Promise对象,表示页面导航的结果。我们可以使用await关键字来等待Promise对象的解决,或者使用then方法来添加回调函数。我们还可以使用page.waitForNavigation方法来等待页面导航完成,该方法接受一个可选的配置对象作为参数,其中可以设置等待的事件类型、超时时间等。例如:

// 创建一个异步函数,用于执行爬虫任务
(async () => {
  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
  const browser = await puppeteer.launch({ headless: false });

  // 打开一个新的页面
  const page = await browser.newPage();

  // 设置请求头,模拟正常的浏览器行为
  await page.setExtraHTTPHeaders({
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'User-Agent':
      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
  });

  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码
  await page.authenticate({
    username: '16YUN',
    password: '16IP',
    agent: new HttpProxyAgent('http://www.16yun.cn:9020'),
  });

  // 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发
  await page.goto('https://news.163.com/', {
    waitUntil: 'networkidle2',
  });
})();

使用选择器或XPath定位元素,并获取元素的属性或文本

然后,我们需要使用选择器或XPath定位元素,并获取元素的属性或文本。我们可以使用page.$方法来获取多个元素。这些方法接受一个字符串作为参数,表示选择器或XPath表达式。我们还可以使用page.evaluate方法来在页面上执行JavaScript代码,并返回执行结果。我们可以使用这个方法来获取元素的属性或文本,或者进行其他操作。例如:

// 创建一个异步函数,用于执行爬虫任务
(async () => {
  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
  const browser = await puppeteer.launch({ headless: false });

  // 打开一个新的页面
  const page = await browser.newPage();

  // 设置请求头,模拟正常的浏览器行为
  await page.setExtraHTTPHeaders({
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'User-Agent':
      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
  });

  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码 
  await page.authenticate({ username: ‘yiniu’, password: ‘yiniu123’, agent: new HttpProxyAgent(‘http://http-dyn.abuyun.com:9020), });

  // 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发 
  await page.goto(‘https://news.163.com/, { waitUntil: ‘networkidle2’, });

  // 使用选择器获取杭州亚运会相关的新闻列表,返回一个元素数组 
  const newsList = await page.$$(.news_title h3 a’);

  // 创建一个空数组,用于存储新闻数据 
  const newsData = [];

  // 遍历新闻列表,获取每个新闻的标题、链接、时间和来源 
  for (let news of newsList) { 
     // 获取新闻的标题,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果 
     const title = await page.evaluate((el) => el.innerText, news);
    
     // 获取新闻的链接,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果    
     const link = await page.evaluate((el) => el.href, news);

     // 获取新闻的时间和来源,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果
     const timeAndSource = await page.evaluate(
     (el) => el.parentElement.nextElementSibling.innerText,news);

     // 将新闻数据添加到数组中
     newsData.push({
       title,
       link,
       timeAndSource,
     });
    }

 // 打印新闻数据 
 console.log(newsData); })();                                                                                        

案例

运行上述代码,我们可以得到如下输出:

[
  {
    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
  },
  {
    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
  },
  {
    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
  },
  {
    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
  },
  {
    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
  }
]

这样,我们就成功地使用Puppeteer进行了新闻网站数据抓取和聚合。

结语

本文介绍了如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。Puppeteer是一个强大的库,它可以让我们轻松地控制浏览器,实现各种自动化任务。通过使用代理IP,我们可以提高爬虫的效果,避免被目标网站屏蔽或限制。文章来源地址https://www.toymoban.com/news/detail-691608.html

到了这里,关于如何使用Puppeteer进行新闻网站数据抓取和聚合的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【爬虫实践】使用Python从网站抓取数据

            本周我不得不为客户抓取一个网站。我意识到我做得如此自然和迅速,分享它会很有用,这样你也可以掌握这门艺术。 【免责声明:本文展示了我的抓取做法,如果您有更多相关做法请在评论中分享】 确定您的目标:一个简单的 html 网站 在 Python 中设计抓取方案

    2024年02月14日
    浏览(44)
  • 使用Python和Scrapy实现抓取网站数据

    Scrapy是一个功能强大的网络爬虫框架,允许开发者轻松地抓取和解析网站内容,这篇文章主要为大家介绍了如何使用Python的Scrapy库进行网站数据抓取,需要的可以参考一下 在本文中,我们将介绍如何使用Python的Scrapy库进行网站数据抓取。Scrapy是一个功能强大的网络爬虫框架,

    2024年02月17日
    浏览(44)
  • 使用Python的Requests和BeautifulSoup库来爬取新闻网站的新闻标题、发布时间、内容等信息,并将数据存储到数据库中

    BeautifulSoup是Python的一个HTML/XML解析库,用于从HTML或XML文件中提取数据。结合Python的requests库,可以实现网页爬取和数据提取。 以下是一个简单的使用BeautifulSoup和requests库实现爬虫的示例:   用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。

    2024年02月10日
    浏览(55)
  • 如何使用Python的Selenium库进行网页抓取和JSON解析

    随着互联网的快速发展,网页抓取和数据解析在许多行业中变得越来越重要。无论是电子商务、金融、社交媒体还是市场调研,都需要从网页中获取数据并进行分析。Python的Selenium库作为一种自动化测试工具,已经成为许多开发者的首选,因为它提供了强大的功能和灵活性。

    2024年02月10日
    浏览(299)
  • 使用Kotlin抓取微博数据并进行热度预测

    目录 一、引言 二、Kotlin简介 三、抓取微博数据 1、获取API授权 2、发送HTTP请求 四、数据预处理和热度预测 1、数据预处理 2、热度预测模型建立 3、热度预测实现 五、评估与优化 1、评估模型性能 2、优化模型性能 六、总结 随着社交媒体的普及,微博作为一种重要的社交平台

    2024年02月04日
    浏览(43)
  • 使用 Java 流进行分组和聚合,高效处理大量数据不再是梦!

    了解使用 Java Streams 解决问题的直接途径,Java Streams 是一个允许我们快速有效地处理大量数据的框架。 当我们对列表中的元素进行分组时,我们可以随后聚合分组元素的字段以执行有意义的操作,帮助我们分析数据。一些示例是加法、平均值或最大值/最小值。这些单个字段

    2024年02月07日
    浏览(44)
  • 网站服务器 如何防止恶意爬虫抓取

    恶意的蜘蛛行为不光会造成服务器的压力,并且对seo没有实质性用处,下面就拿SemrushBot蜘蛛为例来说明如何防止恶意爬取 SemrushBot蜘蛛爬虫UA:\\\"Mozilla/5.0 (compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)\\\" 1、SemrushBot蜘蛛抓取过多增加网站服务器负担 2、SemrushBot不会给网站带来实

    2023年04月10日
    浏览(54)
  • Vue3+Vite使用Puppeteer进行SEO优化(SSR+Meta)

    【笑小枫】https://www.xiaoxiaofeng.com上线啦 资源持续整合中,程序员必备网站,快点前往围观吧~ 我的个人博客【笑小枫】又一次版本大升级,虽然知道没有多少访问量,但我还是整天没事瞎折腾。因为一些功能在Halo上不太好实现,所以又切回了Vue3项目,本文就是对于Vue单页面

    2024年01月25日
    浏览(54)
  • 如何使用wireshark抓取HTTPS数据包?

    wireshark 是基于网络层的抓包工具,通过捕获通信双方的TCP/IP包实现内容提取。对于应用层的数据,如果应用层协议是公开的,就可以直接显示数据。处理HTTPS 协议时,因为不知道客户端、服务端的私钥,所以对应的数据不可见。 也就是说,如果 wireshark 能够获取私钥,就能显

    2024年01月19日
    浏览(44)
  • 如何使用 Python 爬虫抓取动态网页数据

    随着 Web 技术的不断发展,越来越多的网站采用了动态网页技术,这使得传统的静态网页爬虫变得无能为力。本文将介绍如何使用 Python 爬虫抓取动态网页数据,包括分析动态网页、模拟用户行为、使用 Selenium 等技术。 在进行动态网页爬取之前,我们需要先了解动态网页和静

    2023年04月24日
    浏览(74)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包