Golang 网络爬虫框架gocolly

这篇具有很好参考价值的文章主要介绍了Golang 网络爬虫框架gocolly。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Golang 是一门非常适合编写网络爬虫的语言,它有着高效的并发处理能力和丰富的网络编程库。下面是一个简单的 Golang 网络爬虫示例:

package main

import (
    "fmt"
    "net/http"
    "io/ioutil"
    "regexp"
)

func main() {
    resp, err := http.Get("https://www.example.com")
    if err != nil {
        fmt.Println("Error:", err)
        return
    }
    defer resp.Body.Close()
    body, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        fmt.Println("Error:", err)
        return
    }
    re := regexp.MustCompile("<title>(.*)</title>")
    title := re.FindStringSubmatch(string(body))[1]
    fmt.Println("Title:", title)
}

这个爬虫的功能是获取指定网站的标题。代码中使用了 Go 的标准库 net/http 和 regexp 来进行网络请求和正则表达式匹配。当然,这只是一个简单的示例,实际上爬虫需要考虑更多的问题,比如反爬虫、数据存储、并发控制等等。

gocolly是用go实现的网络爬虫框架,我这里用来测试的版本是:colly “github.com/gocolly/colly/v2”

gocolly的网络爬虫还是很强大,下面我们通过代码来看一下这个功能的使用

package main

import (
  "fmt"
  colly "github.com/gocolly/colly/v2"
  "github.com/gocolly/colly/v2/debug"
)

func main() {
  mUrl := "http://www.ifeng.com/"
  //colly的主体是Collector对象,管理网络通信和负责在作业运行时执行附加的回掉函数
  c := colly.NewCollector(
    // 开启本机debug
    colly.Debugger(&debug.LogDebugger{}),
  )
  //发送请求之前的执行函数
  c.OnRequest(func(r *colly.Request) {
    fmt.Println("这里是发送之前执行的函数")
  })
  //发送请求错误被回调
  c.OnError(func(_ *colly.Response, err error) {
    fmt.Print(err)
  })

  //响应请求之后被回调
  c.OnResponse(func(r *colly.Response) {
    fmt.Println("Response body length:", len(r.Body))
  })
  //response之后会调用该函数,分析页面数据
  c.OnHTML("div#newsList h1 a", func(e *colly.HTMLElement) {
    fmt.Println(e.Text)
  })
  //在OnHTML之后被调用
  c.OnScraped(func(r *colly.Response) {
    fmt.Println("Finished", r.Request.URL)
  })
  //这里是执行访问url
  c.Visit(mUrl)
}

运行结果如下:

这里是发送之前执行的函数

[000001] 1 [     1 - request] map["url":"http://www.ifeng.com/"] (0s)
[000002] 1 [     1 - responseHeaders] map["status":"OK" "url":"http://www.ifeng.com/"] (64.9485ms)
Response body length:250326
Finished http://www.ifeng.com/
[000003] 1 [     1 - response] map["status":"OK" "url":"http://www.ifeng.com/"] (114.9949ms)
[000004] 1 [     1 - html] map["selector":"div#newsList h1 a" "url":"http://www.ifeng.com/"] (118.9926ms)
[000005] 1 [     1 - html] map["selector":"div#newsList h1 a" "url":"http://www.ifeng.com/"] (118.9926ms)
[000006] 1 [     1 - scraped] map["url":"http://www.ifeng.com/"] (118.9926ms)

总结一下:

回调函数的调用顺序如下:

OnRequest在发起请求前被调用
OnError请求过程中如果发生错误被调用
OnResponse收到回复后被调用
OnHTML在OnResponse之后被调用,如果收到的内容是HTML
OnScraped在OnHTML之后被调用文章来源地址https://www.toymoban.com/news/detail-439382.html

到了这里,关于Golang 网络爬虫框架gocolly的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于网络爬虫和SpringBoot框架的晋江文学小说小型网站项目

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,常可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。项目中,主要采取Scrapy框架实现一个爬虫,抓取晋江文学网站的热门小说数据。其主要步骤分为四步: 第一步:新建项目——scrap

    2024年02月02日
    浏览(38)
  • 基于python淘宝商品数据爬虫分析可视化系统 网络爬虫+Flask框架+MySQL数据库 大数据 毕业设计

    python语言、Flask框架、淘宝商品数据、selenium网络爬虫、MySQL数据库、数据分析、Echarts可视化大数据毕业设计、爬取 Selenium网络爬虫淘宝商品数据可视化系统是一个基于Python和Selenium的Web爬虫应用程序,可以实现对淘宝上特定商品的价格、销量、评价等数据进行自动化抓

    2024年02月16日
    浏览(42)
  • python爬虫入门教程(非常详细)

    爬虫指的是一种自动化程序,能够模拟人类在互联网上的浏览行为,自动从互联网上抓取、预处理并保存所需要的信息。 爬虫运行的过程一般是先制定规则(如指定要抓取的网址、要抓取的信息的类型等),紧接着获取该网址的HTML源代码,根据规则对源代码进行解析和抽取

    2024年02月09日
    浏览(43)
  • python爬虫入门教程(非常详细):如何快速入门Python爬虫?

    示例示例Python爬虫入门教程什么是爬虫爬虫(又称网络爬虫)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它可以自动地抓取网页内容,并从中提取有用的数据,存储到本地文件或数据库中。 Python爬虫入门教程 1. 什么是爬虫爬虫(又称网络爬虫)是一种

    2024年02月10日
    浏览(37)
  • Golang入门教程(非常详细)从零基础入门到精通,看完这一篇就够了

    文章目录 一、golang 简介 1. go 语言特点 2. go 语言应用领域 3. 使用 go 语言的公司有哪些 二、安装 golang 1. golang 下载安装 2. 配置环境变量 三、golang 开发工具 1. 安装 VSCode 2. 下载所需插件 四、第一个 golang 应用 1. main 包的含义 2. 示例 Go 是一个开源的编程语言,它能让构造简单

    2024年02月04日
    浏览(33)
  • 记一个网站的爬虫,并思考爬虫与反爬虫(golang)

    最近在分析一个显示盗版小说的网站,其反爬虫思路绝对值得记上一笔. 该网站的地址为 : https://www.bravonovel.life .是一个展示英文小说的网站. 开始,发现这个网站没有登录权限.打开就能看到内容,查看网页源代码.没有内容加密.所以内容都明文的显示在网页中.(自信的以为,简单

    2024年02月15日
    浏览(30)
  • Golang爬虫学习

    2023年将会持续于B站、CSDN等各大平台更新,可加入粉丝群与博主交流:838681355,为了老板大G共同努力。 【商务合作请私信或进群联系群主】 1.1 简介和示例 1.2 爬虫解析页面 1.2.1 解析链接页面 1.2.2 解析内容页面 1.2.3 代码实例 1.3 保存至文件 1.4 保存至数据库 2.1 爬取示例 2.2

    2024年02月11日
    浏览(32)
  • Golang爬虫技术

    Golang爬虫技术 Golang爬虫简介 使用golang net/http库实现第一个爬虫 Golang爬虫解析页面 Golang爬虫将内容保存到本地文件 Golang爬虫将内容保存到数据库(xorm) Golang爬虫库goquery简介 golang爬虫库goquery api Document golang爬虫库goquery api 选择器 Golang爬虫库goquery api Selection Golang爬虫使用goque

    2024年01月22日
    浏览(26)
  • 4-golang爬虫下载的代码

    golang爬虫下载的代码: 下载程序的借鉴内容: 这个是关于gbk,utf8等相互转换的包 1.1标准1   1.2标准2,chatgpt生成的 客户端在发送请求时,可以通过设定请求头中的多项参数规范请求的特性,例如字符编码集、语言等等,详细信息大家可以参照:这里 下面简单列举几个。 A

    2024年02月14日
    浏览(26)
  • python爬虫从0到1 -selenium的基本使用(1),非常适合收藏的Python进阶重难点笔记

    5.根据标签名字来获取对象 button = browser.find_element_by_tag_name(‘input’) 6.通过当前页面中的链接文本来获取对象 button = browser.find_element_by_link_text(‘新闻’) (五)selenium访问元素信息 ==================================================================================== 例: 1.获取元素属性的属性值

    2024年04月09日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包