下一代网络爬虫:AI agents

这篇具有很好参考价值的文章主要介绍了下一代网络爬虫:AI agents。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

简介

下一代网络爬虫是爬虫级 AI agents。

由于现代网页的复杂性,现代爬虫都倾向于使用高性能分布式 RPA,完全和真人一样访问网页,采集数据。由于 AI 的成熟,RPA 工具也在升级为 AI agents。因此,网页爬虫的发展趋势是爬虫级智能体(AI agents),或者我喜欢称为数字超人

高性能分布式 RPA

互联网数据收集现在都使用高性能分布式 RPA。搭载 AI 的 RPA 也是 AI agents。爬虫级 RPA 可以完全和你本人一样操作浏览器,为你创建一个智能体军团,在网上自由冲浪,完整精确采集数据和知识。

商用级数据收集非常困难,步步维艰,但凡对数据质量、调度质量、采集性能、数据规模、综合成本有一些要求,都面临着成千上万个困难。

幸运的是,我们现在有了 AI + RPA 的成熟方案完整解决这些难题。

PulsarRPA 的性能非常高,成本非常低,一台普通机器每天访问十万几十万网页,采集数千万上亿数据点,毫无压力。

高性能分布式 RPA 在网页上执行了交互动作,保证了所有字段均完整呈现在页面上,每个页面会有 100~200 个高价值字段被提取出来。一台机器一天可以采集1700万到3400万个字段。

下一代网络爬虫:AI agents,人工智能,数据挖掘,rpa,爬虫

下面的视频,介绍了如何用 PulsarRPA 完整精确采集最复杂的网站数据,具备最严格的质量保证体系、满足最严苛的系统性能和总体成本要求。

PulsarRPA - 适用于网络爬虫和 AI agents 的高性能分布式 RPAhttps://blog.csdn.net/weixin_48738961/article/details/135700524​PulsarRPA 是目前应用于大规模数据采集,唯一成熟的开源 RPA。

商用级项目示例

作为 PulsarRPA 的一个真实商用项目示例,Exotic Amazon (国内镜像)是采集 amazon 全球网站的完整解决方案,开箱即用,满足最高标准的数据质量要求、最高标准的采集性能要求、最高标准的综合成本要求,包含亚马逊大多数数据类型,它将永久免费提供并开放源代码。

作为一款爬虫级 RPA,PulsarRPA 已经累计为各种客户采集近百亿网页。其中包括了最复杂的数据采集需求,譬如 amazon 全球 20 大站点的完整数据点,以及 google 全球站点的完整数据点。

智能体军团

在如此严苛的需求锤炼之后,PulsarRPA 已经非常成熟。目前我们的产品重心是真正意义上的 AI 爬虫。

AI 爬虫指的是一组智能体,也就是 AI agents,它能够像真人一样网上冲浪,阅读理解在线网页,并且可以完全自动地分析网页,输出结构化数据或者知识图谱。

Platon.ai 的高性能分布式浏览器,可以帮助大语言模型无障碍访问互联网,获得实时、干净的网页数据。

Platon.ai 基于机器学习技术采集的数据,可以支持各种各样的数据业务,譬如电商数据分析,大语言模型预训练、微调、提示词工程、检索增强生成(RAG)等。

无监督学习数据提取

互联网数据充满噪音,platon.ai 的技术帮助我们自动将互联网网页转变成干净的结构化数据。

在传统上,我们需要使用 PulsarRPA,或者 selenium 这样的浏览器自动化工具,花费大量时间,编写X-SQL、CSSPath、XPath、正则表达式等,来提取网页数据,将网页转变成可以直接分析的结构化数据。

使用 platon.ai 的 AI 爬虫 PulsarRPAPro,可以像真人一样无障碍网上冲浪,自动提取网页中的所有字段,输出结构化数据。

PulsarRPAPro-AI高速采集并自动提取网页数据-CSDN博客https://blog.csdn.net/weixin_48738961/article/details/135701063执行 PulsarRPAPro 后,系统将打开入口页面,和网页进行交互,等待延迟加载的网页内容也完整呈现。

在所有网页内容完整呈现后,PulsarRPAPro 智能地找到了所有商品链接,并逐一访问这些链接,浏览商品页面。

在网页上,凡人眼可见的数据,几乎都能够被完整、精确提取出来,譬如,标题、价格、折扣、优惠、配送等等关键字段。

和真人不同的是,PulsarRPAPro 访问速度非常快,访问的网页数量没有限制,单机每天访问十万、几十万网页,采集数千万、上亿数据点,毫无压力。

访问所有网页后,PulsarRPAPro 直接将网页上所有的数据转变为表格,并且保存为后续分析所需的格式。

监督学习数据提取

PulsarRPAPro 使用多种机器学习技术,来将网页内容提取工作人效提升 1000 倍以上,而人员技能要求也几乎降为零。

下一代网络爬虫:AI agents,人工智能,数据挖掘,rpa,爬虫

如果对数据质量有进一步要求,PulsarRPA 也开发了监督学习技术来提取网页,一次训练,永久有效。

PulsarRPAPro-基于监督学习算法高精度提取网页数据-CSDN博客文章浏览阅读125次,点赞2次,收藏3次。使用无监督学习+监督学习进行网页数据提取,我们将网页数据提取的人效提升了1000倍以上,提升了数据提取准确率,降低了人员技能要求,同时也不再需要频繁维护数据提取规则。https://blog.csdn.net/weixin_48738961/article/details/135702207由于我们能够无监督学习将网页转变成表格,我们只需要在这个表格上处理,简单剔除错误数据,并给每一列字段一个名字,这就形成了可以用于训练监督学习模型的大数据集。这个过程不需要任何专业知识,初中知识储备就可以胜任。

使用监督学习技术,绝大多数字段,准确率和召回率均超过99%。

未来演化

在下一步,PulsarRPA 将引入大语言模型,提供自然语言交互界面,优化从数据采集、UI 操作、自主决策、数据标注、数据导出等各个环节的用户体验,并提供一定自主决策能力。

代码示例

大多数抓取尝试可以从几乎一行代码开始

fun main() = PulsarContexts.createSession().scrapeOutPages( "https://www.amazon.com/", "-outLink a[href~=/dp/]", listOf("#title", "#acrCustomerReviewText"))

上面的代码从一组产品页面中抓取由 css 选择器 #title 和 #acrCustomerReviewText 指定的字段。 示例代码可以在这里找到:kotlin,java,国内镜像:kotlin,java。

大多数生产环境数据采集项目可以从以下代码片段开始

fun main() {
    val context = PulsarContexts.create()

    val parseHandler = { _: WebPage, document: Document ->
        // use the document
        // ...
        // and then extract further hyperlinks
        context.submitAll(document.selectHyperlinks("a[href~=/dp/]"))
    }
    val urls = LinkExtractors.fromResource("seeds10.txt")
        .map { ParsableHyperlink("$it -refresh", parseHandler) }
    context.submitAll(urls).await()
}

示例代码:kotlin,java,国内镜像:kotlin,java。

最复杂的数据采集项目可以使用 RPA 模式

最复杂的数据采集项目往往需要和网页进行复杂交互,为此我们提供了简洁强大的 API。以下是一个典型的 RPA 代码片段,它是从顶级电子商务网站收集数据所必需的:

val options = session.options(args)
val event = options.event.browseEvent
event.onBrowserLaunched.addLast { page, driver ->
    // warp up the browser to avoid being blocked by the website,
    // or choose the global settings, such as your location.
    warnUpBrowser(page, driver)
}
event.onWillFetch.addLast { page, driver ->
    // have to visit a referrer page before we can visit the desired page
    waitForReferrer(page, driver)
    // websites may prevent us from opening too many pages at a time, so we should open links one by one.
    waitForPreviousPage(page, driver)
}
event.onWillCheckDocumentState.addLast { page, driver ->
    // wait for a special fields to appear on the page
    driver.waitForSelector("body h1[itemprop=name]")
    // close the mask layer, it might be promotions, ads, or something else.
    driver.click(".mask-layer-close-button")
}
// visit the URL and trigger events
session.load(url, options)

示例代码: kotlin,国内镜像。

Web 数据抽取难题可以使用机器学习来解决

使用无监督学习+监督学习进行网页数据提取,我们将网页数据提取的人效提升了1000倍以上,提升了数据提取准确率,降低了人员技能要求,同时也不再需要频繁维护数据提取规则。

Web 数据抽取难题也可以用 X-SQL 来解决

除了使用机器学习手段提取人眼可见数据外,一些人眼不可见数据、页面源代码中的数据、其他流经浏览器的数据,也可以使用 X-SQL 来提取。

现在,我们在大型数据采集项目中,所有提取规则都是用 X-SQL 编写的,数据类型转换、数据清理等工作也由强大的 X-SQL 内联处理。编写 X-SQL 做数据采集项目的体验,就像传统的 CRUD 项目一样简单高效。一个很好的例子是 x-asin.sql(国内镜像),它从每个产品页面中提取 70 多个字段。

select
      dom_first_text(dom, '#productTitle') as title,
      dom_first_text(dom, '#bylineInfo') as brand,
      dom_first_text(dom, '#price tr td:matches(^Price) ~ td, #corePrice_desktop tr td:matches(^Price) ~ td') as price,
      dom_first_text(dom, '#acrCustomerReviewText') as ratings,
      str_first_float(dom_first_text(dom, '#reviewsMedley .AverageCustomerReviews span:contains(out of)'), 0.0) as score
  from load_and_select('https://www.amazon.com/dp/B09V3KXJPB -i 1s -njr 3', 'body');

示例代码: Exotic Amazon’s X-SQLs.

如需了解更多,可以看项目主页,国内镜像 或者 专栏文章 或者在线教程。文章来源地址https://www.toymoban.com/news/detail-814369.html

到了这里,关于下一代网络爬虫:AI agents的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【译】如何建立一家下一代“人工智能”公司

    原作:丹尼尔·塞克斯顿 引言:通过不易觉察的路径 /Gemini翻译/ dall e,尼古拉·特斯拉启发的时光机   如果你回到1915年的美国,当时三分之一的工人是农民,你会告诉一个农民要做些什么呢? 农业正在蓬勃发展。铁路提供了前所未有的市场准入机会。小麦和玉米的价格飙升

    2024年04月08日
    浏览(70)
  • “Copilot”:微软下一代人工智能,重新定义你的工作

    人类是天生具有梦想、创造和创新的本能。我们渴望做能够实现我们目标的工作——写出伟大的小说、做出惊人的发现、建立强大的社区,照顾病人等等。与工作本质的联系是我们内心深处的渴望。但是今天,我们花费太多时间在枯燥乏味的任务上,这些任务耗费了我们的时

    2024年02月13日
    浏览(57)
  • 搭载下一代人工智能技术,微软推出Power Automate流程挖掘产品

    在近日的Microsoft Inspire大会中,微软揭晓了他们即将推出的Power Automate流程挖掘产品,并计划在8月1日正式对外开放。 试用地址:https://powerautomate.microsoft.com/zh-cn/#home-signup 这款产品搭载了下一代人工智能技术,有助于组织轻松洞察业务运行的全景,最大程度地理解流程,利用

    2024年02月17日
    浏览(71)
  • AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(5 - AIGC 未来展望)

    据预测,未来五年10%-30%的图片内容由AI参与生成,考虑到下一代互联网对内容需求的迅速提升,2030年AIGC市场规模将达到1100亿美元 任务分解替代概率模型 (Task Decomposition Replacement Probability Model) :AI替代某个工作主要取 决于以下要素——任务重复性、 标准化程度、 创新和判断

    2024年02月12日
    浏览(58)
  • 下一代Edge AI的应用初探

    如您所见,AI已不再只是科幻电影的经典主题,它正在以惊人的速度被应用到我们日常生活中的方方面面,并从个人关系到工作项目上,逐渐改变着我们的想法或行为。 其中,一个最为典型的领域当属NextGEN Edge AI(下一代边缘人工智能)应用。它能够通过诸如:排名、分类、

    2024年02月21日
    浏览(69)
  • 详解FPGA —— 下一代AI算力芯片(上)

    本文将详细介绍FPGA芯片。 微信搜索关注《Java学研大本营》 CPU为一般计算提供了一套通用的计算指令,要修改或优化应用程序,我们更改代码,但硬件是固定的。然而,这种通用化是以硬件的复杂性为代价的。如果没有复杂的硬件优化,如投机执行,它就会损害性能。但是,

    2024年02月04日
    浏览(49)
  • 下一代计算:嵌入AI的云/雾/边缘/量子计算

    计算系统在过去几十年中推动了计算机科学的发展,现在已成为企业世界的核心,提供基于云计算、雾计算、边缘计算、无服务器计算和量子计算的服务。 现代计算系统解决了现实世界中许多需要低延迟和低响应时间的问题。这有助于全球各地的青年才俊创办初创企业,利用

    2024年02月12日
    浏览(53)
  • 据报道,微软的下一代 Surface 笔记本电脑将是其首款真正的“人工智能 PC”

    明年,微软计划推出 Surface Laptop 6和 Surface Pro 10,这两款设备将提供 Arm 和 Intel 两种处理器选项。不愿意透露姓名的不透露姓名人士透露,这些新设备将引入先进的 人工智能功能 ,包括配备下一代神经处理单元 (NPU)。据悉,基于 Arm 架构的设备将采用高通最新的  Snapdragon

    2024年02月03日
    浏览(80)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包