搜索引擎 笔记

这篇具有很好参考价值的文章主要介绍了搜索引擎 笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 搜索引擎 笔记

1.1. Google 为什么成功

科技行业一直有个原则, 即人们不会愿意改变自己的使用习惯。Ramaswamy 在采访中坦言, “我们面临的最大障碍之一, 确实就是扭转用户的固有习惯。人们忘记了谷歌的成功不仅仅是开发出了更好的产品。为了实现目标, 我们必须做出一系列精准的分发决策。”

据报道, 谷歌每年向苹果支付高达 150 亿美元, 为的就是能在各类苹果设备的 Safari 浏览器中成为默认搜索引擎。谷歌同时也向 Mozilla 支付费用, 借此成为 Firefox 浏览器中的首选搜索引擎。而这笔费用高达每年 4.5 亿美元。谷歌还跟其他设备制造商和浏览器开发商有合作, 甚至跟电信运营商也有类似的交易。据《华尔街日报》报道, 三星曾在 2023 年短暂考虑结束与谷歌的交易, 但由于各种原因而最终放弃, 其中包括"可能对与谷歌间的广泛业务关系产生影响"。

谷歌的真正优势在于旗下的其它产品。Android 是目前全球最受欢迎的移动操作系统, 市场份额约占 78%。Chrome 则是最受欢迎的网络浏览器, 市场占比约 62%。在这两大平台上, 谷歌自然也成为不可撼动的默认搜索引擎。

1.2. 做搜索引擎, 既复杂, 又简单

搜索引擎是种神奇的事物——既复杂无比, 又简单纯粹。

实际上, 搜索引擎所做的就是编译网页数据库(即「搜索索引」), 之后在每次收到查询时浏览该数据库, 从中提取并交付质量最高、相关度最强的一组页面。但这过程中的每一步, 都涉及着巨大的复杂性, 需要做出一连串权衡。而权衡的核心有二: 时间与金钱。

即使创业者能建立一套不断更新的数据库, 囊括互联网上的数千亿个页面, 但光是它产生的存储和带宽成本就足以让地球上任何一家巨头企业破产。这还不包括每天对数据库执行无数次检索的成本。另外, 搜索响应中的每一毫秒都非常重要——谷歌会在结果上方显示每次查询耗费的时间。总而言之, 创业者恐怕没有足够的时间逐个查看整个数据库。

此外, 搜索引擎的构建还要从一个基本哲学问题开始: 什么叫高质量网页? 创业者必须决定哪些分歧是合理的, 而哪些信息属于纯粹的胡说八道, 必须搞清广告占比到多少才不会过度。那些由 AI 编写且充斥着 SEO 垃圾的网站当然不好, 但个人认真撰写、且同样充斥 SEO 垃圾的美食博客则还不错。

一旦完成了上述讨论并设定出明确的边界, 那搜索引擎中就基本确定了需要保留的几千个域名。其中包括 CNN 和 Breitbart 等新闻网站, Reddit、Stack Overflow 和 Twitter 的热门讨论板, 维基百科和 Craigslist 等工具服务, YouTube 和 Amazon 等服务平台, 还有各类最顶级的食谱/体育/购物网络。有时候, 创业者可以跟这些网站洽谈合作, 以结构化方式直接获取数据, 不再单独浏览各个页面。值得一提的是很多大平台都有专门的团队, 有时甚至愿意免费配合。

之后就该放出爬虫了。这些机器人能爬取给定网页上的内容, 之后查找并跟踪页面上的各个链接、索引全部页面内容, 就这样完成链接、索引的查找与跟踪循环。而每次爬虫访问一个页面时, 都会根据之前设定的高质量网页标准对其做评估。被认定为高质量的内容将被下载至某台服务器上, 于是搜索索引开始迅速膨胀。

当然, 爬虫也不是在哪里都受欢迎。爬虫每次打开网页, 都会给内容提供商带来带宽成本。现在想象一下, 一套搜索引擎每秒都会对网站上的各个页面进行加载和保存, 这样的更新成本将很快超出提供商的承受能力。

因此, 大多数网站都设置一个名为 robots.txt 的文件, 用于定义哪些爬虫可以访问其内容、哪些爬虫不行, 以及允许爬虫爬取哪些 URL。从技术上讲, 搜索引擎完全可以不理会 robots.txt 上的规则, 但这是 Web 结构和文化中的一部分。几乎所有网站都愿意接纳谷歌和 Bing, 因为它们带来的可发现性已经超过了带宽成本。也有很多人会阻止特定的服务商, 例如不希望亚马逊爬取并分析他们的购物网站。其他人则制定一揽子规则: 除了谷歌和 Bing 外, 其余爬虫概不接待。

很快, 爬虫就会带回相当广泛的互联网快照。接下来的工作就是针对搜索引擎可能收到的每条查询, 按顺序对全部页面做排名。大家可以按主题对页面做排序, 这样就能划分成更小、更易于搜索的索引, 而不是包罗万象的庞然大物。简单来讲, 就是本地结果与本地结果匹配, 购物与购物匹配, 新闻与新闻匹配。我们需要使用大量机器学习技术来收集特定页面的主题和内容, 同时也离不开人工协助。

此外, 还会引入评分团队, 向他们展示查询和结果, 并要求他们从 0 到 10 为结果的真实性打分。有时候问题很明显, 如果有人搜索「Facebook」, 但响应结果的第一条居然不是 facebook.com, 那肯定不能接受。但大多数情况下, 我们会合并来自大量输入的评分, 并将其馈送到索引和主题模型当中, 之后不断重复这个过程。

到这里, 问题才刚刚解决了一半。我们还得提高所谓"查询理解"能力, 也就是意识到搜索"巨石强森"和搜索"道恩·约翰逊"的人其实是想找同样的信息。最终, 我们将积累起一个庞大的同义词和相似性库, 并据此重写查询以降低搜索难度。而且如谷歌所说, 每天他们的引擎中都有 15%的全新搜索, 所以这场理解人们真实需求和扩充新知识的赛跑将永远没有终点。

一段时间之后, 搜索引擎正式上线了, 开始获得更多人的关注、点击和偏好。这里还有一项黄金标准: 如果用户在点击链接后, 不再立即搜索和点击其他链接, 就代表当前结果的质量令人满意。而另一方面, 用户们的点击量越大, 就越能了解他们真正想要的是什么。

此外, 运行搜索引擎还需要不断在速度、成本和质量三者中取得平衡。比如, 当有人输入"YouTube"并按下回车时, 如果搜索整个数据库会耗费太长时间、造成不必要的带宽和存储成本; 如果保留一个容纳整个互联网的数据库, 不但存储成本高昂, 搜索速度也会太过缓慢; 如果设定只显示网络上最受欢迎的 100 个网站, 就能保证速度和成本, 但会存在内容不全面、质量不可靠的情况。同时, 各个网站本身也在不断变化, 搜索引擎的爬虫和排名系统也要持续跟进。文章来源地址https://www.toymoban.com/news/detail-661189.html

到了这里,关于搜索引擎 笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 搜索引擎有哪些,搜索引擎网站大全

    通过搜索引擎网站搜索,可以帮助我们快速找到自己需要的内容。很多同学只知道百度搜索,不知道还有其他什么搜索引擎网站。小编就来和大家分享搜索引擎网站有哪些,搜索引擎网站大全。 1.国内的搜索引擎网站大全 百度搜索(推荐),使用人数最多,搜索结果最多的中

    2023年04月26日
    浏览(99)
  • 什么是搜索引擎?2023 年搜索引擎如何运作?

    在当今的数字时代,搜索引擎已经成为人们获取信息的主要途径之一。然而,你是否知道搜索引擎是如何工作的,以及它们为什么如此重要? 搜索引擎是一种计算机程序,通过互联网或企业内部网络检索信息。用户输入或短语后,搜索引擎会扫描网络上的网页、文件、

    2024年02月16日
    浏览(40)
  • 如何(正确)使用搜索引擎?使用搜索引擎的高效技巧(例如:百度、谷歌)

              提起这个搜索引擎,我们对它就有三种级别的认识          第一种:完全不知道“搜索引擎”是什么或者是“我只知道浏览器”          第二种:知道搜索引擎,但不知道这玩意还有使用方式!          第三种:知道搜索引擎并知道怎么使用的大量相关知识

    2024年02月04日
    浏览(55)
  • Edge浏览器搜索栏固定为360搜索引擎 || 浏览器地址栏搜索,结果都是360搜索引擎

    搜索引擎的URL被篡改成了360搜索 ,很恶心。 打开 设置 = 隐私、搜索和服务 = 地址栏和搜索 (最下面) 可以看到可以选择 必应 或者 Google 再进入 管理搜索引擎 可以看到必应的URL已经被改成了 http://lx.pub/s?a=3b=%s ,正常应该是 https://www.bing.com/search?q=%s ,%s代表你搜索的内容。

    2024年02月10日
    浏览(45)
  • 电商技术揭秘十:搜索引擎中的搜索引擎广告与付费推广

    相关系列文章 电商技术揭秘一:电商架构设计与核心技术 电商技术揭秘二:电商平台推荐系统的实现与优化 电商技术揭秘三:电商平台的支付与结算系统 电商技术揭秘四:电商平台的物流管理系统 电商技术揭秘五:电商平台的个性化营销与数据分析 电商技术揭秘六:前端

    2024年04月13日
    浏览(54)
  • 深度学习图像搜索算法-图像搜索引擎

    深度学习图像搜索算法-图像搜索引擎 文章目录 ✍🏻作者简介: 机器学习,深度学习,卷积神经网络处理,图像处理 🚀B站项目实战:https://space.bilibili.com/364224477 😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 🤵‍♂代码获取:@个人主页 给定一个

    2024年02月03日
    浏览(51)
  • Google谷歌搜索引擎镜像入口网址大全导航,谷歌搜索引擎镜像站

    当我们需要使用谷歌搜索一些学习资料的时候,就需要借助Google谷歌搜索引擎镜像网站,很多同学不知道有哪些可以使用的谷歌搜索引擎镜像站,下面办公人导航就和大家分享Google谷歌搜索引擎镜像入口网址大全导航。  1.google谷歌搜索引擎镜像站网址 这类谷歌镜像网站界面

    2024年02月11日
    浏览(36)
  • 如何高效实现搜索引擎爬虫进行数据挖掘-搜索引擎爬虫(SERP)集成测试与分享

    身处大数据时代中,我们面对海量的互联网数据,如何自动高效地获取感兴趣的信息并为我们所用是一个非常重要的问题,以下就针对这个重要的搜索引擎爬虫问题来做一个技术分享。 什么是SERP和搜索引擎爬虫:搜索引擎会根据特定的的策略,运用特定的计算机程序搜集互

    2024年02月11日
    浏览(45)
  • 神奇智能搜索引擎:perplexity智能搜索引擎(ChatGPT与Edge合体——联网版chatGPT)

    ChatGPT背后的语言大模型OpenAI GPT 3.5,和微软的必应检索系统整合在一起;同时吸取这二者的长处,弄出“集大成者”Perplexity! Perplexity AI网站介绍 : Perplexity AI是一个会话搜索引擎,​它的目标是解锁知识的力量,​实现信息的发现和共享。​Perplexity AI是世界上第一个融合了

    2023年04月12日
    浏览(50)
  • 搜索引擎ElasticSearch分布式搜索和分析引擎学习,SpringBoot整合ES个人心得

    Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch用于云计算中,能够达到实时搜索,稳定,可靠,

    2024年02月04日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包