微软等开源评估ChatGPT、Phi、Llma等,统一测试平台

这篇具有很好参考价值的文章主要介绍了微软等开源评估ChatGPT、Phi、Llma等,统一测试平台。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

微软亚洲研究院、中国科学院自动化研究所、中国科学技术大学和卡内基梅隆大学联合开源了,用于评估、分析大语言模型的统一测试平台——PromptBench。

Prompt Bench支持目前主流的开源、闭源大语言模型,例如,ChatGPT、GPT-4、Phi、Llma1/2、Gemini、Baichuan、Yi 等。

PromptBench内置了丰富的评估工具,包括提示构建、提示工程、数据集和模型、对抗性提示攻击、性能评测等。用户可以根据实际开发情况灵活配置,非常简单高效。

开源地址:https://github.com/microsoft/promptbench

论文地址:https://arxiv.org/abs/2312.07910

微软等开源评估ChatGPT、Phi、Llma等,统一测试平台,chatgpt

对大型语言模型进行评估、分析是理解其真实输出、减少潜在风险的重要开发环节。

研究人员表示,目前多数大型语言模型对文本提示非常敏感,容易受到对抗性提示攻击,同时易受到数据污染的影响,这给安全和隐私带来了巨大挑战

虽然有很多类似lm-eval-harness的评估框架,但其评估模块和功能较少,无法满足飞速发展的大语言模型领域。

所以,微软等研究人员希望开发一个统一的评估平台,帮助开发者提升测试效率,同时减少大模型的非法内容输出。

PromptBench简单介绍

PromptBench可以从多个维度对大语言模型进行评估,涵盖多个任务、评估协议、对抗性提示攻击和提示工程技术、数据集等。

评估协议是PromptBench的核心模块之一,主要定义了评估大语言模型性能的方法和流程。

微软等开源评估ChatGPT、Phi、Llma等,统一测试平台,chatgpt

PromptBench支持多种评估协议,包括静态评估和动态评估。静态评估是,通过提供预定义的提示来测试大语言模型的性能;

动态评估,则允许在交互过程中动态生成和修改提示。这种灵活性使研究人员能够更全面地评估大语言模型的能力和鲁棒性。

对抗性提示攻击,是评估大语言模型安全性的重要方法之一。PromptBench提供了多种对抗性提示攻击的测试方法,包括,字符级修改、词级替换、句级添加和语义级改写等攻击。有效模拟了提示使用中可能遇到的各类偏差情况,检验了模型的攻击鲁棒性。

数据集是评估大语言模型性能的关键部分。PromptBench提供了20多个公开的评估数据集,涵盖了文本分类、语法纠错、句子相似度判定、自然语言推理、多任务问答、阅读理解、翻译、数学推理、逻辑推理等,可以充分测试大语言模型在不同场景下的表现和能力。

支持哪些大语言模型

PromptBench支持目前市面上主流的开源、闭源大语言模型,包括Flan-T5-large、Dolly系列、Cerebras-13B 、Llama系列、Vicuna 、GPT-NEOX;

Flan-UL2、Phi 、PaLM 2、ChatGPT、GPT-4、Gemini、Mistral、Mixtral、Baichuan、Yi等。

微软等开源评估ChatGPT、Phi、Llma等,统一测试平台,chatgpt

研究人员表示,未来会持续更新对大语言模型的支持,将打造成一个涵盖模型最多、评估功能最全的统一测试平台。

本文素材来源PromptBench论文,如有侵权请联系删除

END文章来源地址https://www.toymoban.com/news/detail-813066.html

到了这里,关于微软等开源评估ChatGPT、Phi、Llma等,统一测试平台的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【软件测试】学习笔记-统一测试数据平台

    这篇文章主要探讨全球大型电商企业中关于准备测试数据的最佳实践,从全球大型电商企业早期的测试数据准备实践谈起,分析这些测试数据准备方法在落地时遇到的问题,以及如何在实践中解决这些问题。其实,这种分析问题、解决问题的思路,也是推动着测试数据准备时

    2024年01月17日
    浏览(34)
  • 微软近日推出了Phi-2,这是一款小型语言模型,但其性能却十分强大

    每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未

    2024年02月04日
    浏览(59)
  • Google DeepMind发布Imagen 2文字到图像生成模型;微软在 HuggingFace 上发布了 Phi-2 的模型

    🦉 AI新闻 🚀 Google DeepMind发布Imagen 2文字到图像生成模型 摘要 :谷歌的Imagen 2是一种先进的文本到图像技术,可以生成与用户提示紧密对齐的高质量、逼真的图像。它通过使用训练数据的自然分布来生成更逼真的图像,而不是采用预先编程的风格。该技术还改善了图像-标题

    2024年02月04日
    浏览(35)
  • 重磅!微软开源Deep Speed Chat,人人拥有ChatGPT!

    4月12日,微软宣布开源了Deep Speed Chat,帮助用户轻松训练类ChatGPT等大语言模型,使得人人都能拥有自己的ChatGPT!(开源地址:https://github.com/microsoft/DeepSpeed)  据悉,Deep Speed Chat是基于微软Deep Speed深度学习优化库开发而成,具备训练、强化推理等功能,还使用了RLHF(人工反

    2024年02月02日
    浏览(36)
  • 【大数据 AI】视觉ChatGPT来了,微软发布,代码已开源

      GitHub - microsoft/visual-chatgpt: VisualChatGPT Visual ChatGPT 将 ChatGPT 和一系列可视化基础模型连接起来,以支持在聊天过程中发送和接收图像。 近年来,大型语言模型(LLM)取得了令人难以置信的进展,尤其是去年 11 月 30 日,OpenAI 重磅推出的聊天对话模型 ChatGPT,短短三个月席卷社

    2024年02月03日
    浏览(46)
  • 特制自己的ChatGPT:多接口统一的轻量级LLM-IFT平台

    ©PaperWeekly 原创 · 作者 |  佀庆一 单位 |  中科院信息工程研究所 研究方向 |  视觉问答 项目简称: Alpaca-CoT(当羊驼遇上思维链) 项目标题: Alpaca-CoT: An Instruction Fine-Tuning Platform with Instruction Data Collection and Unified Large Language Models Interface 项目链接: https://github.com/PhoebusSi

    2024年02月04日
    浏览(30)
  • 微软重磅开源 Visual ChatGPT! 一个月内斩获30K star

    点击上方“Github中文社区”,关注 大家好,我是Huber。 今年由于大环境恶化,为了生活本人这一年在某外企从事某个秘密项目(正经的那种)的研发,所以没有时间(动力)和精力(钱)更新推文,最近项目已经交付完成,这里向大家说声对不起,很开心再一次和大家相见(

    2023年04月22日
    浏览(50)
  • 【AIGC】重磅!微软开源Deep Speed Chat,人人拥有ChatGPT的时代正在到来!

    专注AIGC领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展和 应用 落地,以及国内LLM的发展和市场研究,欢迎关注! 目录 Deep Speed Chat:基于人工反馈机制的强化学习 微软为什么开源Deep Speed Chat

    2024年02月08日
    浏览(37)
  • 微软开源的这个自动化测试神器,我知道的太晚了

    2020 年初,微软发布了一个自动化测试工具——Playwright,不少人称它是小白神器。 Playwright是针对Python语言的纯自动化工具,它可以通过单个API自动执行Chromium,Firefox 和 WebKit 浏览器,连代码都不用写,就能实现自动化功能。 Playwright具有以下功能特性: 任何浏览器 • 任何平

    2024年02月05日
    浏览(45)
  • 突发!谷歌版“ChatGPT”开放测试,直面硬刚微软Bing

    谷歌在 2 月份发布了其 Bard 对话式 AI 后,一直在努力改进聊天机器人的回答,因为它在 Twitter 上首次亮相时就传播了错误信息。最近该公司将生成式 AI 功能添加到几乎所有服务中,而对 Bard 聊天机器人的访问仍然是少数人的专属。 3月21日深夜,谷歌博客官方宣布,向公众开

    2024年02月02日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包