chatgpt接口开发笔记3: 语音识别接口

10月前作者：raokun 分类：Toy博客阅读(37) 违法举报

这篇具有很好参考价值的文章主要介绍了chatgpt接口开发笔记3: 语音识别接口。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

chatgpt接口开发笔记3: 语音识别接口

1.文本转语音

1、了解接口参数

接口地址：

POST https://api.openai.com/v1/audio/speech

下面是接口文档描述内容：

参数：

{
"model": "tts-1",
"input": "你好，我是饶坤，我是terramours gpt的开发者",
"voice": "alloy"
}

model 模型
input 需要转换的文字
voice 语音风格

2.postman测试

3.结果：

2.语音转文本

1、了解接口参数

接口地址：

POST  https://api.openai.com/v1/audio/transcriptions

文档：

参数

curl https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="whisper-1"

file 需要解析的语言文件
model 模型类型

2.postman测试

3.结果：

{
    "text": "你好,我是饒坤,我是 Terramers GPT 的開發者。"
}

SDK开发

对应的语音接口我会加入到SDK中，使用C#开发者可以在nuget中搜索AllInAI.Sharp.API.

SDK为开源项目，代码地址：https://github.com/raokun/AllInAI.Sharp.API

首先在项目中安装sdk

Install-Package AllInAI.Sharp.API

1.Speech

1.OpenAI

public async Task OpenAISpeechTest() {
    try {
        AuthOption authOption = new AuthOption() { Key = "sk-**", BaseUrl = "https://api.openai.com", AIType = Enums.AITypeEnum.OpenAi };
        AudioService audioService = new AudioService(authOption);
        AudioSpeechReq req = new AudioSpeechReq() { Model = "tts-1", Input = "你好，我是饶坤，我是AllInAI.Sharp.API的开发者", Voice = "alloy" };
        var res = await audioService.Speech<Stream>(req);
        if(res.Data != null) {
            var filePath = $"D:/test/{Guid.NewGuid()}.mp3";
            using (FileStream fileStream = File.Create(filePath)) {
                res.Data.CopyTo(fileStream);
            }
        }
    }
    catch (Exception e) {
        Console.WriteLine(e.Message);
    }
}

1.Transcriptions

1.OpenAI

public async Task OpenAITranscriptionsTest() {
    try {
        AuthOption authOption = new AuthOption() { Key = "sk-**", BaseUrl = "https://api.openai.com", AIType = Enums.AITypeEnum.OpenAi };
        // 读取音频文件的二进制内容
        byte[] audioData = File.ReadAllBytes("C:/Users/Administrator/Desktop/response.mp3");
        AudioService audioService = new AudioService(authOption) ;
        AudioCreateTranscriptionReq req = new AudioCreateTranscriptionReq() { File=audioData,FileName= "response.mp3",Model= "whisper-1" ,Language="zh"};
        AudioTranscriptionRes res = await audioService.Transcriptions(req);
    }
    catch (Exception e) {
        Console.WriteLine(e.Message);
    }
}

阅读如遇样式问题，请前往个人博客浏览： [https://www.raokun.top](chatgpt接口开发笔记3: 语音识别接口)

拥抱ChatGPT：https://first.terramours.site

SDK应用开源项目:https://github.com/TerraMours/TerraMours_Gpt_Web文章来源地址https://www.toymoban.com/news/detail-749288.html

到了这里，关于chatgpt接口开发笔记3: 语音识别接口的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

chatgpt是否可以处理语音识别？

chatgpt可以处理语音识别。它可以通过语音识别技术将语音转换为文本，并将其作为输入来生成回复。这意味着，用户可以通过语音输入与chatgpt进行交互，从而更加方便和自然地进行沟通。语音识别技术是一种将语音信号转换为文本的技术。它可以通过声音的频率、时长和强

2024年02月09日
浏览(46)
树莓派Linux实现ChatGPT语音交互（语音识别，TTS）

ChatGPT使用想必大家都不陌生，进入官网，注册账号即可开始正式的对话聊天，可是如何使用ChatGPT API,且在Linux环境下进行语音交互呢？碰巧在今年暑期参加物联网设计竞赛有用到这项功能，今天就来教下大家详细步骤。如何获取一个ChatGPT账号相比对大家来说不是一件难事，

2024年02月08日
浏览(43)
ChatGPT在语音识别技术领域的应用

近年来，随着深度学习技术的飞速发展，语音识别技术已经成为了人工智能领域中备受关注的重要领域之一。在语音识别技术的应用中，ChatGPT作为一款先进的语言模型，可以发挥其强大的文本生成和自然语言处理能力，为语音识别技术的发展注入新的活力。本文将从ChatG

2024年02月03日
浏览(67)
Unity+chatgpt+webgl实现声音录制+语音识别

AI二次元女友这个项目持续更新，在window端的语音识别和语音合成的功能，在上一篇博文里已经详细说明了微软Azure语音服务的代码实现。也是为了实现一次代码，多端复用这样的诉求，所以全部的代码实现都改成了web api的方式。然而在实测发布到webgl的时候，就发现

2024年02月16日
浏览(46)
顶顶通电话机器人接口对接开源ASR(语音识别)

目前大部分用户使用的都是在线ASR按照分钟或者按次付费，之前开源ASR效果太差不具备商用的条件，随着阿里达摩院发布了大量开源数据集或者海量工业数据训练的模型，识别效果已经和商用ASR差距非常小，完全具备了很多场景代替商用ASR的能力。顶顶通也全系列产品进行

2024年02月08日
浏览(47)
chatGPT的耳朵！OpenAI的开源语音识别AI：Whisper ！

语音识别是通用人工智能的重要一环！可以说是AI的耳朵！它可以让机器理解人类的语音，并将其转换为文本或其他形式的输出。语音识别的应用场景非常广泛，比如智能助理、语音搜索、语音翻译、语音输入等等。然而，语音识别也面临着很多挑战，比如不同的语言、口

2024年03月14日
浏览(51)
语音识别学习笔记

目录开源的语音识别项目端到端的多说话人语音识别序列化训练方法简介新一代 Kaldi: Two-pass 实时语音识别有哪些语音识别的开源项目？ - 知乎端到端的多说话人语音识别序列化训练方法简介 - 知乎 2.2 基于排列不变性训练Permutation Invariant Training (PIT)的多说话人语音识别

2024年02月05日
浏览(34)
Android开发中实时语音开发之华为实时语音识别

上一篇(Android开发中，百度语音集成之一)简单的讲解了百度语音的识别，今天讲解一个华为的语音识别: 最后附上全部的代码以供参考：

2024年01月18日
浏览(41)
ChatGPT迎来史诗级iPhone时刻！IOS版ChatGPT首发体验！免费、响应快、新增语音识别

OpenAI昨晚正式发布了ChatGPT的iOS版App，官方版ChatGPT正式杀入移动手机端（各类山寨App恐将失业[dog]）。现在你已经可以在App Store中下载该应用了，这款App的名称为“OpenAI ChatGPT”。我第一时间也下载体验了，让我们赶快来看看它的界面长啥样：不过目前iOS版ChatGPT只在

2024年02月05日
浏览(93)
[chatgpt+Azure]unity AI二次元小女友之使用微软Azure服务实现RestfulApi-＞语音识别+语音合成

如题所述，这个小项目是在unity引擎端，使用了chatgpt+微软azure的一个AI二次元女友对话的项目，实现原理也比较简单，即在unity端实现AI二次元女友的交互界面，接入chatgpt-3.5-turbo的api接口，借助chatgpt的自然语言生成能力，作为这个项目的聊天引擎。聊天功能也比较

2024年02月04日
浏览(49)