我开发了一个温柔的智能客服聊天机器人ChatBot，并回答为什么不是ChatGPT（附思路和代码）

这篇具有很好参考价值的文章主要介绍了我开发了一个温柔的智能客服聊天机器人ChatBot，并回答为什么不是ChatGPT（附思路和代码）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

若问2023年科技领域什么最火，那当然是ChatGPT了，这么智能的对话机器人，给人带来无限的想象，围绕着ChatpGPT的各种热点和创意层出不穷。作为一个多年从事编程开发的程序员，我对于这么大的一个热点也很兴奋，每天琢磨着围绕ChatGPT干点啥。

当然还是先要认清现实，心再高也不能想着去开发一个ChatGPT一样的东西。这个投入太大，难度太高，成果太不可预料，团队、成本、技术、模型、算力、数据、安全、法规等等，每一项对于中小型企业都是重大挑战。国内也只有几个IT巨头能玩，能玩到什么程度不知道，就像某度啊，纯属瞎凑热闹。那么多企业非得去凑热闹，非的要去沾个亲，这个是无可厚非的，不管是博人眼球，还为了是抬高身价，作用还是立竿见影的，凑热闹就凑吧。

思量一番，ChatGPT开发不出来，开发一个它的近亲ChatBot还是没有多大难度的。于是亲自考察了一下公司线上客服的聊天内容，大致如下：

问：你好
答：您好
问：你们有xxx产品吗
答：有啊
问：多少钱
答：您留个电话吧，打给您
问：怎么联系你们
答：我们电话138...
...

再细细分析一下近年来的客服聊天记录，竟然大部分对话都相似，相同的问题和答复，时刻都在重复上演！我的天啊，这也太程式化了吧，让我们客服天天干这种事请也太浪费资源了！不行，我要改变这种情形！

问一下客服们，之前用过智能客服对话机器人吗？她们说是用过啊，用过阿某云的、华某云的，不太好用，经常是答非所问、似是而非，很少获客。那就定了，我要给你们开发一个好用的Chatbot智能客服，彻底解放生产力！

大话说出来了，就只有去干了。经过两周的努力，终于实现了一个线上智能客服系统。虽然不是太智能，还算温柔可人，能回答常见的客户问题，比如：

你好
你好，我在呢
你在哪
我在北京啊
你贵姓
我叫云云啊，你呢？
发个产品报价吧
报价你还是打电话问吧
电话多少
电话是 136xxxxxxxx

哈哈，跟我们客服回答的有点像啊，有兴趣可以跟她聊聊： http://v.ruiboyun.cn/chat/

我建议您先不要急着去跟这个机器人聊天，她并不是很聪明，还是希望您继续往下看。

技术选型

理想很丰满，现实须努力，为难于易，为大于细，那就一步一步的来吧。

技术架构

终端类型：浏览器，客户通过浏览器访问公司网站和浏览公司产品，聊天对话的场所就是浏览器中。

通信协议：Websocket，最适合进行双向交互，低延迟，高效率，没有更好的选择了。

后端框架：Java、PHP、Nodejs，好像都可以，但若要是做即时通信，前端面向浏览器，那Nodejs应该是不二之选。为啥？前后端用一种语言，前后端可以共用代码，前后端工程师可以复用，配合起来就像左手拉右手，你说香不香。使用Nodejs，就可以使用Socket.IO来进行聊天通信，那就更简单了。当然还有别的理由，往后看。

技术选型确定后，后面的工作都是基于这个技术框架来开展，我就不再做解释。

我开发了一个温柔的智能客服聊天机器人ChatBot，并回答为什么不是ChatGPT（附思路和代码）

全文搜索引擎(full-text search)

做客服型Chatbot，全文搜索引擎是必须的，大量的聊天语料包准备好后，需要有高效灵活的搜索引擎来查找对应的内容。

可用的全文搜索引擎系统很多，最终我把选择范围缩小到如下两个：

1）RediSearch

2）FlexSearch

RediSearch是Redis的一个插件模块，用于实现全文搜索，具有开源、高效、多字段检索、精确短语匹配、搜索结果聚集等特点。

参考网址：https://redis.io/docs/stack/search/

FlexSearch是一个Nodejs模块，具有开源、轻量、纯JS、零依赖、内存内索引等特点。

参考网址：https://github.com/nextapps-de/flexsearch

仔细对比两个产品，RediSearch明显具有成熟、灵活、参考资源多等优势，如果要做商用产品或长远打算，那就应该选择RediSearch。

再看FlexSearch的介绍和API接口，除了参考文档少的可怜、成熟案例少之外，好像也没有什么大的不足，也能满足我的要求。更有吸引力的是轻量、JS源码、有了问题可以追根溯源的去修改，这恰恰符合我的脾气。

那就选择FlexSearch吧，虽然我选择FlexSearch，并不代表它是最好的，如果你要做更高级的商用系统，我还是建议你用RediSearch。

中文分词(tokenization&segmentation)

使用全文搜索引擎，一个重要的工作就是分词。索引过程是先对原始文本进行分词，然后对分词结果索引；搜索过程是先对问句进行分词，在使用分词结果去查询。

我开发了一个温柔的智能客服聊天机器人ChatBot，并回答为什么不是ChatGPT（附思路和代码）

中文分词相对于拉丁语等其他语言的分词有很大的不同，拉丁语使用空格、标点符号作为分词标记，每个单词具有明确意义，因此分词过程要简单的多。

而中文分词则要复杂抽象一些，每个独立汉字放到不同的词语中意义就不同，若以每个汉字作为分词结果，想要在海量的全文中搜索你期望的结果是不可预期的，干扰噪声会完全淹没你的期望结果。

中文分词需要向后扫描要处理的文本序列，将单字、多字组合与字典中的词语（或你自己预定义的词语、术语）来对比，以此确定分词位置和分词结果。

于是开始找中文分词器，还好，我们要选择的两个全文搜索系统都有可用的中文分词器。

RediSearch使用了Friso库进行中文分词，Friso 是使用 c 语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入其他程序中。到Github浏览了一下这个库，发现相当不错！

参考网址：https://github.com/lionsoul2014/friso

FlexSearch则要更加灵活，可以自己选择好用的中文分词库。上述Friso之封装了了php5, php7, ocaml, lua的插件，并没有封装Nodejs包，若要使用需要自己封装，这个可以参考Nodejs的N-API或Node-Addon-API。对于我目前的开发项目，当然还用不着再去将Friso封装成Nodejs插件，这个有点走弯路了。在Nodejs家族里只要找一款中文分词库，那应该是很容易的，果不其然，github搜一下就有很多选择。

我开发了一个温柔的智能客服聊天机器人ChatBot，并回答为什么不是ChatGPT（附思路和代码）

nodejieba星最多，拿来测试一下，感觉分词效果还可以，就用它吧。

文档结构

技术选型做好之后，开始设计聊天语料的文档结构。我们把每一轮聊天互动（一问一答）的内容定义为一个文档，使用json对象来描述。文档结构定义如下：

{
  id:1,										//文档编号，用于唯一标记一个文档
  tag:"business",         //标签,用于将语料进行分组归类
  query:"你好",           //问句
  answer:"你好，有何吩咐？"//答句
}

所有文档保存在数组中：

[
  {
    id:1,										//文档编号，用于唯一标记一个文档
    tag:"business",         //标签,用于将语料进行分组归类
    query:"你好",           //问句
    answer:"你好，有何吩咐？"//答句
	},
  {
    id:2,										//文档编号，用于唯一标记一个文档
    tag:"business",         //标签,用于将语料进行分组归类
    query:"你贵姓",          //问句
    answer:"我叫云云"       //答句
	}
]

文档的query属性会交给全文搜索引擎进行索引，搜索过程就是搜索匹配的问句的过程，搜索到匹配问句后，将answer内容反馈给提问方。

对于海量的语料，文档问句词语的重复会是常见的，一个问句可能会返回多个结果，因此需要有手段选择最佳匹配，尽量让答复接近提问者的期望。这是一个较为复杂的问题，后面会有进一步说明。

实现细节

技术选型做好了，文档结构也设计好了，下面就是编码实现了，好激动啊。前一周参考了那么多技术，论证也比较充分了，所以我计划再花1周时间来开发实现。

后端服务

Nodejs+socketio，主要实现即时文本通信，还需要实现一些其他WebAPI接口，这个对于熟悉Nodejs的工程师是小菜一碟。

主逻辑代码app.js：

const chatter= require('./chatter');
const loader = require("./searcher/loader");
var express  = require('express');
var app   = express();
var http  = require('http');

//http + socketio 
var server = http.createServer(app);
var io = require('socket.io')(server);

const serverPort = 3000;
server.listen(serverPort, function(){
  console.log("接口服务已启动，端口：",serverPort);
});

/**
 * 消息结构体  答句时code非0时表示没有对应答案，问句时省略
 * {
 *    code:0,
 *    msg:"hello"
 * }
 */

//加载语料
loader.loadall(chatter);

io.on("connection", (socket) => {
  socket.emit("message", {msg:"你好"});

  // receive a message from the client
  socket.on("message", (data,callback) => {
    let msg = data.msg;
    /**
     * 问句 交给聊天机器人处理，返回 答句
     */
    let response_msg = chatter.chat(msg);
    let response_data = {
      code:response_msg?0:1,
      msg:response_msg
    };
    callback(response_data);
  });
});

下面就是聊天机器人的核心逻辑了。实现一个全文搜索引擎封装文件 chatter.js

//搜索引擎
const { Index, Document, Worker } = require("flexsearch");
//分词器
var nodejieba = require("nodejieba");

const regex = /[\x00-\x7F]+/g;
function encode(str) {
    str = ("" + str).replace(regex, "");
    let len = str.length;
    if (len < 0) return [];
    if (len == 1) return [str];
    let arr = nodejieba.cut(str);
    return arr;
}

const limit = 5;   //搜索结果最多返回数

const documents = [];   //存储所有文档
var id = 0;    //id递增器

//创建全文索引器，具体参见flexsearch用法
const options = {
    preset: "default",
    tokenize: "strict",
    language: "zh",
    encode: encode,            //引入分词器
    bool: "or",
    document: {
        id: "id",
        tag: "tag",
        index: "q"
    }
};
const index = new Document(options);

/**
 * 添加语料接口
 */
function add(tag, q, a) {
    id++;
    documents[id] = { id: id, tag: tag, q: q, a: a };
    return index.add({ id: id, tag: tag, q: q });
}

/**
 * 查找
 * @param {string} text 
 * @param {string} tag 
 */
function search(text, tag) {
    let opt = {
        index: "q",
        limit: limit,
    };
    if (tag) opt.tag = tag;
    return index.search(text, opt);
}

//获取文档
function get(id) {
    return documents[id];
}

function chat(msg) {
    let result = search(msg, tag);
    if (result.length > 0) {
        let ids = result[0].result;
        let id  = ids[0];
        let doc = get(id);
        return doc.a;
    } else {
        return null;
    }
}

module.exports = { add, get, chat }

可以看到，在这个module中实现了较多的内容，包括创建全文索引系统、创建分词器，以及添加语料接口、查询接口、文档获取接口等。

最终能力的输出通过chat接口实现。看chat函数代码，原理简单，根据问句检索答句，如果有多条，则返回第一条。

语料的加载，在app.js通过实现一个loader来实现的：

//加载语料
loader.loadall(chatter);

loader的任务是将语料库加载到内存中，然后逐条传递给全文索引系统进行索引。

前端页面

前端页面找我们前端美女实现，设计一个聊天界面那是分分钟的事情了，机器人的回答有一个汽包等待动画，就像ChatGPT那样，那是机器人在检索数据。

我开发了一个温柔的智能客服聊天机器人ChatBot，并回答为什么不是ChatGPT（附思路和代码）

前端代码，通信部分大致是这样的：

import { io } from "socket.io-client";

const socket = io("ws://localhost:3000");

// send a message to the server
socket.emit("message",{msg:"你好啊"},(data)=>{
  if(data.code==0){
    //渲染聊天数据
  }
});

效果提升

人任何时候都不能高估自己啊，要时刻提醒自己爬得高摔得重。通过几天的努力，我的Chatbot已经可以给你聊条对话了，可是效果如何呢，评测一下大致如下：

你好
你好
你在哪里
我在北京
上海在哪里
我在北京
科灵顿在哪里
我在北京

简直是无聊，很多问题的答复落在要给答案上！

其实这是预料之中的事情，为啥，一是因为语料库内容有限，二是检索结果没有经过任何优化。Flexsearch对多关键字的检索（multi-search）打分，偏离的离谱，只能自己去优化。既然是开源的，那就可以优化，或者变着法子使用你的优点，绕开你的缺点。

优化一，找最佳匹配结果

如果查到多个记录，那就看看哪个匹配度最高，怎么计算匹配度高低呢？用了与i个简单的方法，那就是问句中的所有分词在哪个答案里出现的次数最多，就选则那个答案。

于是对查询过程进行优化：

1）搜索前主动分词、去重、排除干扰字词

2）搜索结果对比，寻找出现频次最多的结果

于是，在chatter中实现如下搜索接口：

/**
 * 复杂搜索入口，输入一个整句，这里进行分词、去重、搜索、合并
 * 同步函数
 * @param {string} text 
 * @param {string} tag 
 * @returns 
 */
function complexSearch(text,tag){
    let words = encoder.encode2(text);
    let arrIds= [];
    let keys  = [];

    if(!words ||words.length==0){
        return null;
    }

    if(words.length>keyLimit){
        //去掉1字词
        words.forEach(element => {
            if(element.length>1){
                keys.push(element);
            }
        });
    }else{
        keys = words;
    }
   
    //限制搜索词个数
    if(keys.length>keyLimit){
        keys = keys.slice(0,keyLimit);
    }

    //多次搜索，不使用flexsearch的multi-search
    keys.forEach(key=>{
        let result = search(key,tag);
        if(result.length>0){
            let ids = result[0].result;
            arrIds.push(ids);
        }
    });
    
    //取最优结果
    let result = null;
    if(arrIds.length==1){
        result = arrIds[0];
    }else if(arrIds.length>1){
        result = arrUtils.mixmix(arrIds);
    }

    return result;
}

优化后，测试一下，果然准确度大幅攀升，基本上答复符合预期。

优化二，优化商务语料包，定义自有词库

这一步也很重要，商务语料包是用来回答客户问题的，尽量要简洁、通俗（符合大众问句习惯）、去除干扰词。

例如，下面问句，显然第二句更好些：

你们公司的产品资料给我发一份吧
产品资料发一份

然后就是定义词库，把客户常用词、公司的产品和术语做成一个词典给分词器，让按照自定义词典分词，这样检索命中率就会更好。

优化三，上下文相关搜索

上下文相关搜索是把相关的内容放置在更优先的反馈结果里，这样智能机器人返回的结果就更像真人的聊天内容，想想看，如果一次聊天对话能够仅仅围绕相同或相近的话题，是不是更有趣。

我开发了一个温柔的智能客服聊天机器人ChatBot，并回答为什么不是ChatGPT（附思路和代码）

语料库包

语料库里放着所有的问句和答句，如果要让chatbot更加博学和聪明，就要不断丰富你的语料库。语料库的答句风格也就是chatbot的风格，她可以是个温柔的助理，也可以是个野蛮的匹夫，这些取决于你的语料内容。

语料库我把它分成两个部分，用tag进行标注。一个是专用商务语料包，里面涵盖了各类客户常见问题和答案，这部分由我峨嵋你公司的商务人员负责提供和优化，并且不断丰富。一个是闲聊语料包，用于与客户闲聊，应对一些商务问题之外的问题，这个可以从网上搜，也可以通过商业渠道获取。

最终，我们编辑了1000条商务语料，并从网上找了100万条闲聊语料。100万条多吗，其实不多，全文搜索引擎几个毫秒就可以索索一边，不用担心效率问题。

最后的问题，为什么不是ChatGPT

前面已经说过了，研发类ChatGPT系统，需要的是人才、投入和海量的语料/资料，以及大量的语料清洗校正工作，所以一般的企业炒炒概念也就算了，这个艰巨的任务还是留给我们的科技巨头吧。

ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具，是全球技术精英经过多年技术积累，花费数十亿美刀研发出的东西，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。ChatGPT使用了Transformer神经网络架构，这是一种用于处理序列数据的模型，拥有语言理解和文本生成能力，尤其是它会通过连接大量的语料库来训练模型，这些语料库包含了真实世界中的对话，使得ChatGPT具备上知天文下知地理，还能根据聊天的上下文进行互动的能力，做到与真正人类几乎无异的聊天场景进行交流。

ChatGPT受到关注的重要原因是引入新技术RLHF (Reinforcement Learning with Human Feedback，即基于人类反馈的强化学习)。RLHF 解决了生成模型的一个核心问题，即如何让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致。ChatGPT是AIGC（AI- Generated Content，人工智能生成内容）技术进展的成果。

抛开算法、算力的技术壁垒和投入，我们单从语料说起，ChatGPT使用的语料是数百亿条，除了聊天语料，还有海量的新闻资讯、天文地理、音乐绘画、财经政治等等书籍资料，也包括我们中文的大部分历史文集、诗词歌赋等。

传统的Chatbot不具备、或者具备有限的智能，主要任务还是搜索和回答，再进一步就是关联上下文环境的互动聊天，以及可插入任务中间件的互动聊天，譬如问天气、问路况、问航班、问行情、电器设备控制、行业问题答疑等等，都在传统聊天机器人的范畴之内。而ChatGPT，则是具有了学习、模仿、关联、归纳总结、创造等能力。

好了，聊到这里也算结束了，我的Chatbot还有很多地方需要优化提升，希望您给出宝贵意见哦，您现在可以给她聊几句了：http://v.ruiboyun.cn/chat/

这个机器人脑路有限，多多包涵 ~:)文章来源地址https://www.toymoban.com/news/detail-419739.html

到了这里，关于我开发了一个温柔的智能客服聊天机器人ChatBot，并回答为什么不是ChatGPT（附思路和代码）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！