分享
  • 收藏
  • 举报
    X
    三种短文本相似性算法对比研究
    459
    6

    一种是基于线性空间最长公共子序列短文本相似性的算法,自然语言的表达的顺序对计算结果影响有时会比较大,甚至一个天下一个地下;

    一种是基于简易分词的余弦相似性算法,自然表达的顺序对计算结果无影响;

    一种是基于百度自然语言接口的短文本相似性算法,自然表达的顺序对计算结果有影响,但基本偏差不大。

    直接上图,说明下,第一个数字为线性空间最长公共子序列的算法结果,第二个结果为余弦相似性算法结果,第三个是百度接口的算法结果。



    ”一车装多少棵树“与“多少棵树装一车”这样的表述表达的意思应该一样,但基于最长公共子序列的算法偏差相当大,百度与余弦定理在这个案例中胜出,高于余弦10个百分点。



    将线性最长公共子序列算法、余弦定理相似度用于公众号关键词的回复查询,截图如下,(因受token跨域限制,加上本人技术太菜,暂没实现百度自然语言接口用到公众号中,群聊关键字已对接)

    上述这个问题的三种算法取值结果如图






    到这里看,各有优劣,但好像百度更胜在短文本的相似性判断上,更加稳定准确,接下来再看关于发票的这个

    差一个字的情况,余弦的结果是百分之八十,而百度自然语言才百分之七十七,现在我也不敢断言到底是哪个好了



    牛B一下,群聊关键字使用百度自然语言短文本相似度的接口算法,实现了设置匹配区间值后,随机推送符合区间值的3条 答案,只是换行\n,在群聊窗口未起效果,所以一行展示了





    补记:早在一个月前发布的这个 https://x1.php168.com/bbs/show-25687.html  ,就是基于线性空间最长公共子序列的短文本相似性算法,后来在实际训练过程中,发现匹配度不灵活,才有了后来的百度自然语言相似度使用研究,百度自然语言短文本相似度成功后,发现用到公众号里不行,百度技术给出可能是跨域限制,因为百度token不接受跨域调用,最后还没结果


    等不起百度啦,自己搞余弦相似度判断使用吧,

    4
    赏礼
    赏钱
    收藏
    点击回复
        全部留言
    • 6
    • wj168 普通粉丝 消费:0元 2022-08-23 08:18 08:18
      其他手机
      6楼
      需要依赖第三方吗?
      银杏114在线 消费:3609.79元 华为 2022-08-23 08:19
        
      银杏114在线 消费:3609.79元 2022-08-23 17:38
      群聊关键词回复,调用的百度自然语言接口,使用的是它的短文本相似性,通过获取百度token值传参判断,但同样的程序,用在公众号关键词回复设置时,报错,于是自己安装了分词库,程序使用的余弦定理的相似度算法来判断的,这个与百度的短文本相似度大差不差。
      一句话,如果不使用百度的接口,或者使用也不算的,实现这个不需要依赖第三方,
    0 赏钱 赏礼回复
    • wr1688 风格开发者 消费:2593.25元 2022-08-22 15:19 15:19
      华为
      6楼
      关键词的回复解决了吗
      银杏114在线 消费:3609.79元 华为 2022-08-22 15:24
      群聊自动回复串发的问题仍未解决,客服离线自动启用群聊关键字回复仍未解决。
    0 赏钱 赏礼回复
    • 袁冬 普通粉丝 消费:160.85元 2022-08-22 06:22 06:22
      华为
      6楼
      厉害
    0 赏钱 赏礼回复
    更多回复
        你可能感兴趣的主题
    恢复多功能编辑器
  • 3 1
  • 推荐内容
    扫一扫访问手机版
    请选择要切换的马甲:

     
    网页即时交流
    QQ咨询
    咨询热线
    020-28998648