前提说明:想给公司合作商的内部培训系统做一个AI知识库,知识库里大概有几百个文档+表格图片等。我根据网上的教程加上自己琢磨,跌跌撞撞部署好了Dify,但是有几个地方比较迷糊。用了一台新加坡的阿里云小鸡(2核4g)部署的。
知识库维护,我有一个excel表格,大概3M左右,里面有几千条相关的信息。怎么样才能传到知识库并且能每一行逐条索引成功。现在失败N次了 目前主要知识库算是完成了,聊天助手模式,模型选择的是gpt4o。回答的内容马马虎虎吧,很多信息都不能完全从知识库检索。还没办**式用。 还有一些向量检索,rerank模型,TopK,存在惩罚,温度,TopP 什么的,根本不太懂怎么设置和训练 |
这个需求应该不用训练吧,搞个RAG就够了。 Dify没用过,用fastgpt搞了一个,操作起来挺方便的。 rerank模型可以不用,TopK,存在惩罚,温度,TopP这些要求不高的话可以直接用默认。 embedding模型推荐部个bge或者m3e,fastgpt文档里面都有教程。 |
现在csv表格索引不成功,表格也不算大 就5000条数据,不知道是不是格式问题。换了几个大模型,阿里百度gpt的都不太ok,求大佬指点 |
fastgpt我也是用这个感觉好用。 |
本帖最后由 GodZ222 于 2024-8-28 14:35 编辑
刚刚上Dify官网试了一下知识库功能,应该是你的数据格式问题。它的文本分段与清洗里面的自动分段与清洗,没法识别excel表格里面单元格内包含换行的情况,就导致了整个表格分段为0. difyQ&A分段数据集格式应该是怎样的? |
索引也跟embedding的模型有关,也可以看看百度的Embedding-V1调用情况 |