嘟嘟社区

AI模型训练,求高人指点!拜个师傅


前提说明:想给公司合作商的内部培训系统做一个AI知识库,知识库里大概有几百个文档+表格图片等。我根据网上的教程加上自己琢磨,跌跌撞撞部署好了Dify,但是有几个地方比较迷糊。用了一台新加坡的阿里云小鸡(2核4g)部署的。

知识库维护,我有一个excel表格,大概3M左右,里面有几千条相关的信息。怎么样才能传到知识库并且能每一行逐条索引成功。现在失败N次了
还有几本书,我也想丢上去索引。
但是目前用百度的Embedding-V1,基本上经常卡死,索引不成功。只能处理一些小文档。
其他知识库零零散散的也能索引完成,但是失败率很高,是不是必须要一条一条的录进去知识库片段才行?

目前主要知识库算是完成了,聊天助手模式,模型选择的是gpt4o。回答的内容马马虎虎吧,很多信息都不能完全从知识库检索。还没办**式用。

还有一些向量检索,rerank模型,TopK,存在惩罚,温度,TopP 什么的,根本不太懂怎么设置和训练
求高人能给一些指导和答疑,能通俗易懂一些的,最好能长期,可以给学费~想拜个师傅学习一下。

这个需求应该不用训练吧,搞个RAG就够了。
Dify没用过,用fastgpt搞了一个,操作起来挺方便的。
rerank模型可以不用,TopK,存在惩罚,温度,TopP这些要求不高的话可以直接用默认。
embedding模型推荐部个bge或者m3e,fastgpt文档里面都有教程。

GodZ222 发表于 2024-8-28 13:10
这个需求应该不用训练吧,搞个RAG就够了。
Dify没用过,用fastgpt搞了一个,操作起来挺方便的。
rerank模型 …

现在csv表格索引不成功,表格也不算大 就5000条数据,不知道是不是格式问题。换了几个大模型,阿里百度gpt的都不太ok,求大佬指点

tubos 发表于 2024-8-28 13:58
现在csv表格索引不成功,表格也不算大 就5000条数据,不知道是不是格式问题。换了几个大模型,阿里百度gp …

fastgpt我也是用这个感觉好用。

本帖最后由 GodZ222 于 2024-8-28 14:35 编辑

刚刚上Dify官网试了一下知识库功能,应该是你的数据格式问题。它的文本分段与清洗里面的自动分段与清洗,没法识别excel表格里面单元格内包含换行的情况,就导致了整个表格分段为0.

数据弄成这样就可以了,单元格内没有换行

difyQ&A分段数据集格式应该是怎样的?
https://github.com/langgenius/dify/issues/5560

tubos 发表于 2024-8-28 13:58
现在csv表格索引不成功,表格也不算大 就5000条数据,不知道是不是格式问题。换了几个大模型,阿里百度gp …

索引也跟embedding的模型有关,也可以看看百度的Embedding-V1调用情况