title: 首席情报官(Wiseflow)
tags: [AI, 爬虫, github, 开源]
date: 2024-07-01 17:31:41
date modified: 2024-07-01 17:32:34首席情报官(Wiseflow)
首席情报官(Wiseflow)是一个敏捷的信息挖掘工具,可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库。
SiliconFlow官宣Qwen2-7B-Instruct、glm-4-9b-chat等数款LLM在线推理服务即日起免费,这意味着您可以“零成本”使用首席情报官进行信息挖掘啦!
我们缺的其实不是信息,我们需要的是从海量信息中过滤噪音,从而让有价值的信息显露出来!
看看首席情报官是如何帮您节省时间,过滤无关信息,并整理关注要点的吧!
🚀 原生 LLM 应用
我们精心选择了最适合的 7B~9B 开源模型,最大化降低使用成本,且利于数据敏感用户随时完全切换至本地部署。
🌱 轻量化设计
不用任何向量模型,系统开销很小,无需 GPU,适合任何硬件环境。
🗃️ 智能信息提取和分类
从各种信息源中自动提取信息,并根据用户关注点进行标签化和分类管理。
😄 WiseFlow尤其擅长从微信公众号文章中提取信息,为此我们配置了mp article专属解析器!
🌍 可以被整合至任意Agent项目
可以作为任意 Agent 项目的动态知识库,无需了解wiseflow的代码,只需要与数据库进行读取操作即可!
📦 流行的 Pocketbase 数据库
数据库和界面使用 PocketBase,除了 Web 界面外,目前已有 Go/Javascript/Python 等语言的SDK。
| 特点 | 首席情报官(Wiseflow) | Crawler / Scraper | LLM-Agent |
|---|---|---|---|
| 主要解决的问题 | 数据处理(筛选、提炼、贴标签) | 原始数据获取 | 下游应用 |
| 关联 | 可以集成至WiseFlow,使wiseflow具有更强大的原始数据获取能力 | 可以集成WiseFlow,作为动态知识库 |
首席情报官对于硬件基本无要求,系统开销很小,无需独立显卡和CUDA(使用在线LLM服务的情况下)
克隆代码仓库
😄 点赞、fork是好习惯
git clone https://github.com/TeamWiseFlow/wiseflow.git
cd wiseflow
强烈推荐使用docker 运行
中国区用户使用前请合理配置网络,或者指定docker hub镜像
docker compose up
可按需修改compose.yaml
注意:
此时请保持container不关闭状态,浏览器打开http://127.0.0.1:8090/_/ ,按提示创建admin账号(一定要使用邮箱),然后将创建的admin邮箱(再次强调,一定要用邮箱)和密码填入.env文件,重启container即可。
如您想更改container的时区和语言【会决定prompt语言选择,但实测对呈现结果影响不大】,使用如下命令运行image
docker run -e LANG=zh_CN.UTF-8 -e LC_CTYPE=zh_CN.UTF-8 your_image
【备选】直接使用python运行
conda create -n wiseflow python=3.10
conda activate wiseflow
cd core
pip install -r requirement.txt
之后可以通过core/scrips 中的脚本分别启动pb、task和backend (将脚本文件移动到core目录下)
注意:
📚 for developer, see /core/README.md for more
通过 pocketbase 访问获取的数据:
配置
复制目录下的env_sample,并改名为.env, 参考如下 填入你的配置信息(LLM服务token等)
模型推荐
经过反复测试(中英文任务),综合效果和价格,GET_INFO_MODEL、REWRITE_MODEL、HTML_PARSE_MODEL 三项我们分别推荐 "zhipuai/glm4-9B-chat"、"alibaba/Qwen2-7B-Instruct"、"alibaba/Qwen2-7B-Instruct"
它们可以非常好的适配本项目,指令遵循稳定且生成效果优秀,本项目相关的prompt也是针对这三个模型进行的优化。(HTML_PARSE_MODEL 也可以使用 "01-ai/Yi-1.5-9B-Chat",实测效果也非常棒)
⚠️ 同时强烈推荐使用 SiliconFlow 的在线推理服务,更低的价格、更快的速度、更高的免费额度!⚠️
SiliconFlow 在线推理服务兼容openai SDK,并同时提供上述三个模型的开源服务,仅需配置 LLM_API_BASE 为 "https://api.siliconflow.cn/v1" ,并配置 LLM_API_KEY 即可使用。
😄 或者您愿意使用我的邀请链接,这样我也可以获得更多token奖励 😄
关注点和定时扫描信源添加
启动程序后,打开pocketbase Admin dashboard UI (http://127.0.0.1:8090/_/)
6.1 打开 **tags表单**
通过这个表单可以指定你的关注点,LLM会按此提炼、过滤并分类信息。
tags 字段说明:
- name, 关注点描述,**注意:要具体一些**,好的例子是:`中美竞争动向`,不好的例子是:`国际局势`。
- activated, 是否激活。如果关闭则会忽略该关注点,关闭后可再次开启。开启和关闭无需重启docker容器,会在下一次定时任务时更新。
6.2 打开 **sites表单**
通过这个表单可以指定自定义信源,系统会启动后台定时任务,在本地执行信源扫描、解析和分析。
sites 字段说明:
- url, 信源的url,信源无需给定具体文章页面,给文章列表页面即可。
- per_hours, 扫描频率,单位为小时,类型为整数(1~24范围,我们建议扫描频次不要超过一天一次,即设定为24)
- activated, 是否激活。如果关闭则会忽略该信源,关闭后可再次开启。开启和关闭无需重启docker容器,会在下一次定时任务时更新。
本地部署
如您所见,本项目使用7b\9b大小的LLM,且无需任何向量模型,这就意味着仅仅需要一块3090RTX(24G显存)就可以完全的对本项目进行本地化部署。
请保证您的本地化部署LLM服务兼容openai SDK,并配置 LLM_API_BASE 即可
本项目基于 Apach2.0 开源。
商用以及定制合作,请联系 Email:35252986@qq.com
有任何问题或建议,欢迎通过 issue 与我们联系。
如果您在相关工作中参考或引用了本项目的部分或全部,请注明如下信息:
Author:Wiseflow Team
https://openi.pcl.ac.cn/wiseflow/wiseflow
https://github.com/TeamWiseFlow/wiseflow
Licensed under Apache2.0