[合集]本地大模型编程实战
此系列文章讲述了:如何在普通电脑上自己写代码完成常见的基于大语言模型能力的任务。 ...
此系列文章讲述了:如何在普通电脑上自己写代码完成常见的基于大语言模型能力的任务。 ...
此系列文章详细的阐述了如何从第一行代码开始搭建一个可以运行完全在本地服务器的RAG(Retrieval Augmented Generation)系统,包含了详细的步骤说明和代码,它是保姆级教程。 它主要包含以下功能: 使用本地大语言模型做语言翻译 使用本地大语言模型做专业领域的知识问答 从系统架构来看,本系统包含了前端、API网关、后台服务三大部分: ...
SSE(Server-Sent Events)是一种基于 HTTP 协议的服务器向客户端单向推送数据的技术,允许服务器主动向已建立连接的客户端持续发送事件流(如实时通知、更新数据等),无需客户端频繁轮询。 核心特点:基于 HTTP 长连接,单向通信(仅服务器→客户端),数据以 “事件” 格式传输(包含事件类型、数据体等结构化信息),天然支持断线重连。 典型场景:大语言模型(LLM)客户端、股票行情实时更新、新闻推送、系统通知等只需服务器主动下发数据的场景。 它与websocket的主要区别是: 若场景仅需 “服务器推数据给客户端”(单向),优先选 SSE(实现简单、基于 HTTP 无额外协议成本) 若需 “客户端与服务器实时双向通信”(如聊天、互动),必须选 WebSocket(全双工能力是核心优势) 下面我们使用大语言模型qwen3实现翻译功能。它可以自动识别源语言,就可以翻译为目标语种。 像千问这种大模型是基于多语言训练的,所以它支持中文、英文、法文、西班牙等多个语种的翻译。 这是实现的效果: ...
在与 LLM(大语言模型) 对话时,如果每次都等 LLM 处理完毕再返回给客户端,会显得比较卡顿,不友好。如何能够像主流的AI平台那样:可以一点一点吐出字符呢? 本文将模仿后端流式输出文字,前端一块一块的显示文字。主要的实现路径是: LLM 采用 qwen3 ,使用 stream 方式输出 后端使用 langchain 框架 使用 fastapi 实现后端接口 前后端之间使用 websocket 长连接通信 前端使用一个简单的 html5 网页做演示 下面是最终实现的效果: ...
在执行从文本中提取摘要的任务时,难免遇到大文本的情况:文本的长度超出了 LLM(大语言模型) 的token限制。 LangGraph 提供了 map-reduce 工作流,它先把大文本拆成小文档分别提取摘要,然后再提炼/压缩提取的摘要,直到最后提取的摘要的token长度满足既定要求。 本次演练使用 qwen2.5:7b 开源大模型。 ...