2025年10月13日 ai-systems

使用 C# 构建上下文感知桌面 AI 助手：多 LLM 与 MCP 工具集成

基于 C# 和 Avalonia 框架，开发支持多模型 LLM 及 MCP 工具的桌面 AI 助手，实现屏幕上下文感知与工作流自动化，提供配置参数与部署清单。

内容加载中...

在桌面环境中构建一个上下文感知的 AI 助手，能够显著提升用户的生产力和交互效率。这种助手不同于传统的网页或移动端 AI 工具，它直接嵌入操作系统层面，能实时捕获屏幕内容、理解用户当前任务，并通过多模型大语言模型（LLM）提供智能响应。同时，集成 MCP（Model Context Protocol）工具，可以实现无缝的工作流自动化，例如自动填充表单、搜索相关信息或执行系统命令。本文将聚焦于使用 C# 语言和 .NET 生态构建此类助手的工程实践，强调架构设计、多 LLM 集成以及 MCP 工具的落地参数，避免泛泛而谈新闻事件，转而提供可操作的开发指南。

首先，理解核心架构。C# 作为 .NET 的首选语言，结合 Avalonia UI 框架，可以创建跨平台的桌面应用。Avalonia 支持 Windows、macOS 和 Linux，渲染引擎基于 SkiaSharp，确保高性能的 UI 响应。观点在于，这种架构允许 AI 助手以浮动窗口或热键调用的形式出现，而非占用主界面。在 Everywhere 项目中，这种设计已证明有效：助手通过全局热键（如 Ctrl+Space）激活，捕获鼠标位置下的屏幕区域作为上下文输入。证据显示，使用 .NET 9 的异步编程模型（如 Task 和 async/await），可以高效处理屏幕捕获和 API 调用，避免 UI 阻塞。具体落地参数包括：屏幕捕获使用 Windows.Graphics.Capture API（Windows 10+），分辨率限制在 1920x1080 以控制内存使用；热键注册通过 WindowsInput 库，优先级设置为 1000 以确保响应速度小于 100ms。

多 LLM 集成的关键在于抽象化 API 调用，实现模型切换而不重启应用。这不仅提高了灵活性，还能根据任务类型动态选择最佳模型，例如使用 Claude 处理复杂推理，Gemini 优化多模态输入。观点是，多模型支持能分散单点故障，并通过负载均衡提升响应质量。在 C# 中，可以使用 HttpClientFactory 创建共享的 HTTP 客户端池，支持 OpenAI、Anthropic 和 Google 等提供商。配置参数包括：API 密钥存储在加密的 appsettings.json，使用 Azure Key Vault 或本地 ProtectedData 保护；模型选择通过 JSON 配置，如 {"providers": [{"name": "openai", "model": "gpt-4o", "endpoint": "https://api.openai.com/v1/chat/completions", "maxTokens": 4096}]}。对于 MCP 工具集成，MCP 作为一种协议标准，允许 LLM 调用外部工具如 Web Search 或系统 API。证据来自项目实践：通过定义 ToolCalling 接口，C# 可以序列化工具描述为 JSON Schema，并解析 LLM 的工具调用响应。落地清单：1) 实现 ITool 接口，包含 ExecuteAsync 方法，返回 JsonResult；2) 在提示工程中注入工具描述，例如 "You have access to web_search tool: {'type': 'function', 'function': {'name': 'web_search', 'description': 'Search the web for information'}}"；3) 错误处理：设置重试机制，最大 3 次，超时 30 秒，使用 Polly 库实现熔断。

上下文感知响应的实现依赖于屏幕内容提取和语义理解。观点是，直接从屏幕捕获 OCR 文本或图像描述，能让 AI 更贴合用户场景，避免手动输入的繁琐。使用 Tesseract.NET 或 Microsoft Azure Computer Vision API 进行 OCR，提取文本后注入 LLM 提示，如 "Based on the following screen context: [extracted text]，answer the query: [user input]"。参数优化：OCR 区域大小设为 800x600 像素，语言模型为 'eng+chi_sim' 以支持中英混合；对于图像输入，使用 Vision API 的描述端点，温度参数 0.2 以确保准确性。MCP 工具在此发挥作用，例如在捕获代码编辑器内容时，自动调用 "code_fix" 工具生成补丁。监控要点包括：日志记录使用 Serilog，捕获 LLM 调用延迟（目标 <2s）和 OCR 准确率（>95%）；性能阈值：CPU 使用 <20%，内存 <500MB，通过 PerformanceCounter 监控。

无缝工作流自动化的落地，需要设计事件驱动的管道。观点是，通过 MCP 协议的工具链，AI 可以从简单响应扩展到多步执行，如 "总结网页并邮件发送"。在 C# 中，使用 MediatR 库构建命令管道：用户查询 → 上下文提取 → LLM 推理 → 工具执行 → 结果渲染。清单：1) 定义 WorkflowStep 类，包含 Preconditions 和 Actions；2) 集成系统 API，如 SendKeys 发送键盘输入，或 Process.Start 执行命令；3) 安全控制：白名单工具列表，避免任意代码执行；4) 回滚策略：如果工具失败，fallback 到纯文本响应，并记录到数据库。引用 Everywhere 的实践："Everywhere instantly perceives and understands anything on your screen." 这验证了管道的实时性。风险管理：隐私保护，使用沙箱隔离工具执行；限流 API 调用，每分钟 <10 次，以防滥用。

部署和维护参数同样关键。使用 MSIX 打包 Windows 安装包，支持自动更新通过 GitHub Releases。清单：1) 环境要求：.NET 9 Runtime，Windows 10+；2) 配置 UI：提供设置页面，允许用户自定义 LLM 优先级和热键；3) 测试套件：单元测试覆盖 API 集成（使用 Moq 模拟），集成测试模拟屏幕捕获；4) 监控：集成 Application Insights，追踪崩溃率 <1% 和用户满意度通过反馈按钮。扩展性考虑：未来支持 Ollama 本地模型，减少云依赖；MCP 工具插件系统，使用 NuGet 包管理。

总之，这种 C# 桌面 AI 助手的构建路径清晰、可落地。通过多 LLM 和 MCP 工具的集成，不仅实现了上下文感知，还推动了工作流自动化。开发者可从 Everywhere 开源项目起步，调整参数以适应具体需求。实际部署中，优先验证性能瓶颈，并迭代用户反馈，确保助手真正 "Everywhere"。

（正文字数约 1050 字）