gdtiti 441bbdcc56 v2.1.0: 建立LLM编程文档体系与API规范化 - 重大更新：建立完整的.codelf/文档体系，为LLM编程提供准确的知识库 - 创建详细的API参考文档，防止意外修改破坏API设计 - 规范化25+个API端点，包含6大分类和完整的请求/响应示例 - 新增功能：LLM编程文档体系、API保护文档、开发工具配置 - 问题修复：修复HistoryView.vue前端错误，改善数据访问安全性 - 架构改进：清理项目根目录，统一文档格式和API响应规范 - 技术价值：提升AI辅助开发效率，建立标准化开发流程，改善可维护性 - 此更新为未来的AI编程奠定坚实基础，确保系统架构稳定性

2025-06-18 06:39:41 +08:00

14 KiB

Raw Permalink Blame History

大规模（2000店铺-300品类）销售预测系统：实施方案

1. 项目概述与目标

1.1 项目背景

当前系统架构专为小规模（单店铺、少量商品）场景设计，无法应对即将到来的2000家店铺和300+品类（SKU可能数万）的巨大数据量和计算需求。直接扩展现有系统将导致严重的性能瓶颈、高昂的运维成本和缓慢的模型迭代速度。

1.2核心目标

构建一个高性能、可扩展、自动化的销售预测平台，实现单店单品级别的精准预测，并为未来的业务增长和功能扩展奠定坚实基础。

性能目标：能够在24小时内完成所有店铺、所有品类（约 2000 * 300 = 600,000 个）模型的增量训练或批量再训练。单次预测请求响应时间低于2秒。
准确性目标：关键品类（如A类商品）的预测准确率（如MAPE）优于基线模型15%以上。
可扩展性目标：系统架构能够平滑扩展以支持未来5000家店铺，1000个品类。
自动化目标：实现数据ETL、模型训练、评估、部署的自动化（MLOps），减少人工干预。

2. 挑战与策略

挑战	描述	应对策略
数据存储与处理	- 每日销售记录可达数百万条 - 历史数据总量将达TB级别 - `pharmacy_sales.xlsx` 文件模式已不可行	- 数据湖/湖仓一体：采用 `MinIO` (S3兼容对象存储) 或 `HDFS` 作为原始数据存储，使用 `Delta Lake` 或 `Apache Hudi` 管理数据版本和事务。 - 分布式计算引擎：使用 `Apache Spark` 或 `Dask` 进行大规模数据清洗、特征工程和模型训练。
模型训练与管理	- 60万+模型的训练、存储、版本控制和评估 - 训练时间过长，无法满足业务时效性 - 单独为每个SKU训练模型成本极高	- 混合模型策略：对不同重要性的商品采用不同策略。（详见4.2） - 分布式训练：利用 `Spark MLlib`、`Horovod` 或 `Ray` 在集群上并行训练模型。 - MLOps平台：引入 `MLflow` 或 `Kubeflow` 进行模型全生命周期管理。
预测服务性能	- 高并发预测请求 - 需要快速从大量模型中检索并加载特定模型	- 优化的模型存储：将模型序列化为高性能格式（如 `ONNX`），并存储在 `Redis` 或专门的模型服务中。 - 微服务架构：将预测功能封装为独立的、可水平扩展的微服务。 - 异步预测与缓存：对非实时性要求高的预测采用异步任务队列（如 `Celery + RabbitMQ`），并对热门预测结果进行缓存。
系统架构与部署	- 单体应用无法满足高可用和弹性伸缩的需求	- 容器化与编排：全面采用 `Docker` 进行应用容器化，并使用 `Kubernetes (K8s)` 进行集群管理和资源调度。 - IaC (基础架构即代码)：使用 `Terraform` 或 `Ansible` 管理和部署云资源，确保环境一致性。

3. 技术选型建议

数据存储: MinIO (对象存储), PostgreSQL/MySQL (元数据管理), Delta Lake (数据湖格式)
数据处理: Apache Spark / Dask
模型开发: PyTorch, Scikit-learn, LightGBM
分布式训练: Spark MLlib / Ray
MLOps: MLflow
后端服务: Python (FastAPI/Flask)
任务队列: Celery + RabbitMQ/Redis
服务部署: Docker, Kubernetes
监控: Prometheus, Grafana

4. 详细实施计划

阶段一：基础架构与数据管道建设 (1-2个月)

目标：建立稳固的数据基石，实现数据自动化处理。

部署数据湖与计算集群:
- 搭建 MinIO 对象存储集群作为数据湖。
- 部署 Kubernetes 集群，并配置 Spark on K8s 或 Dask。
- 建立 PostgreSQL 数据库用于存储元数据（店铺信息、产品信息、模型注册表等）。
设计新的数据模型:
- 在 PostgreSQL 中创建 stores, products, sales 等核心表结构，包含店铺、产品层级、地理位置等维度。
开发数据ETL管道:
- 创建 Spark/Dask 任务，用于从各种数据源（如业务数据库、CSV文件）抽取数据。
- 将数据标准化后存入数据湖（MinIO），格式为 Delta Lake。
- 实现特征工程管道，生成可供模型使用的宽表（Feature Store雏形），包括：
  - 时间特征：星期、月份、节假日、促销期。
  - 滞后特征：过去7天/30天的平均销量、移动平均。
  - 店铺特征：店铺面积、类型、地理位置、竞品密度。
  - 产品特征：品类、品牌、价格。
数据验证与质量监控:
- 引入 Great Expectations 等工具，在ETL流程中自动进行数据质量校验。

阶段二：模型策略制定与开发 (2-3个月)

目标：针对不同业务场景，开发和验证高效的建模策略。

商品分级 (ABC分析):
- 根据销售额、销量、利润等指标，将300+品类自动划分为A、B、C三级。
制定混合模型策略:
- A类商品 (高价值): 为每个店铺-SKU组合训练独立、高精度的模型（如 Transformer, mLSTM）。利用分布式计算并行处理。
- B类商品 (中等价值): 采用分组模型。根据产品品类、店铺地理位置等将商品分组，为每个组训练一个模型。这样能大幅减少模型数量，同时利用相似商品的销售模式。可选用 LightGBM 等树模型，它能很好地处理类别特征。
- C类商品 (长尾商品): 采用零样本/少样本学习或简单的统计模型（如移动平均、季节性指数），不单独训练复杂模型，以节约计算资源。
开发与集成MLflow:
- 将 MLflow 集成到训练流程中。
- MLflow Tracking: 自动记录每次训练的参数、指标、模型文件和依赖。
- MLflow Models: 统一模型打包格式，方便后续部署。
- MLflow Registry: 管理模型版本，实现模型从"开发"到"生产"的审批流程。
建立模型评估基准:
- 建立统一的自动化评估流水线，将新训练的模型与基线模型（如ARIMA、上一版本模型）进行对比。

阶段三：API服务与后台系统重构 (1.5个月)

目标：构建高并发、可扩展的后端服务。

API接口重构:
- 使用 FastAPI 框架（性能更优）重构所有API。
- 所有API接口必须包含 store_id 参数。
- 新增店铺管理、商品管理、模型管理等后台支持API。
开发预测服务:
- 模型加载优化: 从 MLflow Registry 获取生产模型的路径，直接从 MinIO 或 Redis 快速加载模型。
- 异步批量预测: 为后台批量预测需求（如补货建议），创建 Celery 任务。用户提交任务后立即返回任务ID，后台异步处理。
- 实时单点预测: 为前端实时查询提供同步API，内部做性能优化（如内存缓存）。
开发训练调度服务:
- 创建一个定时调度服务（如 Airflow 或 K8s CronJob），根据预设规则（如每周、每月）自动触发 Spark/Dask 训练任务。
- 提供API接口，允许手动触发特定店铺或品类的模型重训练。

阶段四：部署、监控与优化 (持续进行)

目标：实现系统的稳定运行和持续改进。

CI/CD流水线:
- 使用 GitHub Actions 或 Jenkins 建立完整的CI/CD流水线，实现代码提交后自动测试、构建Docker镜像并部署到K8s。
全面监控:
- 系统监控: 使用 Prometheus 和 Grafana 监控K8s集群、API服务、数据库的CPU、内存、延迟等指标。
- 模型性能监控: 定期计算线上模型的准确率，监控数据漂移和概念漂移。当性能下降到阈值以下时，自动告警或触发再训练。
成本与性能优化:
- 优化 Spark 任务的资源配置，利用K8s的自动伸缩功能节约云成本。
- 对数据库进行索引优化，对高频查询增加缓存。
- 持续迭代模型策略，探索更高效的算法。

5. 风险评估与应对

风险: 数据质量问题影响模型准确性。
- 应对: 在数据管道中加入Great Expectations等强力的数据验证关卡。
风险: 模型训练时间超出预期。
- 应对: 优化Spark参数，增加计算资源，对非核心商品采用更轻量的模型。
风险: 技术栈复杂，团队上手成本高。
- 应对: 分阶段引入技术，加强团队培训和文档建设，优先招聘有相关经验的工程师。
风险: 成本超出预算。
- 应对: 精细化管理云资源，对非高峰时段使用竞价实例（Spot Instances），持续进行性能优化。

6. 补充方案：引入KAN模型进行全局预测

6.1 背景与动机

KAN (Kolmogorov-Arnold Networks) 作为一种新兴的模型架构，其核心优势在于强大的函数拟合能力和优秀的可解释性。将其应用于全局预测模型，有望在保证高精度的同时，为业务分析提供前所未有的洞察力。本补充方案探讨如何将KAN适配到全局模型策略中。

6.2 KAN与全局模型结合的核心机制

核心技巧在于将离散的类别ID（如 store_id, product_id）通过嵌入层（Embedding Layer）转换为连续的向量，再将此向量作为KAN模型的输入特征之一。这使得KAN能够在一个统一的框架内处理和区分不同实体（店铺或品类）的特性。

6.3 具体适配方案（以PyTorch为例）

方案一：品类专属全局模型 + KAN (推荐优先实验)

为每个品类训练一个KAN模型，该模型通过学习店铺嵌入来区分不同店铺。

import torch.nn as nn
from efficient_kan import KAN

class CategoryLevelGlobalKAN(nn.Module):
    def __init__(self, num_stores, store_embedding_dim, num_other_features, kan_layers, k=3):
        super().__init__()
        # 1. 店铺嵌入层，将店铺ID转换为向量
        self.store_embedding = nn.Embedding(num_stores, store_embedding_dim)
        
        # 2. KAN模型，其输入维度等于嵌入向量维度加上其他特征维度
        input_dim = store_embedding_dim + num_other_features
        self.kan = KAN([input_dim] + kan_layers + [1], k=k) # 例如 kan_layers = [64, 32]

    def forward(self, store_idx_input, other_features_input):
        # store_idx_input shape: (batch_size, 1) or (batch_size,)
        # other_features_input shape: (batch_size, num_other_features)
        
        store_embeds = self.store_embedding(store_idx_input).squeeze(1)
        kan_input = torch.cat([store_embeds, other_features_input], dim=1)
        
        return self.kan(kan_input)

方案二：终极全局模型 + KAN

使用一个KAN模型预测所有情况，同时学习店铺和品类的嵌入。

import torch.nn as nn
from efficient_kan import KAN

class UltimateGlobalKAN(nn.Module):
    def __init__(self, num_stores, num_products, store_embedding_dim, product_embedding_dim, num_other_features, kan_layers, k=3):
        super().__init__()
        # 两个独立的嵌入层
        self.store_embedding = nn.Embedding(num_stores, store_embedding_dim)
        self.product_embedding = nn.Embedding(num_products, product_embedding_dim)
        
        # KAN模型的输入维度是所有嵌入和特征维度的总和
        input_dim = store_embedding_dim + product_embedding_dim + num_other_features
        self.kan = KAN([input_dim] + kan_layers + [1], k=k)

    def forward(self, store_idx_input, product_idx_input, other_features_input):
        store_embeds = self.store_embedding(store_idx_input).squeeze(1)
        product_embeds = self.product_embedding(product_idx_input).squeeze(1)
        
        kan_input = torch.cat([store_embeds, product_embeds, other_features_input], dim=1)
        
        return self.kan(kan_input)

注：上述代码为前馈网络（Feedforward）形式，适用于将时间序列的滑动窗口数据"铺平"后作为输入。

6.4 优缺点分析

优点：

极强的可解释性：这是KAN相对于深度学习"黑箱"模型的决定性优势。可以可视化学习到的样条函数，直观地理解各个特征（如价格、促销力度，甚至是店铺嵌入的某一维度）与销量的非线性关系，为业务决策提供数据支持。
潜在的更高效率：理论上，KAN能用更少的参数拟合复杂函数，可能带来更高的参数效率和预测精度。

挑战与注意事项：

时序信息处理：标准KAN是前馈网络，本身不具备如LSTM般的记忆能力。因此，必须通过滑动窗口将时间序列数据转换成监督学习样本（例如，用过去14天的特征预测未来1天），这会导致输入维度较高。
计算成本：KAN的训练成本可能高于传统MLP，特别是在网格大小（k）较大时，需要在分布式环境中进行有效管理。
技术成熟度：作为前沿模型，KAN的社区生态和最佳实践尚在快速发展中，在生产环境中的应用需要一定的技术探索和验证。

6.5 实施建议

将KAN模型作为一项研究与探索性任务，与基于Transformer或LightGBM的全局模型并行实验。首先在部分A类或B类商品上，采用**"品类专属全局模型 + KAN"**的策略进行验证，对比其预测精度、训练时间和可解释性带来的业务价值，再决定是否进行更大规模的推广。

14 KiB Raw Permalink Blame History Unescape Escape