ShopTRAINING

Author	SHA1	Message	Date
xz2000	a9a0e51769	# 修改记录日志 (日期: 2025-07-16) ## 1. 核心 Bug 修复 ### 文件: `server/core/predictor.py` - 问题: 在 `train_model` 方法中调用内部辅助函数 `_prepare_training_params` 时，没有正确传递 `product_ids` 和 `store_ids` 参数，导致在 `_prepare_training_params` 内部发生 `NameError`。 - 修复: - 修正了 `train_model` 方法内部对 `_prepare_training_params` 的调用，确保 `product_ids` 和 `store_ids` 被显式传递。 - 此前已修复 `train_model` 的函数签名，使其能正确接收 `store_ids`。 - 结果: 彻底解决了训练流程中的参数传递问题，根除了由此引发的 `NameError`。 ## 2. 代码清理与重构 ### 文件: `server/api.py` - 内容: 移除了在 `start_training` API 端点中遗留的旧版、基于线程（`threading.Thread`）的训练逻辑。 - 原因: 该代码块已被新的、基于多进程（`multiprocessing`）的 `TrainingProcessManager` 完全取代。旧代码中包含了大量用于调试的 `thread_safe_print` 日志，已无用处。 - 结果: `start_training` 端点的逻辑变得更加清晰，只负责参数校验和向 `TrainingProcessManager` 提交任务。 ### 文件: `server/utils/training_process_manager.py` - 内容: 在 `TrainingWorker` 的 `run_training_task` 方法中，移除了一个用于模拟训练进度的 `for` 循环。 - 原因: 该循环包含 `time.sleep(1)`，仅用于在没有实际训练逻辑时模拟进度更新，现在实际的训练器会通过回调函数报告真实进度，因此该模拟代码不再需要。 - 结果: `TrainingWorker` 现在直接调用实际的训练器，不再有模拟延迟，代码更贴近生产环境。 ## 3. 启动依赖 - Python: 3.x - 主要库: - Flask - Flask-SocketIO - Flasgger - pandas - numpy - torch - scikit-learn - matplotlib - 启动命令: `python server/api.py`	2025-07-16 15:34:57 +08:00
xz2000	e999ed4af2	### 2025-07-15 (续): 训练器与核心调用层重构核心目标: 将新的 `ModelManager` 统一应用到项目中所有剩余的模型训练器，并重构核心调用逻辑，确保整个训练链路的架构一致性。 1. 修改 `server/trainers/kan_trainer.py` * 内容: 完全重写了 `kan_trainer.py`。 * 适配接口: 函数签名与 `mlstm_trainer` 对齐，增加了 `socketio`, `task_id`, `patience` 等参数。 * 集成 `ModelManager`: 移除了所有旧的、手动的保存逻辑，改为在训练开始时调用 `model_manager` 获取版本号和路径。 * 标准化产物保存: 所有产物（模型、元数据、检查点、损失曲线）均通过 `model_manager.save_model_artifact()` 保存。 * 增加健壮性: 引入了早停（Early Stopping）和保存最佳检查点（Best Checkpoint）的逻辑。 2. 修改 `server/trainers/tcn_trainer.py` * 内容: 完全重写了 `tcn_trainer.py`，应用了与 `kan_trainer` 完全相同的重构模式。 * 移除了旧的 `save_checkpoint` 辅助函数和基于 `core.config` 的版本管理。 * 全面转向使用 `model_manager` 进行版本控制和文件保存。 * 统一了函数签名和进度反馈逻辑。 3. 修改 `server/trainers/transformer_trainer.py` * 内容: 完全重写了 `transformer_trainer.py`，完成了对所有训练器的统一重构。 * 移除了所有遗留的、基于文件名的路径拼接和保存逻辑。 * 实现了与其它训练器一致的、基于 `ModelManager` 的标准化训练流程。 4. 修改 `server/core/predictor.py` * 内容: 对核心预测器类 `PharmacyPredictor` 进行了彻底重构。 * 统一调用接口: `train_model` 方法现在以完全一致的方式调用所有（`mlstm`, `kan`, `tcn`, `transformer`）训练器。 * 移除旧逻辑: 删除了 `_parse_model_filename` 等所有基于文件名解析的旧方法。 * 适配 `ModelManager`: `list_models` 和 `delete_model` 等方法现在直接调用 `model_manager` 的相应功能，不再自己实现逻辑。 * 简化 `predict`: 预测方法现在直接接收标准化的模型版本路径 (`model_version_path`) 作为输入，逻辑更清晰。	2025-07-15 20:09:09 +08:00
xz2000	7a4bfedcaa	--- 日期: 2025-07-15 11:43 主题: 修复因PyTorch版本不兼容导致的训练失败问题 ### 问题描述在修复了路径和依赖问题后，在某些机器上运行模型训练时，程序因 `TypeError: ReduceLROnPlateau.__init__() got an unexpected keyword argument 'verbose'` 而崩溃。但在本地开发机上运行正常。 ### 根本原因此问题是典型的环境不一致导致的兼容性错误。 1. PyTorch版本差异: 本地开发环境安装了较旧版本的PyTorch，其学习率调度器 `ReduceLROnPlateau` 支持 `verbose` 参数（用于在学习率变化时打印日志）。 2. 新环境: 在其他计算机或新创建的虚拟环境中，安装了较新版本的PyTorch。在新版本中，`ReduceLROnPlateau` 的 `verbose` 参数已被移除。 3. 代码问题: `server/trainers/mlstm_trainer.py` 和 `server/trainers/transformer_trainer.py` 的代码中，在创建 `ReduceLROnPlateau` 实例时硬编码了 `verbose=True` 参数，导致在新版PyTorch环境下调用时出现 `TypeError`。 ### 解决方案：移除已弃用的参数 1. 全面排查: 检查了项目中所有训练器文件 (`mlstm_trainer.py`, `transformer_trainer.py`, `kan_trainer.py`, `tcn_trainer.py`)。 2. 精确定位: 确认只有 `mlstm_trainer.py` 和 `transformer_trainer.py` 使用了 `ReduceLROnPlateau` 并传递了 `verbose` 参数。 3. 执行修复: * 文件: `server/trainers/mlstm_trainer.py` 和 `server/trainers/transformer_trainer.py` * 位置: `ReduceLROnPlateau` 的初始化调用处。 * 操作: 删除了 `verbose=True` 参数。 ```diff - scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min', ..., verbose=True) + scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min', ...) ``` * 原因: 移除这个在新版PyTorch中已不存在的参数，可以从根本上解决 `TypeError`，并确保代码在不同版本的PyTorch环境中都能正常运行。此修改不影响学习率调度器的核心功能。	2025-07-15 11:56:21 +08:00
xz2000	484f39e12f	完成模型训练调试，修改模型预测的导航栏	2025-07-14 19:27:06 +08:00
gdtiti	71a6975159	临时版本	2025-07-02 11:05:23 +08:00
gdtiti	441bbdcc56	v2.1.0: 建立LLM编程文档体系与API规范化 - 重大更新：建立完整的.codelf/文档体系，为LLM编程提供准确的知识库 - 创建详细的API参考文档，防止意外修改破坏API设计 - 规范化25+个API端点，包含6大分类和完整的请求/响应示例 - 新增功能：LLM编程文档体系、API保护文档、开发工具配置 - 问题修复：修复HistoryView.vue前端错误，改善数据访问安全性 - 架构改进：清理项目根目录，统一文档格式和API响应规范 - 技术价值：提升AI辅助开发效率，建立标准化开发流程，改善可维护性 - 此更新为未来的AI编程奠定坚实基础，确保系统架构稳定性	2025-06-18 06:39:41 +08:00

6 Commits