ShopTRAINING/data/feature_comparison.md

10 KiB
Raw Blame History

数据源字段对比分析

本文档旨在清晰地展示 old_5shops_50skus.parquet 数据源中的实际字段,与项目代码 (feature_selection.py) 及数据字典 (.md 文件) 中定义的字段之间的差异。

字段名 状态 数据字典描述 说明
adcode 🆕 新增 N/A 在Parquet文件中存在但未在代码或文档中明确使用。
approval_type_encoded 匹配 批准文号类型的数字编码 在数据源和定义中均存在。
area_sq_km 🆕 新增 N/A 在Parquet文件中存在但未在代码或文档中明确使用。
brand_encoded 匹配 品牌的数字编码 在数据源和定义中均存在。
business_areas 🆕 新增 N/A 在Parquet文件中存在但未在代码或文档中明确使用。
city ⚠️ 缺失 店铺所在城市 在代码或文档中定义但Parquet文件中不存在。
date 匹配 日期 (冗余字段) 在数据源和定义中均存在。 (注意: 与 kdrq 同时存在)
day_of_month 匹配 一月中的第几天 (1-31) 在数据源和定义中均存在。
day_of_week 匹配 一周中的第几天 (0=周一, 6=周日) 在数据源和定义中均存在。
day_of_year 匹配 一年中的第几天 (1-366) 在数据源和定义中均存在。
district 匹配 店铺所在行政区 在数据源和定义中均存在。
district_name 🆕 新增 N/A 在Parquet文件中存在但未在代码或文档中明确使用。
DISTRICT_LAT 🆕 新增 N/A 在Parquet文件中存在但未在代码或文档中明确使用。
DISTRICT_LON 🆕 新增 N/A 在Parquet文件中存在但未在代码或文档中明确使用。
first_sale_date 匹配 SKU在店首次销售日期 在数据源和定义中均存在。
gross_profit_total 匹配 当日毛利 (无销售则为0) 在数据源和定义中均存在。
hh 匹配 商品唯一标识 在数据源和定义中均存在。
is_holiday 匹配 是否为节假日 (True/False) 在数据源和定义中均存在。
is_weekend 匹配 是否为周末 (True/False) 在数据源和定义中均存在。
kdrq 匹配 开单日期 (主键之一) 在数据源和定义中均存在。 (注意: 与 date 同时存在)
last_sale_date 匹配 SKU在店末次销售日期 在数据源和定义中均存在。
latitude 🆕 新增 N/A 在Parquet文件中存在但未在代码或文档中明确使用。
lifecycle_days 匹配 SKU在店生命周期总天数 在数据源和定义中均存在。
longitude 🆕 新增 N/A 在Parquet文件中存在但未在代码或文档中明确使用。
month 匹配 月份 (1-12) 在数据源和定义中均存在。
net_sales_quantity 匹配 当日净销售量 (目标变量) 在数据源和定义中均存在。
net_sales_quantity_rolling_mean_15d 匹配 过去15日平均净销量 在数据源和定义中均存在。
net_sales_quantity_rolling_mean_30d 匹配 过去30日平均净销量 在数据源和定义中均存在。
net_sales_quantity_rolling_mean_7d 匹配 过去7日平均净销量 在数据源和定义中均存在。
net_sales_quantity_rolling_mean_90d 匹配 过去90日平均净销量 在数据源和定义中均存在。
net_sales_quantity_rolling_sum_15d 匹配 过去15日总净销量 在数据源和定义中均存在。
net_sales_quantity_rolling_sum_30d 匹配 过去30日总净销量 在数据源和定义中均存在。
net_sales_quantity_rolling_sum_7d 匹配 过去7日总净销量 在数据源和定义中均存在。
net_sales_quantity_rolling_sum_90d 匹配 过去90日总净销量 在数据源和定义中均存在。
packaging_quantity ⚠️ 缺失 包装数量 (从规格中提取) 在代码或文档中定义但Parquet文件中不存在。
poi_company_count 🆕 新增 N/A 在Parquet文件中存在但未在代码或文档中明确使用。
poi_finance_count 🆕 新增 N/A 在Parquet文件中存在但未在代码或文档中明确使用。
poi_mall_count 匹配 周边购物中心POI数量 在数据源和定义中均存在。
poi_residential_count 匹配 周边住宅区POI数量 在数据源和定义中均存在。
poi_school_count 匹配 周边学校POI数量 在数据源和定义中均存在。
province ⚠️ 缺失 店铺所在省份 在代码或文档中定义但Parquet文件中不存在。
quarter 匹配 季度 (1-4) 在数据源和定义中均存在。
return_quantity 匹配 当日退货量 (无销售则为0) 在数据源和定义中均存在。
return_quantity_rolling_mean_15d 匹配 过去15日平均退货量 在数据源和定义中均存在。
return_quantity_rolling_mean_30d 匹配 过去30日平均退货量 在数据源和定义中均存在。
return_quantity_rolling_mean_7d 匹配 过去7日平均退货量 在数据源和定义中均存在。
return_quantity_rolling_mean_90d 匹配 过去90日平均退货量 在数据源和定义中均存在。
return_quantity_rolling_sum_15d 匹配 过去15日总退货量 在数据源和定义中均存在。
return_quantity_rolling_sum_30d 匹配 过去30日总退货量 在数据源和定义中均存在。
return_quantity_rolling_sum_7d 匹配 过去7日总退货量 在数据源和定义中均存在。
return_quantity_rolling_sum_90d 匹配 过去90日总退货量 在数据源和定义中均存在。
rolling_15d_valid 匹配 15日滚动窗口是否有效 在数据源和定义中均存在。
rolling_30d_valid 匹配 30日滚动窗口是否有效 在数据源和定义中均存在。
rolling_7d_valid 匹配 7日滚动窗口是否有效 (距离首次销售>=7天) 在数据源和定义中均存在。
rolling_90d_valid 匹配 90日滚动窗口是否有效 在数据源和定义中均存在。
sales_quantity 匹配 当日销售量 (无销售则为0) 在数据源和定义中均存在。
sales_quantity_rolling_mean_15d 匹配 过去15日平均销售量 在数据源和定义中均存在。
sales_quantity_rolling_mean_30d 匹配 过去30日平均销售量 在数据源和定义中均存在。
sales_quantity_rolling_mean_7d 匹配 过去7日平均销售量 在数据源和定义中均存在。
sales_quantity_rolling_mean_90d 匹配 过去90日平均销售量 在数据源和定义中均存在。
sales_quantity_rolling_sum_15d 匹配 过去15日总销售量 在数据源和定义中均存在。
sales_quantity_rolling_sum_30d 匹配 过去30日总销售量 在数据源和定义中均存在。
sales_quantity_rolling_sum_7d 匹配 过去7日总销售量 在数据源和定义中均存在。
sales_quantity_rolling_sum_90d 匹配 过去90日总销售量 在数据源和定义中均存在。
sample_category 匹配 生命周期分类 (new/medium/old) 在数据源和定义中均存在。
subbh 匹配 店铺唯一标识 在数据源和定义中均存在。
temperature_2m_mean 匹配 当日平均气温 在数据源和定义中均存在。
temperature_2m_max 匹配 当日最高气温 在数据源和定义中均存在。
temperature_2m_min 匹配 当日最低气温 在数据源和定义中均存在。
transaction_count 匹配 当日交易次数 (无销售则为0) 在数据源和定义中均存在。
week_of_month 匹配 当月第几周 (1-5) 在数据源和定义中均存在。
产地_encoded 匹配 产地的数字编码 在数据源和定义中均存在。
商品ABC分类_encoded 匹配 商品ABC分类的数字编码 在数据源和定义中均存在。
商品手册代码_encoded 匹配 商品手册代码的数字编码 在数据源和定义中均存在。
零售中类代码_encoded 匹配 零售中类代码的数字编码 在数据源和定义中均存在。
零售大类代码_encoded 匹配 零售大类代码的数字编码 在数据源和定义中均存在。
零售小类代码_encoded 匹配 零售小类代码的数字编码 在数据源和定义中均存在。
net_sales_quantity_rolling_mean_180d ⚠️ 缺失 过去180日平均净销量 在代码或文档中定义但Parquet文件中不存在。
net_sales_quantity_rolling_mean_365d ⚠️ 缺失 过去365日平均净销量 在代码或文档中定义但Parquet文件中不存在。
net_sales_quantity_rolling_sum_180d ⚠️ 缺失 过去180日总净销量 在代码或文档中定义但Parquet文件中不存在。
net_sales_quantity_rolling_sum_365d ⚠️ 缺失 过去365日总净销量 在代码或文档中定义但Parquet文件中不存在。
return_quantity_rolling_mean_180d ⚠️ 缺失 过去180日平均退货量 在代码或文档中定义但Parquet文件中不存在。
return_quantity_rolling_mean_365d ⚠️ 缺失 过去365日平均退货量 在代码或文档中定义但Parquet文件中不存在。
return_quantity_rolling_sum_180d ⚠️ 缺失 过去180日总退货量 在代码或文档中定义但Parquet文件中不存在。
return_quantity_rolling_sum_365d ⚠️ 缺失 过去365日总退货量 在代码或文档中定义但Parquet文件中不存在。
sales_quantity_rolling_mean_180d ⚠️ 缺失 过去180日平均销售量 在代码或文档中定义但Parquet文件中不存在。
sales_quantity_rolling_mean_365d ⚠️ 缺失 过去365日平均销售量 在代码或文档中定义但Parquet文件中不存在。
sales_quantity_rolling_sum_180d ⚠️ 缺失 过去180日总销售量 在代码或文档中定义但Parquet文件中不存在。
sales_quantity_rolling_sum_365d ⚠️ 缺失 过去365日总销售量 在代码或文档中定义但Parquet文件中不存在。