10 KiB
10 KiB
数据源字段对比分析
本文档旨在清晰地展示 old_5shops_50skus.parquet
数据源中的实际字段,与项目代码 (feature_selection.py
) 及数据字典 (.md
文件) 中定义的字段之间的差异。
字段名 | 状态 | 数据字典描述 | 说明 |
---|---|---|---|
adcode |
🆕 新增 | N/A | 在Parquet文件中存在,但未在代码或文档中明确使用。 |
approval_type_encoded |
✅ 匹配 | 批准文号类型的数字编码 | 在数据源和定义中均存在。 |
area_sq_km |
🆕 新增 | N/A | 在Parquet文件中存在,但未在代码或文档中明确使用。 |
brand_encoded |
✅ 匹配 | 品牌的数字编码 | 在数据源和定义中均存在。 |
business_areas |
🆕 新增 | N/A | 在Parquet文件中存在,但未在代码或文档中明确使用。 |
city |
⚠️ 缺失 | 店铺所在城市 | 在代码或文档中定义,但Parquet文件中不存在。 |
date |
✅ 匹配 | 日期 (冗余字段) | 在数据源和定义中均存在。 (注意: 与 kdrq 同时存在) |
day_of_month |
✅ 匹配 | 一月中的第几天 (1-31) | 在数据源和定义中均存在。 |
day_of_week |
✅ 匹配 | 一周中的第几天 (0=周一, 6=周日) | 在数据源和定义中均存在。 |
day_of_year |
✅ 匹配 | 一年中的第几天 (1-366) | 在数据源和定义中均存在。 |
district |
✅ 匹配 | 店铺所在行政区 | 在数据源和定义中均存在。 |
district_name |
🆕 新增 | N/A | 在Parquet文件中存在,但未在代码或文档中明确使用。 |
DISTRICT_LAT |
🆕 新增 | N/A | 在Parquet文件中存在,但未在代码或文档中明确使用。 |
DISTRICT_LON |
🆕 新增 | N/A | 在Parquet文件中存在,但未在代码或文档中明确使用。 |
first_sale_date |
✅ 匹配 | SKU在店首次销售日期 | 在数据源和定义中均存在。 |
gross_profit_total |
✅ 匹配 | 当日毛利 (无销售则为0) | 在数据源和定义中均存在。 |
hh |
✅ 匹配 | 商品唯一标识 | 在数据源和定义中均存在。 |
is_holiday |
✅ 匹配 | 是否为节假日 (True/False) | 在数据源和定义中均存在。 |
is_weekend |
✅ 匹配 | 是否为周末 (True/False) | 在数据源和定义中均存在。 |
kdrq |
✅ 匹配 | 开单日期 (主键之一) | 在数据源和定义中均存在。 (注意: 与 date 同时存在) |
last_sale_date |
✅ 匹配 | SKU在店末次销售日期 | 在数据源和定义中均存在。 |
latitude |
🆕 新增 | N/A | 在Parquet文件中存在,但未在代码或文档中明确使用。 |
lifecycle_days |
✅ 匹配 | SKU在店生命周期总天数 | 在数据源和定义中均存在。 |
longitude |
🆕 新增 | N/A | 在Parquet文件中存在,但未在代码或文档中明确使用。 |
month |
✅ 匹配 | 月份 (1-12) | 在数据源和定义中均存在。 |
net_sales_quantity |
✅ 匹配 | 当日净销售量 (目标变量) | 在数据源和定义中均存在。 |
net_sales_quantity_rolling_mean_15d |
✅ 匹配 | 过去15日平均净销量 | 在数据源和定义中均存在。 |
net_sales_quantity_rolling_mean_30d |
✅ 匹配 | 过去30日平均净销量 | 在数据源和定义中均存在。 |
net_sales_quantity_rolling_mean_7d |
✅ 匹配 | 过去7日平均净销量 | 在数据源和定义中均存在。 |
net_sales_quantity_rolling_mean_90d |
✅ 匹配 | 过去90日平均净销量 | 在数据源和定义中均存在。 |
net_sales_quantity_rolling_sum_15d |
✅ 匹配 | 过去15日总净销量 | 在数据源和定义中均存在。 |
net_sales_quantity_rolling_sum_30d |
✅ 匹配 | 过去30日总净销量 | 在数据源和定义中均存在。 |
net_sales_quantity_rolling_sum_7d |
✅ 匹配 | 过去7日总净销量 | 在数据源和定义中均存在。 |
net_sales_quantity_rolling_sum_90d |
✅ 匹配 | 过去90日总净销量 | 在数据源和定义中均存在。 |
packaging_quantity |
⚠️ 缺失 | 包装数量 (从规格中提取) | 在代码或文档中定义,但Parquet文件中不存在。 |
poi_company_count |
🆕 新增 | N/A | 在Parquet文件中存在,但未在代码或文档中明确使用。 |
poi_finance_count |
🆕 新增 | N/A | 在Parquet文件中存在,但未在代码或文档中明确使用。 |
poi_mall_count |
✅ 匹配 | 周边购物中心POI数量 | 在数据源和定义中均存在。 |
poi_residential_count |
✅ 匹配 | 周边住宅区POI数量 | 在数据源和定义中均存在。 |
poi_school_count |
✅ 匹配 | 周边学校POI数量 | 在数据源和定义中均存在。 |
province |
⚠️ 缺失 | 店铺所在省份 | 在代码或文档中定义,但Parquet文件中不存在。 |
quarter |
✅ 匹配 | 季度 (1-4) | 在数据源和定义中均存在。 |
return_quantity |
✅ 匹配 | 当日退货量 (无销售则为0) | 在数据源和定义中均存在。 |
return_quantity_rolling_mean_15d |
✅ 匹配 | 过去15日平均退货量 | 在数据源和定义中均存在。 |
return_quantity_rolling_mean_30d |
✅ 匹配 | 过去30日平均退货量 | 在数据源和定义中均存在。 |
return_quantity_rolling_mean_7d |
✅ 匹配 | 过去7日平均退货量 | 在数据源和定义中均存在。 |
return_quantity_rolling_mean_90d |
✅ 匹配 | 过去90日平均退货量 | 在数据源和定义中均存在。 |
return_quantity_rolling_sum_15d |
✅ 匹配 | 过去15日总退货量 | 在数据源和定义中均存在。 |
return_quantity_rolling_sum_30d |
✅ 匹配 | 过去30日总退货量 | 在数据源和定义中均存在。 |
return_quantity_rolling_sum_7d |
✅ 匹配 | 过去7日总退货量 | 在数据源和定义中均存在。 |
return_quantity_rolling_sum_90d |
✅ 匹配 | 过去90日总退货量 | 在数据源和定义中均存在。 |
rolling_15d_valid |
✅ 匹配 | 15日滚动窗口是否有效 | 在数据源和定义中均存在。 |
rolling_30d_valid |
✅ 匹配 | 30日滚动窗口是否有效 | 在数据源和定义中均存在。 |
rolling_7d_valid |
✅ 匹配 | 7日滚动窗口是否有效 (距离首次销售>=7天) | 在数据源和定义中均存在。 |
rolling_90d_valid |
✅ 匹配 | 90日滚动窗口是否有效 | 在数据源和定义中均存在。 |
sales_quantity |
✅ 匹配 | 当日销售量 (无销售则为0) | 在数据源和定义中均存在。 |
sales_quantity_rolling_mean_15d |
✅ 匹配 | 过去15日平均销售量 | 在数据源和定义中均存在。 |
sales_quantity_rolling_mean_30d |
✅ 匹配 | 过去30日平均销售量 | 在数据源和定义中均存在。 |
sales_quantity_rolling_mean_7d |
✅ 匹配 | 过去7日平均销售量 | 在数据源和定义中均存在。 |
sales_quantity_rolling_mean_90d |
✅ 匹配 | 过去90日平均销售量 | 在数据源和定义中均存在。 |
sales_quantity_rolling_sum_15d |
✅ 匹配 | 过去15日总销售量 | 在数据源和定义中均存在。 |
sales_quantity_rolling_sum_30d |
✅ 匹配 | 过去30日总销售量 | 在数据源和定义中均存在。 |
sales_quantity_rolling_sum_7d |
✅ 匹配 | 过去7日总销售量 | 在数据源和定义中均存在。 |
sales_quantity_rolling_sum_90d |
✅ 匹配 | 过去90日总销售量 | 在数据源和定义中均存在。 |
sample_category |
✅ 匹配 | 生命周期分类 (new/medium/old) | 在数据源和定义中均存在。 |
subbh |
✅ 匹配 | 店铺唯一标识 | 在数据源和定义中均存在。 |
temperature_2m_mean |
✅ 匹配 | 当日平均气温 | 在数据源和定义中均存在。 |
temperature_2m_max |
✅ 匹配 | 当日最高气温 | 在数据源和定义中均存在。 |
temperature_2m_min |
✅ 匹配 | 当日最低气温 | 在数据源和定义中均存在。 |
transaction_count |
✅ 匹配 | 当日交易次数 (无销售则为0) | 在数据源和定义中均存在。 |
week_of_month |
✅ 匹配 | 当月第几周 (1-5) | 在数据源和定义中均存在。 |
产地_encoded |
✅ 匹配 | 产地的数字编码 | 在数据源和定义中均存在。 |
商品ABC分类_encoded |
✅ 匹配 | 商品ABC分类的数字编码 | 在数据源和定义中均存在。 |
商品手册代码_encoded |
✅ 匹配 | 商品手册代码的数字编码 | 在数据源和定义中均存在。 |
零售中类代码_encoded |
✅ 匹配 | 零售中类代码的数字编码 | 在数据源和定义中均存在。 |
零售大类代码_encoded |
✅ 匹配 | 零售大类代码的数字编码 | 在数据源和定义中均存在。 |
零售小类代码_encoded |
✅ 匹配 | 零售小类代码的数字编码 | 在数据源和定义中均存在。 |
net_sales_quantity_rolling_mean_180d |
⚠️ 缺失 | 过去180日平均净销量 | 在代码或文档中定义,但Parquet文件中不存在。 |
net_sales_quantity_rolling_mean_365d |
⚠️ 缺失 | 过去365日平均净销量 | 在代码或文档中定义,但Parquet文件中不存在。 |
net_sales_quantity_rolling_sum_180d |
⚠️ 缺失 | 过去180日总净销量 | 在代码或文档中定义,但Parquet文件中不存在。 |
net_sales_quantity_rolling_sum_365d |
⚠️ 缺失 | 过去365日总净销量 | 在代码或文档中定义,但Parquet文件中不存在。 |
return_quantity_rolling_mean_180d |
⚠️ 缺失 | 过去180日平均退货量 | 在代码或文档中定义,但Parquet文件中不存在。 |
return_quantity_rolling_mean_365d |
⚠️ 缺失 | 过去365日平均退货量 | 在代码或文档中定义,但Parquet文件中不存在。 |
return_quantity_rolling_sum_180d |
⚠️ 缺失 | 过去180日总退货量 | 在代码或文档中定义,但Parquet文件中不存在。 |
return_quantity_rolling_sum_365d |
⚠️ 缺失 | 过去365日总退货量 | 在代码或文档中定义,但Parquet文件中不存在。 |
sales_quantity_rolling_mean_180d |
⚠️ 缺失 | 过去180日平均销售量 | 在代码或文档中定义,但Parquet文件中不存在。 |
sales_quantity_rolling_mean_365d |
⚠️ 缺失 | 过去365日平均销售量 | 在代码或文档中定义,但Parquet文件中不存在。 |
sales_quantity_rolling_sum_180d |
⚠️ 缺失 | 过去180日总销售量 | 在代码或文档中定义,但Parquet文件中不存在。 |
sales_quantity_rolling_sum_365d |
⚠️ 缺失 | 过去365日总销售量 | 在代码或文档中定义,但Parquet文件中不存在。 |