4 maanden geleden · abbc49f493
--- a/crossborder/cli.py
+++ b/crossborder/cli.py
@@ -2,6 +2,8 @@ import argparse
 
				 from importlib import import_module
			
 
				 import sys
			
 
				 
			
 
				+from crossborder.utils.log import log
			
 
				+
			
 
				 PROVINCE_MODULES = {
			
 
				     "shandong": "crossborder.shandong.selenium_shandong_download",
			
 
				     "guangdong": "crossborder.guangdong.selenium_guangdong_download",
			
@@ -18,7 +20,7 @@ PROVINCE_MODULES = {
 
				 def run_province(name, year=None):
			
 
				     try:
			
 
				         module = import_module(PROVINCE_MODULES[name])
			
 
				-        print(f"✅ 正在运行 {name} 模块...")
			
 
				+        log.info(f"✅ 正在运行 {name} 模块...")
			
 
				 
			
 
				         # 构造模拟的 sys.argv
			
 
				         fake_argv = ['script_name']
			
@@ -29,7 +31,7 @@ def run_province(name, year=None):
 
				         module.main()
			
 
				 
			
 
				     except Exception as e:
			
 
				-        print(f"❌ {name} 执行失败: {e}")
			
 
				+        log.error(f"❌ {name} 执行失败: {e}")
			
 
				 
			
 
				 def main():
			
 
				     parser = argparse.ArgumentParser(description="跨省数据采集器")
			
--- a/crossborder/fujian/selenium_fujian_download.py
+++ b/crossborder/fujian/selenium_fujian_download.py
@@ -11,7 +11,9 @@ from selenium.webdriver.support.ui import WebDriverWait
 
				 
			
 
				 from crossborder.fujian.fujian_parse_excel import parse_excel
			
 
				 from crossborder.utils.constants import DOWNLOAD_DIR
			
 
				+from crossborder.utils.db_helper import DBHelper
			
 
				 from crossborder.utils.download_utils import configure_stealth_options, generate_month_sequence, download_excel
			
 
				+from crossborder.utils.log import log
			
 
				 from crossborder.utils.parse_utils import traverse_and_process
			
 
				 
			
 
				 # 基础配置
			
@@ -36,10 +38,10 @@ def detect_latest_month(driver):
 
				             WebDriverWait(driver, 10).until(
			
 
				                 EC.presence_of_element_located((By.XPATH, f'//a[contains(@title, "{target_title}")]'))
			
 
				             )
			
 
				-            print(f"已找到最新月份数据 {check_year}-{check_month}")
			
 
				+            log.info(f"已找到最新月份数据 {check_year}-{check_month}")
			
 
				             return check_year, check_month
			
 
				         except:
			
 
				-            print(f"未找到 {target_title}")
			
 
				+            log.info(f"未找到 {target_title}")
			
 
				             continue
			
 
				     raise Exception("三个月内未找到有效数据")
			
 
				 
			
@@ -71,15 +73,15 @@ def process_month_data(driver, year, month):
 
				                     time.sleep(random.uniform(0.5, 1.5))  # 成功后等待
			
 
				                 except Exception as e:
			
 
				                     retry += 1
			
 
				-                    print(f"下载 {title} 失败（第{retry}次重试）: {str(e)}")
			
 
				+                    log.error(f"下载 {title} 失败（第{retry}次重试）: {str(e)}")
			
 
				                     if retry >= MAX_RETRY:
			
 
				-                        print(f"❌ 超出最大重试次数，跳过该文件：{title}")
			
 
				+                        log.error(f"❌ 超出最大重试次数，跳过该文件：{title}")
			
 
				                         return 1000
			
 
				                     else:
			
 
				-                        print(f"🔄 第{retry}次重试：{title}")
			
 
				+                        log.error(f"🔄 第{retry}次重试：{title}")
			
 
				                         time.sleep(random.uniform(2, 4))  # 重试前随机等待
			
 
				 
			
 
				-    print(f"本页找到{found_count}个有效表格")
			
 
				+    log.info(f"本页找到{found_count}个有效表格")
			
 
				     return found_count
			
 
				 
			
 
				 
			
@@ -89,7 +91,7 @@ def reverse_crawler(driver, target_months):
 
				     # target_months = [(2023, 5), (2023, 4)]
			
 
				     page = 1
			
 
				     for year, month in target_months:
			
 
				-        print(f"\n开始处理 {year}年{month}月数据".center(50, "="))
			
 
				+        log.info(f"\n开始处理 {year}年{month}月数据".center(50, "="))
			
 
				 
			
 
				         WebDriverWait(driver, 15).until(
			
 
				             EC.presence_of_element_located((By.CLASS_NAME, "conList_ul"))
			
@@ -104,22 +106,22 @@ def reverse_crawler(driver, target_months):
 
				 
			
 
				             try:
			
 
				                 # 动态检测当前页面月份
			
 
				-                print(f"当前页面：{driver.current_url}, 第{page}页")
			
 
				+                log.info(f"当前页面：{driver.current_url}, 第{page}页")
			
 
				 
			
 
				                 # 处理当前页面的表格数据
			
 
				                 found = process_month_data(driver, year, month)
			
 
				                 found_tables += found
			
 
				 
			
 
				                 if found_tables == 1000:
			
 
				-                    print(f"❌{year}年{month}月数据采集失败，跳过当前月")
			
 
				+                    log.error(f"❌{year}年{month}月数据采集失败，跳过当前月")
			
 
				                     break
			
 
				 
			
 
				                 # 完成四个表格采集
			
 
				                 if found_tables >= 1:
			
 
				-                    print(f"已完成{year}年{month}月全部表格采集")
			
 
				+                    log.info(f"已完成{year}年{month}月全部表格采集")
			
 
				                     processed_months.add((year, month))
			
 
				                     break
			
 
				-                print(f"第{page}页已采集表格数：{found_tables}/1,前往下一页采集")
			
 
				+                log.info(f"第{page}页已采集表格数：{found_tables}/1,前往下一页采集")
			
 
				                 # 分页操作（增强定位稳定性）
			
 
				                 WebDriverWait(driver, 15).until(
			
 
				                     EC.element_to_be_clickable((By.XPATH, '//a[contains(text(),"下一页")]'))
			
@@ -130,10 +132,10 @@ def reverse_crawler(driver, target_months):
 
				 
			
 
				 
			
 
				             except TimeoutException:
			
 
				-                print(f"未找到更多分页，已采集表格数：{found_tables}/1")
			
 
				+                log.error(f"未找到更多分页，已采集表格数：{found_tables}/1")
			
 
				                 break
			
 
				             except Exception as e:
			
 
				-                print(f"分页异常：{str(e)}")
			
 
				+                log.error(f"分页异常：{str(e)}")
			
 
				                 handle_retry(driver)  # 异常恢复函数
			
 
				                 break
			
 
				 
			
@@ -153,9 +155,9 @@ def handle_retry(driver):
 
				         WebDriverWait(driver, 15).until(
			
 
				             EC.presence_of_element_located((By.CLASS_NAME, "conList_ul"))
			
 
				         )
			
 
				-        print("浏览器异常已恢复")
			
 
				+        log.error("浏览器异常已恢复")
			
 
				     except:
			
 
				-        print("需要人工干预的严重错误")
			
 
				+        log.error("需要人工干预的严重错误")
			
 
				         raise
			
 
				 
			
 
				 
			
@@ -169,7 +171,7 @@ def main():
 
				     try:
			
 
				         # 智能检测最新有效月份
			
 
				         valid_year, valid_month = detect_latest_month(driver)
			
 
				-        print(f"检测到最新有效数据：{valid_year}年{valid_month:02d}月")
			
 
				+        log.info(f"检测到最新有效数据：{valid_year}年{valid_month:02d}月")
			
 
				 
			
 
				         # 生成目标序列
			
 
				         if args.year:
			
@@ -185,15 +187,18 @@ def main():
 
				             # 未指定年份时：取最近两个月
			
 
				             target_months = generate_month_sequence(valid_year, valid_month)
			
 
				 
			
 
				-        print(f"目标采集月份序列：{target_months}")
			
 
				+        log.info(f"目标采集月份序列：{target_months}")
			
 
				         reverse_crawler(driver, target_months)
			
 
				-        print(f"{len(target_months)}个月份数据已采集完毕")
			
 
				+        log.info(f"{len(target_months)}个月份数据已采集完毕")
			
 
				 
			
 
				     finally:
			
 
				         if 'driver' in locals():
			
 
				             driver.quit()
			
 
				-        print("\n数据清洗入库中...")
			
 
				+        log.info("\n数据清洗入库中...")
			
 
				         traverse_and_process(download_dir, parse_excel, province_name="fujian")
			
 
				+        log.info("\n福建省地级市数据同比更新中...")
			
 
				+        db_helper = DBHelper()
			
 
				+        db_helper.update_prov_yoy("福建省")
			
 
				 
			
 
				 
			
 
				 if __name__ == "__main__":
			
--- a/crossborder/guangdong/guangdong_gongbei_parse_excel.py
+++ b/crossborder/guangdong/guangdong_gongbei_parse_excel.py
@@ -4,9 +4,10 @@ from selenium.webdriver.support import expected_conditions as EC
 
				 from selenium.webdriver.support.ui import WebDriverWait
			
 
				 
			
 
				 from crossborder.utils.db_helper import DBHelper
			
 
				-from crossborder.quanguo.detail import parse_value
			
 
				+
			
 
				 from crossborder.utils.constants import GUANGDONG_CITY
			
 
				 from crossborder.utils.log import log
			
 
				+from crossborder.utils.parse_utils import parse_value
			
 
				 
			
 
				 PROV_CODE = "440000"
			
 
				 PROV_NAME = "广东省"
			
--- a/crossborder/henan/selenium_henan_download.py
+++ b/crossborder/henan/selenium_henan_download.py
@@ -15,6 +15,7 @@ from selenium.webdriver.support.ui import WebDriverWait
 
				 from crossborder.henan.henan_parse_excel import parse_excel
			
 
				 from crossborder.utils.constants import DOWNLOAD_DIR
			
 
				 from crossborder.utils.download_utils import configure_stealth_options, get_previous_month, download_excel, generate_month_sequence
			
 
				+from crossborder.utils.log import log
			
 
				 from crossborder.utils.parse_utils import traverse_and_process
			
 
				 
			
 
				 # 基础配置
			
@@ -26,7 +27,7 @@ download_dir = DOWNLOAD_DIR / "henan"
 
				 
			
 
				 
			
 
				 
			
 
				-
			
 
				+#####河南省海关无地级市进出口数据，次数地级市数去从海关总署取
			
 
				 
			
 
				 def detect_latest_month(driver):
			
 
				     """三级回溯智能检测最新有效月份（使用正则简化匹配）"""
			
@@ -52,12 +53,12 @@ def detect_latest_month(driver):
 
				             for element in elements:
			
 
				                 title = element.get_attribute("title")
			
 
				                 if pattern.search(title):
			
 
				-                    print(f"已找到最新月份数据 {check_year}-{check_month}")
			
 
				+                    log.info(f"已找到最新月份数据 {check_year}-{check_month}")
			
 
				                     return check_year, check_month
			
 
				 
			
 
				-            print(f"未找到匹配项（正则：{pattern.pattern}）")
			
 
				+            log.info(f"未找到匹配项（正则：{pattern.pattern}）")
			
 
				         except TimeoutException:
			
 
				-            print(f"页面加载超时或无匹配项（{check_year}-{check_month}）")
			
 
				+            log.error(f"页面加载超时或无匹配项（{check_year}-{check_month}）")
			
 
				             continue
			
 
				 
			
 
				     raise Exception("三个月内未找到有效数据")
			
@@ -102,14 +103,14 @@ def process_month_data(driver, year, month):
 
				                     success = True  # 成功则跳出循环
			
 
				                 except Exception as e:
			
 
				                     retry += 1
			
 
				-                    print(f"下载 {title} 失败（第{retry}次重试）: {e}")
			
 
				-                    traceback.print_exc()
			
 
				+                    log.error(f"下载 {title} 失败（第{retry}次重试）: {e}")
			
 
				+                    traceback.log.info_exc()
			
 
				                     if retry < max_retries:
			
 
				                         time.sleep(random.uniform(2, 5))  # 随机等待后再试
			
 
				                     else:
			
 
				-                        print(f"{title} 下载已达到最大重试次数，跳过该文件。")
			
 
				+                        log.error(f"{title} 下载已达到最大重试次数，跳过该文件。")
			
 
				 
			
 
				-    print(f"本页找到{found_count}个有效表格")
			
 
				+    log.error(f"本页找到{found_count}个有效表格")
			
 
				     return found_count
			
 
				 
			
 
				 
			
@@ -119,7 +120,7 @@ def reverse_crawler(driver, target_months):
 
				     # target_months = [(2023, 5), (2023, 4)]
			
 
				     page = 1
			
 
				     for year, month in target_months:
			
 
				-        print(f"\n开始处理 {year}年{month}月数据".center(50, "="))
			
 
				+        log.info(f"\n开始处理 {year}年{month}月数据".center(50, "="))
			
 
				 
			
 
				         WebDriverWait(driver, 15).until(
			
 
				             EC.presence_of_element_located((By.CLASS_NAME, "conList_ul"))
			
@@ -133,18 +134,18 @@ def reverse_crawler(driver, target_months):
 
				             random_sleep(base=2, variance=3)
			
 
				 
			
 
				             try:
			
 
				-                print(f"当前页面：{driver.current_url}, 第{page}页")
			
 
				+                log.info(f"当前页面：{driver.current_url}, 第{page}页")
			
 
				                 # 处理当前页面的表格数据
			
 
				                 found = process_month_data(driver, year, month)
			
 
				                 found_tables += found
			
 
				 
			
 
				                 # 完成四个表格采集
			
 
				                 if found_tables >= 3:
			
 
				-                    print(f"已完成{year}年{month}月全部表格采集")
			
 
				+                    log.info(f"已完成{year}年{month}月全部表格采集")
			
 
				                     processed_months.add((year, month))
			
 
				                     break
			
 
				 
			
 
				-                print(f"第{page}页已采集表格数：{found_tables}/3,前往下一页采集")
			
 
				+                log.info(f"第{page}页已采集表格数：{found_tables}/3,前往下一页采集")
			
 
				                 # 分页操作（增强定位稳定性）
			
 
				                 WebDriverWait(driver, 15).until(
			
 
				                     EC.element_to_be_clickable((By.XPATH, '//a[contains(text(),"下一页")]'))
			
@@ -155,10 +156,10 @@ def reverse_crawler(driver, target_months):
 
				 
			
 
				 
			
 
				             except TimeoutException:
			
 
				-                print(f"未找到更多分页，已采集表格数：{found_tables}/3")
			
 
				+                log.error(f"未找到更多分页，已采集表格数：{found_tables}/3")
			
 
				                 break
			
 
				             except Exception as e:
			
 
				-                print(f"分页异常：{str(e)}")
			
 
				+                log.error(f"分页异常：{str(e)}")
			
 
				                 handle_retry(driver)  # 异常恢复函数
			
 
				                 break
			
 
				 
			
@@ -188,9 +189,9 @@ def handle_retry(driver):
 
				         WebDriverWait(driver, 15).until(
			
 
				             EC.presence_of_element_located((By.CLASS_NAME, "conList_ul"))
			
 
				         )
			
 
				-        print("浏览器异常已恢复")
			
 
				+        log.info("浏览器异常已恢复")
			
 
				     except:
			
 
				-        print("需要人工干预的严重错误")
			
 
				+        log.error("需要人工干预的严重错误")
			
 
				         raise
			
 
				 
			
 
				 
			
@@ -204,7 +205,7 @@ def main():
 
				     try:
			
 
				         # 智能检测最新有效月份
			
 
				         valid_year, valid_month = detect_latest_month(driver)
			
 
				-        print(f"检测到最新有效数据：{valid_year}年{valid_month:02d}月")
			
 
				+        log.info(f"检测到最新有效数据：{valid_year}年{valid_month:02d}月")
			
 
				 
			
 
				         # 生成目标序列
			
 
				         if args.year:
			
@@ -219,13 +220,13 @@ def main():
 
				             # 未指定年份时：取最近两个月
			
 
				             target_months = generate_month_sequence(valid_year, valid_month)
			
 
				 
			
 
				-        print(f"目标采集月份序列：{target_months}")
			
 
				+        log.info(f"目标采集月份序列：{target_months}")
			
 
				         reverse_crawler(driver, target_months)
			
 
				-        print(f"{len(target_months)}个月份数据已采集完毕")
			
 
				+        log.info(f"{len(target_months)}个月份数据已采集完毕")
			
 
				 
			
 
				     finally:
			
 
				         driver.quit()
			
 
				-        print("\n数据清洗入库中...")
			
 
				+        log.info("\n数据清洗入库中...")
			
 
				         traverse_and_process(download_dir, parse_excel, province_name="henan")
			
 
				 
			
 
				 
			
--- a/crossborder/quanguo/data_cleaning_to_db.py
+++ b/crossborder/quanguo/data_cleaning_to_db.py
@@ -1,5 +1,6 @@
 
				 import os
			
 
				 import re
			
 
				+from datetime import datetime
			
 
				 from pathlib import Path
			
 
				 
			
 
				 from crossborder.quanguo.parse_commodity_country_detail_excel import parse_commodity_country_detail
			
@@ -9,6 +10,7 @@ from crossborder.quanguo.parse_month_excel import parse_month_table_excel
 
				 from crossborder.quanguo.parse_region_table_excel import parse_region_table_excel
			
 
				 from crossborder.quanguo.parse_year_excel import parse_year_table_excel
			
 
				 from crossborder.utils.constants import DOWNLOAD_DIR
			
 
				+from crossborder.utils.db_helper import DBHelper
			
 
				 from crossborder.utils.log import log
			
 
				 
			
 
				 
			
@@ -17,16 +19,6 @@ def perform_data_cleanup_and_import(current_year):
 
				     数据清洗与入库主函数
			
 
				     :param current_year: 当前年份，用于定位数据目录
			
 
				     """
			
 
				-    # from crossborder.quanguo.parse_year_excel.py import (
			
 
				-    #     parse_year_table_excel,
			
 
				-    #     parse_month_table_excel,
			
 
				-    #     parse_country_table_excel,
			
 
				-    #     parse_commodity_table_excel,
			
 
				-    #     parse_region_table_excel,
			
 
				-    #     parse_commodity_country_export,
			
 
				-    #     parse_commodity_country_import
			
 
				-    # )
			
 
				-
			
 
				     # 构建当前年度数据目录路径
			
 
				     year_data_dir = DOWNLOAD_DIR / "total" / str(current_year)
			
 
				 
			
@@ -92,5 +84,68 @@ def perform_data_cleanup_and_import(current_year):
 
				     except Exception as e:
			
 
				         log.error(f"数据清洗失败: {str(e)}")
			
 
				         raise
			
 
				-if __name__ == "__main__":
			
 
				-    perform_data_cleanup_and_import(2025)
			
 
				+    finally:
			
 
				+        log.info("更新省市同比数据！")
			
 
				+        db =DBHelper()
			
 
				+        db.update_prov_yoy("河南省")
			
 
				+
			
 
				+def process_all_region_tables():
			
 
				+    """
			
 
				+    按年份倒序处理（如：2025 -> 2024 -> 2023），每个月份也按倒序处理，
			
 
				+    解析所有'收发货人所在地表'文件。
			
 
				+    """
			
 
				+    # 当前年份开始，倒序到2023
			
 
				+    for year in range(datetime.now().year, 2022, -1):  # 2025 -> 2024 -> 2023
			
 
				+        year_data_dir = DOWNLOAD_DIR / "total" / str(year)
			
 
				+        if not year_data_dir.exists():
			
 
				+            log.warning(f"{year_data_dir} 目录不存在，跳过该年份")
			
 
				+            continue
			
 
				+
			
 
				+        log.info(f"\n开始处理 {year} 年的收发货人所在地表...")
			
 
				+
			
 
				+        try:
			
 
				+            # 获取所有月份子目录（如 01月、02月）
			
 
				+            month_dirs = [
			
 
				+                d for d in os.listdir(year_data_dir)
			
 
				+                if re.match(r'^\d{2}$', d)
			
 
				+            ]
			
 
				+
			
 
				+            if not month_dirs:
			
 
				+                log.warning(f"{year_data_dir} 下未找到任何月份目录，跳过该年份")
			
 
				+                continue
			
 
				+
			
 
				+            # 按月份倒序排序（12月优先）
			
 
				+            sorted_months = sorted(month_dirs, reverse=True)
			
 
				+
			
 
				+            for month in sorted_months:
			
 
				+                month_path = Path(year_data_dir) / month
			
 
				+                log.info(f"正在处理月份目录: {month_path}")
			
 
				+
			
 
				+                # 遍历该月份目录下的所有 Excel 文件
			
 
				+                for file in os.listdir(month_path):
			
 
				+                    full_path = month_path / file
			
 
				+
			
 
				+                    if not file.endswith(('.xls', '.xlsx')):
			
 
				+                        continue
			
 
				+
			
 
				+                    if '(8)' in file:
			
 
				+                        log.info(f"处理收发货人所在地表: {file}")
			
 
				+                        parse_region_table_excel(full_path)
			
 
				+
			
 
				+            log.info(f"{year} 年的数据处理完成！")
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            log.error(f"{year} 年数据处理失败: {str(e)}")
			
 
				+        finally:
			
 
				+            log.info("更新省市同比数据！")
			
 
				+            db = DBHelper()
			
 
				+            db.update_prov_yoy("河南省")
			
 
				+
			
 
				+
			
 
				+# if __name__ == "__main__":
			
 
				+#     process_all_region_tables()
			
 
				+
			
 
				+
			
 
				+
			
 
				+# if __name__ == "__main__":
			
 
				+#     perform_data_cleanup_and_import(2025)
			
--- a/crossborder/quanguo/parse_region_table_excel.py
+++ b/crossborder/quanguo/parse_region_table_excel.py
@@ -22,10 +22,11 @@ def parse_region_table_excel(file_path):
 
				         print(f"文件读取失败：{file_path}\n错误：{str(e)}")
			
 
				         return 0
			
 
				 
			
 
				-    params = []
			
 
				+    params_old = []  # 老逻辑的数据（非地级市）
			
 
				+    params_new = []  # 新逻辑的地级市数据
			
 
				 
			
 
				     # SQL模板使用命名占位符
			
 
				-    sql_template = """
			
 
				+    sql_template_old = """
			
 
				                    INSERT INTO `t_yujin_crossborder_region_trade`
			
 
				                    (`year_month`, `region_code`, `region_name`, `region_type`,
			
 
				                     `monthly_total`, `monthly_export`, `monthly_import`,
			
@@ -46,6 +47,22 @@ def parse_region_table_excel(file_path):
 
				                    ,create_time = NOW()
			
 
				                    """
			
 
				 
			
 
				+    # SQL模板2：新表 - t_yujin_crossborder_prov_region_trade
			
 
				+    sql_template_new = """
			
 
				+        INSERT INTO `t_yujin_crossborder_prov_region_trade`
			
 
				+        (`crossborder_year`, `crossborder_year_month`, `prov_code`, `prov_name`,
			
 
				+         `city_code`, `city_name`, `monthly_total`, `monthly_import`, `monthly_export`)
			
 
				+        VALUES 
			
 
				+        (:crossborder_year, :crossborder_year_month, :prov_code, :prov_name,
			
 
				+         :city_code, :city_name, :monthly_total, :monthly_import, :monthly_export)
			
 
				+        ON DUPLICATE KEY UPDATE
			
 
				+            monthly_total = VALUES(monthly_total),
			
 
				+            monthly_import = VALUES(monthly_import),
			
 
				+            monthly_export = VALUES(monthly_export),
			
 
				+            create_time = NOW()
			
 
				+    """
			
 
				+
			
 
				+
			
 
				     # 从第7行开始读取（索引6）
			
 
				     for row_idx in range(6, sheet.nrows):
			
 
				         try:
			
@@ -68,20 +85,39 @@ def parse_region_table_excel(file_path):
 
				                     print(f"⚠️ 地区匹配失败：{region_name}")
			
 
				                     continue
			
 
				 
			
 
				-            # 构建参数字典
			
 
				-            param_dict = {
			
 
				-                "year_month": year_month,
			
 
				-                "region_code": region_info['code'],  # region_code
			
 
				-                "region_name": region_name,
			
 
				-                "region_type": region_info['type'],
			
 
				-                "monthly_total": parse_value(row[2]),  # monthly_total
			
 
				-                "monthly_import": parse_value(row[4]),  # monthly_import
			
 
				-                "monthly_export": parse_value(row[6]),  # monthly_export
			
 
				-                "ytd_total": parse_value(row[8]),  # ytd_total
			
 
				-                "ytd_import": parse_value(row[9]),  # ytd_import
			
 
				-                "ytd_export": parse_value(row[10])  # ytd_export
			
 
				-            }
			
 
				-            params.append(param_dict)
			
 
				+            is_municipality = region_name in ["北京市","天津市","上海市","重庆市"]
			
 
				+            is_city = region_name.endswith("市") and not is_municipality
			
 
				+
			
 
				+
			
 
				+            if is_city:
			
 
				+                # ✅ 地级市（非直辖市），写入新表
			
 
				+                param_dict_new = {
			
 
				+                    "crossborder_year": year,
			
 
				+                    "crossborder_year_month": year_month,
			
 
				+                    "prov_code": region_info['province_code'],
			
 
				+                    "prov_name": region_info['province_name'],
			
 
				+                    "city_code": region_info['code'],
			
 
				+                    "city_name": region_name,
			
 
				+                    "monthly_total": parse_value(row[2]),
			
 
				+                    "monthly_import": parse_value(row[6]),
			
 
				+                    "monthly_export": parse_value(row[4]),
			
 
				+                }
			
 
				+                params_new.append(param_dict_new)
			
 
				+            else:
			
 
				+                # ❌ 非地级市（含省、自治区、直辖市等），写入老表
			
 
				+                param_dict_old = {
			
 
				+                    "year_month": year_month,
			
 
				+                    "region_code": region_info['code'],
			
 
				+                    "region_name": region_name,
			
 
				+                    "region_type": region_info['type'],
			
 
				+                    "monthly_total": parse_value(row[2]),
			
 
				+                    "monthly_import": parse_value(row[6]),
			
 
				+                    "monthly_export": parse_value(row[4]),
			
 
				+                    "ytd_total": parse_value(row[8]),
			
 
				+                    "ytd_import": parse_value(row[10]),
			
 
				+                    "ytd_export": parse_value(row[9]),
			
 
				+                }
			
 
				+                params_old.append(param_dict_old)
			
 
				 
			
 
				         except Exception as e:
			
 
				             print(f"行{row_idx}处理失败：{str(e)}")
			
@@ -89,15 +125,21 @@ def parse_region_table_excel(file_path):
 
				 
			
 
				     # 使用DBHelper执行批量SQL
			
 
				     try:
			
 
				-        if params:
			
 
				-            row_count = db.execute_sql_with_params(sql_template, params)
			
 
				-            print(f"✅ 成功处理 {len(params)} 条记录，插入/更新 {row_count} 行")
			
 
				-            return row_count
			
 
				-        print(f"⚠️ 未找到有效数据：{file_path}")
			
 
				-        return 0
			
 
				+        if params_old:
			
 
				+            row_count = db.execute_sql_with_params(sql_template_old, params_old)
			
 
				+            print(f"✅ 成功处理 {len(params_old)} 条记录（老表），插入/更新 {row_count} 行")
			
 
				     except Exception as e:
			
 
				-        print(f"数据库操作失败：{str(e)}")
			
 
				-        return 0
			
 
				+        print(f"数据库操作失败（老表）：{str(e)}")
			
 
				+
			
 
				+    # 执行新表插入
			
 
				+    try:
			
 
				+        if params_new:
			
 
				+            row_count = db.execute_sql_with_params(sql_template_new, params_new)
			
 
				+            print(f"✅ 成功处理 {len(params_new)} 条记录（新表），插入/更新 {row_count} 行")
			
 
				+    except Exception as e:
			
 
				+        print(f"数据库操作失败（新表）：{str(e)}")
			
 
				+
			
 
				+    return len(params_old) + len(params_new)
			
 
				 
			
 
				 
			
 
				 if __name__ == "__main__":
			
--- a/crossborder/quanguo/selenium_download.py
+++ b/crossborder/quanguo/selenium_download.py
@@ -13,6 +13,7 @@ from selenium.webdriver import FirefoxOptions, ActionChains
 
				 from selenium.webdriver.support import expected_conditions as EC
			
 
				 from selenium.webdriver.support.ui import WebDriverWait
			
 
				 
			
 
				+from crossborder.quanguo.data_cleaning_to_db import perform_data_cleanup_and_import
			
 
				 from crossborder.quanguo.parse_country_table_excel import parse_country_table_excel
			
 
				 from crossborder.quanguo.parse_month_excel import parse_month_table_excel
			
 
				 from crossborder.quanguo.parse_year_excel import parse_year_table_excel
			
@@ -179,4 +180,4 @@ if __name__ == "__main__":
 
				         driver.quit()
			
 
				         log.info("【海关总署】全年数据抓取结束".center(66, "*"))
			
 
				         log.info("\n数据清洗入库中...")
			
 
				-        # perform_data_cleanup_and_import(current_year)
			
 
				+        perform_data_cleanup_and_import(current_year)
			
--- a/crossborder/shandong/shandong_parse_excel.py
+++ b/crossborder/shandong/shandong_parse_excel.py
@@ -5,8 +5,7 @@ import numpy as np
 
				 import pandas as pd
			
 
				 
			
 
				 from crossborder.utils.db_helper import DBHelper
			
 
				-from crossborder.quanguo.CountryTrade import COUNTRY_CODE_MAPPING
			
 
				-from crossborder.utils.constants import DOWNLOAD_DIR
			
 
				+from crossborder.utils.constants import DOWNLOAD_DIR, COUNTRY_CODE_MAPPING
			
 
				 from crossborder.utils.log import log
			
 
				 from crossborder.utils.parse_utils import clean_county_name, clean_commodity_name, convert_wan_to_yuan, \
			
 
				     extract_year_month_from_path, get_previous_month_dir, find_unmatched_countries, traverse_and_process
			
@@ -78,8 +77,6 @@ def process_combined_trade(current_dir, year, month, previous_dir=None):
 
				         prev_export = next(Path(previous_dir).glob("*出口20位主要商品总值*"), None)
			
 
				         if prev_import and prev_export:
			
 
				             prev_data = read_trade_pair(prev_import, prev_export)
			
 
				-    if prev_data.empty:
			
 
				-        raise FileNotFoundError("缺少上个月数据")
			
 
				     # 计算逻辑优化
			
 
				     merged_data = current_data if month == 1 else calculate_monthly_values(current_data, prev_data)
			
 
				 
			
--- a/crossborder/utils/constants.py
+++ b/crossborder/utils/constants.py
@@ -2,15 +2,15 @@ import os
 
				 import sys
			
 
				 from pathlib import Path
			
 
				 
			
 
				-# PROJECT_ROOT = Path(os.path.abspath(os.path.dirname(__file__))).parent.parent
			
 
				+PROJECT_ROOT = Path(os.path.abspath(os.path.dirname(__file__))).parent.parent
			
 
				 
			
 
				-# if sys.platform.startswith('linux'):
			
 
				-#     # Linux环境指定为/home目录
			
 
				-#     DOWNLOAD_DIR = Path('/home/downloads')
			
 
				-# else:
			
 
				-#     # Windows保持原有结构（项目根目录下的downloads文件夹）
			
 
				-#     DOWNLOAD_DIR = PROJECT_ROOT / 'downloads'
			
 
				-DOWNLOAD_DIR = Path(os.getcwd(), '/downloads')
			
 
				+if sys.platform.startswith('linux'):
			
 
				+    # Linux环境指定为/home目录
			
 
				+    DOWNLOAD_DIR = Path.home() / 'downloads'
			
 
				+else:
			
 
				+    # Windows保持原有结构（项目根目录下的downloads文件夹）
			
 
				+    DOWNLOAD_DIR = PROJECT_ROOT / 'downloads'
			
 
				+# DOWNLOAD_DIR = Path(os.getcwd(), '/downloads')
			
 
				 DOWNLOAD_DIR.mkdir(exist_ok=True, parents=True)
			
 
				 
			
 
				 EXCLUDE_REGIONS = ["亚洲", "非洲", "欧洲", "拉丁美洲", "北美洲", "大洋洲", "南极洲",
			
@@ -341,7 +341,12 @@ REGION_MAPPING = {
 
				 
			
 
				     # 特别行政区
			
 
				     "香港特别行政区": {"code": "810000", "type": "province"},
			
 
				-    "澳门特别行政区": {"code": "820000", "type": "province"}
			
 
				+    "澳门特别行政区": {"code": "820000", "type": "province"},
			
 
				+
			
 
				+
			
 
				+    #地级市
			
 
				+    "郑州市": {"code": "410100", "province_code":"410000","province_name":"河南省"},
			
 
				+    "洛阳市": {"code": "410300", "province_code":"410000","province_name":"河南省"}
			
 
				 }
			
 
				 
			
 
				 GUANGDONG_CITY = {
			
--- a/crossborder/utils/db_helper.py
+++ b/crossborder/utils/db_helper.py
@@ -217,6 +217,7 @@ class DBHelper:
 
				             log.info(f"{prov_name}新数据更新数: {result.rowcount}")
			
 
				             return result.rowcount
			
 
				 
			
 
				+
			
 
				     def query(self, sql, params=None, return_df=True):
			
 
				         """
			
 
				         执行带参数的SQL语句（支持批量插入/更新）
			
--- a/crossborder/utils/download_utils.py
+++ b/crossborder/utils/download_utils.py
@@ -107,9 +107,13 @@ def download_excel(driver, url, year, month, title, download_dir):
 
				         # log.info(f"√ 已点击下载按钮：{download_btn.get_attribute("href")}")
			
 
				 
			
 
				         downloaded_file  = wait_for_download(download_dir)
			
 
				-        final_path = Path(f'{download_dir}/{year}/{month:02d}/{title}{downloaded_file.suffix}')
			
 
				-        if final_path.exists():
			
 
				-            final_path.unlink()
			
 
				+        final_dir = Path(f'{download_dir}/{year}/{month:02d}')
			
 
				+        final_path = Path(f'{final_dir}/{title}{downloaded_file.suffix}')
			
 
				+        # 删除 final_dir 中所有与 base_name 同名但不同后缀的文件
			
 
				+        for old_file in final_dir.glob(f'{title}.*'):
			
 
				+            if old_file.is_file():
			
 
				+                old_file.unlink()
			
 
				+                log.info(f"已删除旧文件：{old_file}")
			
 
				         download_rel_dir = Path(f'{download_dir}/{year}/{month:02d}')
			
 
				         download_rel_dir.mkdir(parents=True, exist_ok=True)
			
 
				         downloaded_file.rename(final_path)
			
--- a/crossborder/utils/log.py
+++ b/crossborder/utils/log.py
@@ -14,7 +14,7 @@ project_root = Path(os.getcwd()).parent.parent
 
				 
			
 
				 if sys.platform.startswith('linux'):
			
 
				     # Linux环境指定为/home目录
			
 
				-    log_dir = Path('/home/logs')
			
 
				+    log_dir = Path.home() / 'logs'
			
 
				 else:
			
 
				     log_dir = project_root / 'logs'
			
 
				 
			
--- a/crossborder/utils/parse_utils.py
+++ b/crossborder/utils/parse_utils.py
@@ -99,8 +99,8 @@ def find_unmatched_countries(final_df):
 
				 def extract_year_month_from_path(path):
			
 
				     parts = path.parts
			
 
				     try:
			
 
				-        year_part = parts[-3]
			
 
				-        month_part = parts[-2]
			
 
				+        year_part = parts[-2]
			
 
				+        month_part = parts[-1]
			
 
				         if not YEAR_PATTERN.match(year_part):
			
 
				             raise ValueError(f"无效年份格式：{year_part}")
			
 
				         if not MONTH_PATTERN.match(month_part):