преди 5 месеца · e1e26479e4
--- a/anhui/__init__.py
+++ b/anhui/__init__.py
@@ -0,0 +1,11 @@
 
				+import os
			
 
				+from pathlib import Path
			
 
				+
			
 
				+script_dir = os.path.dirname(os.path.abspath(__file__))
			
 
				+download_dir = os.path.join(script_dir, 'downloads')
			
 
				+# 创建目录（如果不存在）
			
 
				+os.makedirs(download_dir, exist_ok=True)
			
 
				+# 切换当前工作目录到 download_dir
			
 
				+os.chdir(download_dir)
			
 
				+Path(download_dir).mkdir(parents=True, exist_ok=True)
			
 
				+print("最终工作目录:", os.getcwd())
			
--- a/anhui/crawl_gov_anhui_full.py
+++ b/anhui/crawl_gov_anhui_full.py
@@ -1,7 +1,6 @@
 
				 import os
			
 
				 import random
			
 
				 import re
			
 
				-import sys
			
 
				 import time
			
 
				 from datetime import datetime, timedelta
			
 
				 from pathlib import Path
			
@@ -13,15 +12,12 @@ from selenium.webdriver.common.by import By
 
				 from selenium.webdriver.support import expected_conditions as EC
			
 
				 from selenium.webdriver.support.ui import WebDriverWait
			
 
				 
			
 
				-import gov_commodity_anhui_city
			
 
				-import gov_commodity_anhui_country
			
 
				-import gov_commodity_anhui_import_export
			
 
				+from anhui import gov_commodity_anhui_city, download_dir
			
 
				+from anhui import gov_commodity_anhui_country
			
 
				+from anhui import gov_commodity_anhui_import_export
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.log import log
			
 
				 
			
 
				-download_dir = base_country_code.download_dir
			
 
				-Path(download_dir).mkdir(parents=True, exist_ok=True)
			
 
				-
			
 
				 def configure_stealth_options():
			
 
				     """增强型反检测配置[1,4](@ref)"""
			
 
				     opts = FirefoxOptions()
			
@@ -202,7 +198,8 @@ def crawl_with_selenium(url, mark):
 
				         res = detect_latest_month(driver, url)
			
 
				         if res is None:
			
 
				             log.info("安徽省海关没有最新数据更新")
			
 
				-            sys.exit(0)
			
 
				+            # sys.exit(0)
			
 
				+            return None
			
 
				         year_month = res
			
 
				         print(f"检测到最新有效数据：{year_month}")
			
 
				 
			
@@ -251,6 +248,16 @@ def crawl_with_selenium(url, mark):
 
				 
			
 
				     finally:
			
 
				         driver.quit()
			
 
				+        print(f"安徽合肥海关全量数据下载任务完成")
			
 
				+        # 等待5s后执行
			
 
				+        time.sleep(5)
			
 
				+        hierarchical_traversal(download_dir)
			
 
				+        print("安徽合肥海关类章、国家、城市所有文件处理完成！")
			
 
				+        time.sleep(5)
			
 
				+        base_mysql.update_january_yoy('安徽省')
			
 
				+        base_mysql.update_shandong_yoy('安徽省')
			
 
				+        print("安徽合肥海关城市同比sql处理完成")
			
 
				+
			
 
				 
			
 
				 def wait_for_download_complete(timeout=30, existing_files=None):
			
 
				     """
			
@@ -311,16 +318,18 @@ def hierarchical_traversal(root_path):
 
				                 gov_commodity_anhui_country.process_folder(md['path'])
			
 
				                 gov_commodity_anhui_city.process_folder(md['path'])
			
 
				 
			
 
				-if __name__ == "__main__":
			
 
				+def main():
			
 
				     crawl_with_selenium('http://hefei.customs.gov.cn/hefei_customs/zfxxgkzl59/3169584/479584/479585/index.html', 'all')
			
 
				     # crawl_with_selenium('http://hefei.customs.gov.cn/hefei_customs/zfxxgkzl59/3169584/479584/479585/index.html', 'increment')
			
 
				-    print(f"安徽合肥海关全量数据下载任务完成")
			
 
				-    # 等待5s后执行
			
 
				-    time.sleep(5)
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				-    print("安徽合肥海关类章、国家、城市所有文件处理完成！")
			
 
				-    time.sleep(5)
			
 
				-    base_mysql.update_january_yoy('安徽省')
			
 
				-    base_mysql.update_shandong_yoy('安徽省')
			
 
				-    print("安徽合肥海关城市同比sql处理完成")
			
 
				-
			
 
				+    # print(f"安徽合肥海关全量数据下载任务完成")
			
 
				+    # # 等待5s后执行
			
 
				+    # time.sleep(5)
			
 
				+    # hierarchical_traversal(base_country_code.download_dir)
			
 
				+    # print("安徽合肥海关类章、国家、城市所有文件处理完成！")
			
 
				+    # time.sleep(5)
			
 
				+    # base_mysql.update_january_yoy('安徽省')
			
 
				+    # base_mysql.update_shandong_yoy('安徽省')
			
 
				+    # print("安徽合肥海关城市同比sql处理完成")
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    main()
			
--- a/anhui/gov_commodity_anhui_city.py
+++ b/anhui/gov_commodity_anhui_city.py
@@ -1,8 +1,8 @@
 
				-import time
			
 
				 from pathlib import Path
			
 
				 
			
 
				 import pandas as pd
			
 
				 
			
 
				+from anhui import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.base_country_code import format_sql_value
			
 
				 from utils.log import log
			
@@ -126,5 +126,5 @@ def hierarchical_traversal(root_path):
 
				                 process_folder(md['path'])
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				+    hierarchical_traversal(download_dir)
			
 
				     log.info(f"安徽合肥海关城市所有文件处理完成！")
			
--- a/anhui/gov_commodity_anhui_country.py
+++ b/anhui/gov_commodity_anhui_country.py
@@ -2,6 +2,7 @@ from pathlib import Path
 
				 
			
 
				 import pandas as pd
			
 
				 
			
 
				+from anhui import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.base_country_code import format_sql_value
			
 
				 from utils.log import log
			
@@ -135,5 +136,5 @@ def hierarchical_traversal(root_path):
 
				 
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				+    hierarchical_traversal(download_dir)
			
 
				     log.info("安徽合肥海关国别所有文件处理完成！")
			
--- a/anhui/gov_commodity_anhui_import_export.py
+++ b/anhui/gov_commodity_anhui_import_export.py
@@ -3,6 +3,7 @@ from pathlib import Path
 
				 
			
 
				 import pandas as pd
			
 
				 
			
 
				+from anhui import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 
			
 
				 from utils.base_country_code import format_sql_value
			
@@ -175,7 +176,7 @@ def hierarchical_traversal(root_path):
 
				                 process_folder(md['path'])
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				+    hierarchical_traversal(download_dir)
			
 
				 
			
 
				     # root = Path(base_country_code.download_dir)/'2025'/'04'
			
 
				     # process_folder(root)
			
--- a/auto_incre_main.py
+++ b/auto_incre_main.py
@@ -0,0 +1,19 @@
 
				+from anhui import crawl_gov_anhui_full
			
 
				+from hebei import crawl_gov_hebei_full
			
 
				+from jiangsu import crawl_gov_jiangsu_full
			
 
				+from zhejiang import crawl_gov_zhejiang_full
			
 
				+from fujian import selenium_fujian_download
			
 
				+from henan import selenium_henan_download
			
 
				+from shandong import selenium_shandong_download
			
 
				+from guangdong import selenium_guangdong_download
			
 
				+
			
 
				+# test
			
 
				+if __name__ == '__main__':
			
 
				+    crawl_gov_anhui_full.main()
			
 
				+    crawl_gov_hebei_full.main()
			
 
				+    crawl_gov_jiangsu_full.main()
			
 
				+    crawl_gov_zhejiang_full.main()
			
 
				+    selenium_fujian_download.main()
			
 
				+    selenium_henan_download.main()
			
 
				+    selenium_shandong_download.main()
			
 
				+    selenium_guangdong_download.main()
			
--- a/hebei/__init__.py
+++ b/hebei/__init__.py
@@ -0,0 +1,11 @@
 
				+import os
			
 
				+from pathlib import Path
			
 
				+
			
 
				+script_dir = os.path.dirname(os.path.abspath(__file__))
			
 
				+download_dir = os.path.join(script_dir, 'downloads')
			
 
				+# 创建目录（如果不存在）
			
 
				+os.makedirs(download_dir, exist_ok=True)
			
 
				+# 切换当前工作目录到 download_dir
			
 
				+os.chdir(download_dir)
			
 
				+Path(download_dir).mkdir(parents=True, exist_ok=True)
			
 
				+print("最终工作目录:", os.getcwd())
			
--- a/hebei/crawl_gov_hebei_full.py
+++ b/hebei/crawl_gov_hebei_full.py
@@ -2,9 +2,8 @@ import os
 
				 import random
			
 
				 import re
			
 
				 import time
			
 
				-import sys
			
 
				-from pathlib import Path
			
 
				 from datetime import datetime, timedelta
			
 
				+from pathlib import Path
			
 
				 
			
 
				 from faker import Faker
			
 
				 from selenium import webdriver
			
@@ -13,15 +12,13 @@ from selenium.webdriver.common.by import By
 
				 from selenium.webdriver.support import expected_conditions as EC
			
 
				 from selenium.webdriver.support.ui import WebDriverWait
			
 
				 
			
 
				+from hebei import download_dir
			
 
				+from hebei import gov_commodity_hebei_city
			
 
				+from hebei import gov_commodity_hebei_country
			
 
				+from hebei import gov_commodity_hebei_import_export
			
 
				 from utils import base_country_code, base_mysql
			
 
				-import gov_commodity_hebei_import_export
			
 
				-import gov_commodity_hebei_country
			
 
				-import gov_commodity_hebei_city
			
 
				 from utils.log import log
			
 
				 
			
 
				-download_dir = base_country_code.download_dir
			
 
				-Path(download_dir).mkdir(parents=True, exist_ok=True)
			
 
				-
			
 
				 
			
 
				 def get_current_target_titles():
			
 
				     return [
			
@@ -179,7 +176,8 @@ def crawl_with_selenium(url, mark):
 
				         res = detect_latest_month(driver, url)
			
 
				         if res is None:
			
 
				             log.info("河北省海关没有最新数据更新")
			
 
				-            sys.exit(0)
			
 
				+            # sys.exit(0)
			
 
				+            return
			
 
				         year_month = res
			
 
				         print(f"检测到最新有效数据：{year_month}")
			
 
				 
			
@@ -227,6 +225,14 @@ def crawl_with_selenium(url, mark):
 
				             log.info(f"开始爬取 {next_page_url} 页面数据")
			
 
				     finally:
			
 
				         driver.quit()
			
 
				+        # 等待5s后执行
			
 
				+        time.sleep(5)
			
 
				+        hierarchical_traversal(download_dir)
			
 
				+        log.info(f"河北石家庄海关全量数据下载任务完成")
			
 
				+        time.sleep(5)
			
 
				+        base_mysql.update_january_yoy('河北省')
			
 
				+        base_mysql.update_shandong_yoy('河北省')
			
 
				+        log.info("河北石家庄海关城市同比sql处理完成")
			
 
				 
			
 
				 def wait_for_download_complete(timeout=30, existing_files=None):
			
 
				     """
			
@@ -289,14 +295,17 @@ def hierarchical_traversal(root_path):
 
				                 gov_commodity_hebei_city.process_folder(md['path'])
			
 
				 
			
 
				 
			
 
				-if __name__ == "__main__":
			
 
				-    crawl_with_selenium('http://shijiazhuang.customs.gov.cn/shijiazhuang_customs/zfxxgk43/2988665/2988681/index.html', 'all')
			
 
				-    # crawl_with_selenium('http://shijiazhuang.customs.gov.cn/shijiazhuang_customs/zfxxgk43/2988665/2988681/index.html', 'increment')
			
 
				+def main():
			
 
				+    # crawl_with_selenium('http://shijiazhuang.customs.gov.cn/shijiazhuang_customs/zfxxgk43/2988665/2988681/index.html', 'all')
			
 
				+    crawl_with_selenium('http://shijiazhuang.customs.gov.cn/shijiazhuang_customs/zfxxgk43/2988665/2988681/index.html', 'increment')
			
 
				     # 等待5s后执行
			
 
				-    time.sleep(5)
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				-    log.info(f"河北石家庄海关全量数据下载任务完成")
			
 
				-    time.sleep(5)
			
 
				-    base_mysql.update_january_yoy('河北省')
			
 
				-    base_mysql.update_shandong_yoy('河北省')
			
 
				-    log.info("河北石家庄海关城市同比sql处理完成")
			
 
				+    # time.sleep(5)
			
 
				+    # hierarchical_traversal(base_country_code.download_dir)
			
 
				+    # log.info(f"河北石家庄海关全量数据下载任务完成")
			
 
				+    # time.sleep(5)
			
 
				+    # base_mysql.update_january_yoy('河北省')
			
 
				+    # base_mysql.update_shandong_yoy('河北省')
			
 
				+    # log.info("河北石家庄海关城市同比sql处理完成")
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    main()
			
--- a/hebei/gov_commodity_hebei_city.py
+++ b/hebei/gov_commodity_hebei_city.py
@@ -3,6 +3,7 @@ from pathlib import Path
 
				 import pandas
			
 
				 import pandas as pd
			
 
				 
			
 
				+from hebei import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.base_country_code import format_sql_value
			
 
				 from utils.log import log
			
@@ -122,5 +123,5 @@ def hierarchical_traversal(root_path):
 
				                 process_folder(md['path'])
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				+    hierarchical_traversal(download_dir)
			
 
				     log.info(f"河北石家庄海关城市所有文件处理完成！")
			
--- a/hebei/gov_commodity_hebei_country.py
+++ b/hebei/gov_commodity_hebei_country.py
@@ -3,6 +3,7 @@ from pathlib import Path
 
				 import pandas
			
 
				 import pandas as pd
			
 
				 
			
 
				+from hebei import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.base_country_code import format_sql_value
			
 
				 from utils.log import log
			
@@ -117,5 +118,5 @@ def hierarchical_traversal(root_path):
 
				                 process_folder(md['path'])
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				+    hierarchical_traversal(download_dir)
			
 
				     log.info(f"河北石家庄海关国家的所有文件处理完成！")
			
--- a/hebei/gov_commodity_hebei_import_export.py
+++ b/hebei/gov_commodity_hebei_import_export.py
@@ -4,6 +4,7 @@ import pandas as pd
 
				 import re
			
 
				 from utils.log import log
			
 
				 
			
 
				+from hebei import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.base_country_code import format_sql_value
			
 
				 
			
@@ -178,8 +179,8 @@ def hierarchical_traversal(root_path):
 
				                 process_folder(md['path'])
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				+    hierarchical_traversal(download_dir)
			
 
				 
			
 
				-    # root = Path(base_country_code.download_dir)/'2023'/'02'
			
 
				+    # root = Path(download_dir)/'2023'/'02'
			
 
				     # process_folder(root)
			
 
				     log.info(f"河北石家庄海关出入口商品所有文件处理完成！")
			
--- a/jiangsu/__init__.py
+++ b/jiangsu/__init__.py
@@ -0,0 +1,11 @@
 
				+import os
			
 
				+from pathlib import Path
			
 
				+
			
 
				+script_dir = os.path.dirname(os.path.abspath(__file__))
			
 
				+download_dir = os.path.join(script_dir, 'downloads')
			
 
				+# 创建目录（如果不存在）
			
 
				+os.makedirs(download_dir, exist_ok=True)
			
 
				+# 切换当前工作目录到 download_dir
			
 
				+os.chdir(download_dir)
			
 
				+Path(download_dir).mkdir(parents=True, exist_ok=True)
			
 
				+print("最终工作目录:", os.getcwd())
			
--- a/jiangsu/crawl_gov_jiangsu_full.py
+++ b/jiangsu/crawl_gov_jiangsu_full.py
@@ -15,17 +15,17 @@ from selenium.webdriver import FirefoxOptions
 
				 from selenium.webdriver.common.by import By
			
 
				 from selenium.webdriver.support import expected_conditions as EC
			
 
				 from selenium.webdriver.support.ui import WebDriverWait
			
 
				-import gov_commodity_jiangsu_country
			
 
				-import gov_commodity_jiangsu_city
			
 
				-import gov_commodity_jiangsu_import_export
			
 
				+
			
 
				+from jiangsu import download_dir
			
 
				+from jiangsu import gov_commodity_jiangsu_country
			
 
				+from jiangsu import gov_commodity_jiangsu_city
			
 
				+from jiangsu import gov_commodity_jiangsu_import_export
			
 
				 
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.log import log
			
 
				 
			
 
				 # rarfile.UNRAR_EXECUTABLE = r"C:\Program Files\WinRAR\UnRAR.exe"
			
 
				 rarfile.UNRAR_EXECUTABLE = "unrar"
			
 
				-download_dir = base_country_code.download_dir
			
 
				-Path(download_dir).mkdir(parents=True, exist_ok=True)
			
 
				 
			
 
				 def configure_stealth_options():
			
 
				     """增强型反检测配置[1,4](@ref)"""
			
@@ -217,7 +217,8 @@ def crawl_with_selenium(url, mark):
 
				         res = detect_latest_month(driver, url)
			
 
				         if res is None:
			
 
				             log.info("江苏省海关没有最新数据更新")
			
 
				-            sys.exit(0)
			
 
				+            # sys.exit(0)
			
 
				+            return
			
 
				         year_month = res
			
 
				         print(f"检测到最新有效数据：{year_month}")
			
 
				 
			
@@ -266,6 +267,16 @@ def crawl_with_selenium(url, mark):
 
				 
			
 
				     finally:
			
 
				         driver.quit()
			
 
				+        log.info(f"江苏南京海关全量数据下载任务完成")
			
 
				+        # 等待5s后执行
			
 
				+        time.sleep(5)
			
 
				+        all_records = base_mysql.get_hs_all()
			
 
				+        hierarchical_traversal(download_dir, all_records)
			
 
				+        log.info("江苏南京海关类章、国家、城市所有文件处理完成！")
			
 
				+        time.sleep(5)
			
 
				+        base_mysql.update_january_yoy('江苏省')
			
 
				+        base_mysql.update_shandong_yoy('江苏省')
			
 
				+        log.info("江苏南京海关城市同比sql处理完成")
			
 
				 
			
 
				 
			
 
				 def wait_for_download_complete(timeout=30, existing_files=None):
			
@@ -321,17 +332,19 @@ def hierarchical_traversal(root_path, all_records):
 
				                 gov_commodity_jiangsu_country.process_folder(md['path'])
			
 
				                 gov_commodity_jiangsu_city.process_folder(md['path'])
			
 
				 
			
 
				-if __name__ == "__main__":
			
 
				+def main():
			
 
				     crawl_with_selenium('http://nanjing.customs.gov.cn/nanjing_customs/zfxxgk58/fdzdgknr95/3010051/589289/7e2fcc72-1.html', 'all')
			
 
				     # crawl_with_selenium('http://nanjing.customs.gov.cn/nanjing_customs/zfxxgk58/fdzdgknr95/3010051/589289/7e2fcc72-1.html', 'increment')
			
 
				-    log.info(f"江苏南京海关全量数据下载任务完成")
			
 
				-    # 等待5s后执行
			
 
				-    time.sleep(5)
			
 
				-    all_records = base_mysql.get_hs_all()
			
 
				-    hierarchical_traversal(base_country_code.download_dir, all_records)
			
 
				-    log.info("江苏南京海关类章、国家、城市所有文件处理完成！")
			
 
				-    time.sleep(5)
			
 
				-    base_mysql.update_january_yoy('江苏省')
			
 
				-    base_mysql.update_shandong_yoy('江苏省')
			
 
				-    log.info("江苏南京海关城市同比sql处理完成")
			
 
				-
			
 
				+    # log.info(f"江苏南京海关全量数据下载任务完成")
			
 
				+    # # 等待5s后执行
			
 
				+    # time.sleep(5)
			
 
				+    # all_records = base_mysql.get_hs_all()
			
 
				+    # hierarchical_traversal(base_country_code.download_dir, all_records)
			
 
				+    # log.info("江苏南京海关类章、国家、城市所有文件处理完成！")
			
 
				+    # time.sleep(5)
			
 
				+    # base_mysql.update_january_yoy('江苏省')
			
 
				+    # base_mysql.update_shandong_yoy('江苏省')
			
 
				+    # log.info("江苏南京海关城市同比sql处理完成")
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    main()
			
--- a/jiangsu/gov_commodity_jiangsu_city.py
+++ b/jiangsu/gov_commodity_jiangsu_city.py
@@ -3,6 +3,7 @@ from pathlib import Path
 
				 
			
 
				 import pandas as pd
			
 
				 
			
 
				+from jiangsu import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.base_country_code import format_sql_value
			
 
				 from utils.log import log
			
@@ -127,7 +128,7 @@ def hierarchical_traversal(root_path):
 
				                 process_folder(md['path'])
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				+    hierarchical_traversal(download_dir)
			
 
				     log.info(f"江苏南京海关城市所有文件处理完成！")
			
 
				     time.sleep(5)
			
 
				     base_mysql.update_january_yoy('江苏省')
			
--- a/jiangsu/gov_commodity_jiangsu_country.py
+++ b/jiangsu/gov_commodity_jiangsu_country.py
@@ -2,6 +2,7 @@ from pathlib import Path
 
				 
			
 
				 import pandas as pd
			
 
				 
			
 
				+from jiangsu import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.base_country_code import format_sql_value
			
 
				 from utils.log import log
			
@@ -129,5 +130,5 @@ def hierarchical_traversal(root_path):
 
				 
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				+    hierarchical_traversal(download_dir)
			
 
				     log.info("江苏南京海关国别所有文件处理完成！")
			
--- a/jiangsu/gov_commodity_jiangsu_import_export.py
+++ b/jiangsu/gov_commodity_jiangsu_import_export.py
@@ -3,6 +3,7 @@ from pathlib import Path
 
				 
			
 
				 import pandas as pd
			
 
				 
			
 
				+from jiangsu import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.log import log
			
 
				 
			
@@ -56,12 +57,12 @@ def process_folder(path, all_records):
 
				                 file_path = Path(path) / file
			
 
				                 df = pd.read_excel(file_path, header=None).iloc[6:]
			
 
				 
			
 
				-                temp_df = df[[1, 5]].rename(columns={1: 'commodity', 5: 'import'})
			
 
				+                temp_df = df[[1, 6]].rename(columns={1: 'commodity', 6: 'import'})
			
 
				                 temp_df['import'] = pd.to_numeric(temp_df['import'].replace('--', 0), errors='coerce')
			
 
				                 temp_df['import'] = temp_df['import'] * 10
			
 
				                 import_df = pd.concat([import_df, temp_df])
			
 
				 
			
 
				-                temp_df = df[[1, 3]].rename(columns={1: 'commodity', 3: 'export'})
			
 
				+                temp_df = df[[1, 4]].rename(columns={1: 'commodity', 4: 'export'})
			
 
				                 temp_df['export'] = pd.to_numeric(temp_df['export'].replace('--', 0), errors='coerce')
			
 
				                 temp_df['export'] = temp_df['export'] * 10
			
 
				                 export_df = pd.concat([export_df, temp_df])
			
@@ -162,8 +163,8 @@ def hierarchical_traversal(root_path, all_records):
 
				 
			
 
				 if __name__ == '__main__':
			
 
				     all_records = base_mysql.get_hs_all()
			
 
				-    hierarchical_traversal(base_country_code.download_dir, all_records)
			
 
				+    hierarchical_traversal(download_dir, all_records)
			
 
				 
			
 
				-    # root = Path(base_country_code.download_dir)/'2024'/'11'
			
 
				+    # root = Path(download_dir)/'2024'/'10'
			
 
				     # process_folder(root, all_records)
			
 
				     print("江苏南京海关类章所有文件处理完成！")
			
--- a/utils/base_country_code.py
+++ b/utils/base_country_code.py
@@ -328,11 +328,4 @@ def extract_year_month_from_path(path):
 
				             raise ValueError(f"无效月份格式：{month_part}")
			
 
				         return int(year_part), int(month_part)
			
 
				     except IndexError:
			
 
				-        raise ValueError("路径结构不符合要求，示例：.../shandong/2025/04")
			
 
				-
			
 
				-download_dir = os.path.abspath(os.path.join('downloads'))
			
 
				-download_dir_find = os.path.abspath(os.path.join('downloads/demo'))
			
 
				-
			
 
				-if __name__ == '__main__':
			
 
				-    year, month = extract_year_month_from_path(Path(download_dir)/'2025'/'02')
			
 
				-    log.info(year, month)
			
 
				+        raise ValueError("路径结构不符合要求，示例：.../shandong/2025/04")
			
--- a/utils/base_mysql.py
+++ b/utils/base_mysql.py
@@ -401,10 +401,13 @@ if __name__ == '__main__':
 
				     # count = get_code_exist(f'{check_year}-{check_month:02d}', "340000")
			
 
				     # print(count)
			
 
				 
			
 
				-    # update_january_yoy('浙江省')
			
 
				-    # update_shandong_yoy('浙江省')
			
 
				-
			
 
				+    # 新表更新地级市同比
			
 
				     for province in provinces:
			
 
				-        update_january_yoy_origin(province)
			
 
				-        update_shandong_yoy_origin(province)
			
 
				+        update_january_yoy(province)
			
 
				+        update_shandong_yoy(province)
			
 
				+
			
 
				+    # 旧表更新省份同比
			
 
				+    # for province in provinces:
			
 
				+    #     update_january_yoy_origin(province)
			
 
				+    #     update_shandong_yoy_origin(province)
			
 
				     log.info("同比sql处理完成")
			
--- a/zhejiang/__init__.py
+++ b/zhejiang/__init__.py
@@ -0,0 +1,11 @@
 
				+import os
			
 
				+from pathlib import Path
			
 
				+
			
 
				+script_dir = os.path.dirname(os.path.abspath(__file__))
			
 
				+download_dir = os.path.join(script_dir, 'downloads')
			
 
				+# 创建目录（如果不存在）
			
 
				+os.makedirs(download_dir, exist_ok=True)
			
 
				+# 切换当前工作目录到 download_dir
			
 
				+os.chdir(download_dir)
			
 
				+Path(download_dir).mkdir(parents=True, exist_ok=True)
			
 
				+print("最终工作目录:", os.getcwd())
			
--- a/zhejiang/crawl_gov_zhejiangi_full.py
+++ b/zhejiang/crawl_gov_zhejiangi_full.py
@@ -15,15 +15,13 @@ from selenium.webdriver.common.by import By
 
				 from selenium.webdriver.support import expected_conditions as EC
			
 
				 from selenium.webdriver.support.ui import WebDriverWait
			
 
				 
			
 
				-import gov_commodity_zhejiang_city
			
 
				-import gov_commodity_zhejiang_country
			
 
				-import gov_commodity_zhejiang_import_export
			
 
				+from zhejiang import download_dir
			
 
				+from zhejiang import gov_commodity_zhejiang_city
			
 
				+from zhejiang import gov_commodity_zhejiang_country
			
 
				+from zhejiang import gov_commodity_zhejiang_import_export
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.log import log
			
 
				 
			
 
				-download_dir = base_country_code.download_dir
			
 
				-Path(download_dir).mkdir(parents=True, exist_ok=True)
			
 
				-
			
 
				 def configure_stealth_options():
			
 
				     """增强型反检测配置[1,4](@ref)"""
			
 
				     opts = FirefoxOptions()
			
@@ -289,7 +287,8 @@ def crawl_with_selenium(url, mark):
 
				         res = detect_latest_month(driver, url)
			
 
				         if res is None:
			
 
				             log.info("浙江省海关没有最新数据更新")
			
 
				-            sys.exit(0)
			
 
				+            # sys.exit(0)
			
 
				+            return
			
 
				         year_month = res
			
 
				         print(f"检测到最新有效数据：{year_month}")
			
 
				 
			
@@ -311,6 +310,15 @@ def crawl_with_selenium(url, mark):
 
				 
			
 
				     finally:
			
 
				         driver.quit()
			
 
				+        log.info(f"浙江杭州海关全量数据下载任务完成")
			
 
				+        # 等待5s后执行
			
 
				+        time.sleep(5)
			
 
				+        hierarchical_traversal(download_dir)
			
 
				+        log.info("浙江杭州海关类章、国家、城市所有文件处理完成！")
			
 
				+        time.sleep(5)
			
 
				+        base_mysql.update_january_yoy('浙江省')
			
 
				+        base_mysql.update_shandong_yoy('浙江省')
			
 
				+        log.info("浙江杭州海关城市同比sql处理完成")
			
 
				 
			
 
				 def wait_for_download_complete(timeout=30, existing_files=None):
			
 
				     """
			
@@ -371,16 +379,18 @@ def hierarchical_traversal(root_path):
 
				                 gov_commodity_zhejiang_country.process_folder(md['path'])
			
 
				                 gov_commodity_zhejiang_city.process_folder(md['path'])
			
 
				 
			
 
				-if __name__ == "__main__":
			
 
				+def main():
			
 
				     # crawl_with_selenium('http://hangzhou.customs.gov.cn/hangzhou_customs/575609/zlbd/575612/575612/6430241/6430315/index.html', 'all')
			
 
				     crawl_with_selenium('http://hangzhou.customs.gov.cn/hangzhou_customs/575609/zlbd/575612/575612/6430241/6430315/index.html', 'increment')
			
 
				-    log.info(f"浙江杭州海关全量数据下载任务完成")
			
 
				-    # 等待5s后执行
			
 
				-    time.sleep(5)
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				-    log.info("浙江杭州海关类章、国家、城市所有文件处理完成！")
			
 
				-    time.sleep(5)
			
 
				-    base_mysql.update_january_yoy('浙江省')
			
 
				-    base_mysql.update_shandong_yoy('浙江省')
			
 
				-    log.info("浙江杭州海关城市同比sql处理完成")
			
 
				-
			
 
				+    # log.info(f"浙江杭州海关全量数据下载任务完成")
			
 
				+    # # 等待5s后执行
			
 
				+    # time.sleep(5)
			
 
				+    # hierarchical_traversal(download_dir)
			
 
				+    # log.info("浙江杭州海关类章、国家、城市所有文件处理完成！")
			
 
				+    # time.sleep(5)
			
 
				+    # base_mysql.update_january_yoy('浙江省')
			
 
				+    # base_mysql.update_shandong_yoy('浙江省')
			
 
				+    # log.info("浙江杭州海关城市同比sql处理完成")
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    main()
			
--- a/zhejiang/gov_commodity_zhejiang_city.py
+++ b/zhejiang/gov_commodity_zhejiang_city.py
@@ -3,6 +3,7 @@ from pathlib import Path
 
				 
			
 
				 import pandas as pd
			
 
				 
			
 
				+from zhejiang import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.base_country_code import format_sql_value
			
 
				 from utils.log import log
			
@@ -155,11 +156,11 @@ def hierarchical_traversal(root_path):
 
				                 process_folder(md['path'])
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				+    hierarchical_traversal(download_dir)
			
 
				     log.info(f"浙江杭州海关城市所有文件处理完成！")
			
 
				     time.sleep(5)
			
 
				     base_mysql.update_january_yoy('浙江省')
			
 
				     base_mysql.update_shandong_yoy('浙江省')
			
 
				     log.info("同比sql处理完成")
			
 
				-    # root = Path(base_country_code.download_dir)/'2024'/'07'
			
 
				+    # root = Path(download_dir)/'2024'/'07'
			
 
				     # process_folder(root)
			
--- a/zhejiang/gov_commodity_zhejiang_country.py
+++ b/zhejiang/gov_commodity_zhejiang_country.py
@@ -2,6 +2,7 @@ from pathlib import Path
 
				 
			
 
				 import pandas as pd
			
 
				 
			
 
				+from zhejiang import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.base_country_code import format_sql_value
			
 
				 from utils.log import log
			
@@ -165,8 +166,8 @@ def hierarchical_traversal(root_path):
 
				 
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    # hierarchical_traversal(base_country_code.download_dir)
			
 
				+    # hierarchical_traversal(download_dir)
			
 
				 
			
 
				-    root = Path(base_country_code.download_dir) / '2024' / '07'
			
 
				+    root = Path(download_dir) / '2024' / '07'
			
 
				     process_folder(root)
			
 
				     log.info("浙江杭州海关国别所有文件处理完成！")
			
--- a/zhejiang/gov_commodity_zhejiang_import_export.py
+++ b/zhejiang/gov_commodity_zhejiang_import_export.py
@@ -3,6 +3,7 @@ from pathlib import Path
 
				 import re
			
 
				 import pandas as pd
			
 
				 
			
 
				+from zhejiang import download_dir
			
 
				 from utils import base_country_code, base_mysql
			
 
				 from utils.base_country_code import format_sql_value
			
 
				 from utils.log import log
			
@@ -221,8 +222,8 @@ def hierarchical_traversal(root_path):
 
				                 process_folder(md['path'])
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				-    hierarchical_traversal(base_country_code.download_dir)
			
 
				+    hierarchical_traversal(download_dir)
			
 
				 
			
 
				-    # root = Path(base_country_code.download_dir)/'2023'/'01'
			
 
				+    # root = Path(download_dir)/'2023'/'01'
			
 
				     # process_folder(root)
			
 
				     log.info("浙江杭州海关类章所有文件处理完成！")