zhangfan 1 hónapja
szülő
commit
984d876c3e
1 módosított fájl, 20 hozzáadás és 1 törlés
  1. 20 1
      crossborder/hebei/crawl_gov_hebei_full.py

+ 20 - 1
crossborder/hebei/crawl_gov_hebei_full.py

@@ -78,6 +78,21 @@ def remove_prefix_from_url(url):
 
     return url
 
+def standardize_year_month(filename):
+    """
+    从文件名中提取年份和月份,并返回标准格式 "YYYY年MM月"。
+
+    :param filename: 文件名
+    :return: 标准化的 "YYYY年MM月" 字符串,或 None 如果未找到匹配项
+    """
+    # 正则匹配类似 "2025年4月" 的格式
+    match = re.search(r'(\d{4})年(\d{1,2})月', filename)
+    if match:
+        year = match.group(1)
+        month = match.group(2)  # 补零
+        return f"{year}年{month}月"
+    return None
+
 def find_target_links(driver, year_month):
     """在当前页面找到符合 TARGET_TITLES 的文件并触发下载"""
     # 等待页面加载完成
@@ -97,7 +112,11 @@ def find_target_links(driver, year_month):
             if file_name.startswith('2022'):
                 return 'stop'
         else:
-            if not file_name.startswith(year_month):
+            standardized = standardize_year_month(file_name)
+            if standardized is None:
+                log.info(f"非 {year_month} 文件: {file_name}, continue")
+                continue
+            if standardized != year_month:
                 log.info(f"非 {year_month} 文件: {file_name}, stop")
                 return 'stop'
         if '进口商品' in file_name or '出口商品' in file_name or '分国家' in file_name or '分国别' in file_name or '地市' in file_name: