| 
					
				 | 
			
			
				@@ -0,0 +1,116 @@ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+# 🌐 跨境数据采集脚本 (crossborder) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+这是一个用于跨境电子商务平台数据采集的 Python 脚本工具集。支持多个省市(如山东、广东、河南等)的数据下载与清洗入库操作,适用于自动化数据抓取、数据治理及数据库导入等场景。 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+## 🧩 项目概述 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+该项目使用了以下技术栈: 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+- 🕸️ Selenium/Scrapy:网页数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+- 📊 Pandas/OpenPyXL:数据处理与 Excel 操作 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+- 🔐 Requests/PyCryptodome:API 请求与加密 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+- 🛠️ Poetry:依赖管理 & 构建发布 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+## 📁 项目结构 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+```plaintext 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+crossborder/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+├── crossborder/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── anhui/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── fujian/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── guangdong/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── hebei/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── henan/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── jiangsu/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── quanguo/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── shandong/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── zhejiang/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── utils/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   ├── data_cleaning_to_db.py 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+│   └── cli.py 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+├── pyproject.toml 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+└── README.md 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+``` 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+## 🗂️ 输出文件路径 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+```plaintext 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+crossborder/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+└── downloads/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+    └── shandong/ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+        └── data_*.xlsx 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+```         
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+         
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+## ⚙️ 安装指南 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+```bash 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+# 1. 安装Poetry 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+curl -sSL https://install.python-poetry.org | python3 - 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+# 2. 克隆仓库 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+git clone http://42.192.203.166:3000/wyp/crossborder.git 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+cd crossborder 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+# 3. 安装依赖 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry install 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+``` 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+## 🚀 使用方法 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+```bash 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+# 省级数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-shandong       # 启动山东省数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-guangdong      # 启动广东省省级数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-henan          # 启动河南省数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-fujian         # 启动福建省数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-anhui          # 启动安徽省数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-jiangsu        # 启动江苏省数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-hebei          # 启动河北省数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-zhejiang       # 启动浙江省数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+# 特殊命令 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-guangdong-city # 启动广东省城市级数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-quanguo        # 启动全国性平台数据采集 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry run run-total-city     # 清洗各省市数据并统一入库 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+``` 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+## ⚠️ 注意事项 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+1. downloads/目录打包时排除,不会包含在最终发布包中 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2. 需要Python ≥3.10环境 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+3. Chrome浏览器需与WebDriver版本匹配 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+4. 需要配置数据库连接信息才能使用入库功能 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+## 📦 打包发布 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+```bash 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+# 构建源码包 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry build --format sdist 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+# 生成文件位置 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+dist/crossborder-*.tar.gz 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+# 也可构建wheel包 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+poetry build --format wheel 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+``` 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+## 📋 打包配置 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+1. 排除目录:所有downloads/目录 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2. 打包格式:同时支持wheel和sdist 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+3. 入口命令:通过pyproject.toml中的tool.poetry.scripts定义 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+## 📚 开发者信息 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+- 作者:王玉鹏 (Wang Yupeng), 张帆 (Zhang Fan) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+- 邮箱:wangyupeng@yto.net.cn 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+- 许可证:MIT License 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+- Python版本:≥3.10 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+- 依赖管理:Poetry 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+## 🔧 核心依赖库 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+| 库名         | 版本要求 | 功能说明               | 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+|--------------|----------|------------------------| 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+| Selenium     | ≥4.32.0  | 自动化浏览器操作       | 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+| Requests     | ≥2.32.3  | HTTP 请求              | 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+| Pandas       | ≥2.2.3   | 数据分析与处理         | 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+| Scrapy       | ≥2.13.0  | 网络爬虫框架           | 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+| BeautifulSoup| ≥4.13.4  | HTML 解析器            | 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+| lxml         | ≥5.4.0   | XML/HTML 解析          | 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+| Click        | ≥8.1.8   | CLI 命令行解析         | 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+| SQLAlchemy   | ≥2.0.41  | ORM 数据库操作         | 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+| PyCryptodome | ≥3.23.0  | 加密算法支持           | 
			 |