01495251 1 hónapja
szülő
commit
cdbf6022ab
1 módosított fájl, 116 hozzáadás és 0 törlés
  1. 116 0
      README.md

+ 116 - 0
README.md

@@ -0,0 +1,116 @@
+# 🌐 跨境数据采集脚本 (crossborder)
+
+这是一个用于跨境电子商务平台数据采集的 Python 脚本工具集。支持多个省市(如山东、广东、河南等)的数据下载与清洗入库操作,适用于自动化数据抓取、数据治理及数据库导入等场景。
+
+## 🧩 项目概述
+
+该项目使用了以下技术栈:
+- 🕸️ Selenium/Scrapy:网页数据采集
+- 📊 Pandas/OpenPyXL:数据处理与 Excel 操作
+- 🔐 Requests/PyCryptodome:API 请求与加密
+- 🛠️ Poetry:依赖管理 & 构建发布
+
+## 📁 项目结构
+```plaintext
+crossborder/
+├── crossborder/
+│   ├── anhui/
+│   ├── fujian/
+│   ├── guangdong/
+│   ├── hebei/
+│   ├── henan/
+│   ├── jiangsu/
+│   ├── quanguo/
+│   ├── shandong/
+│   ├── zhejiang/
+│   ├── utils/
+│   ├── data_cleaning_to_db.py
+│   └── cli.py
+├── pyproject.toml
+└── README.md
+```
+
+## 🗂️ 输出文件路径
+```plaintext
+crossborder/
+└── downloads/
+    └── shandong/
+        └── data_*.xlsx
+```        
+        
+
+## ⚙️ 安装指南
+```bash
+# 1. 安装Poetry
+curl -sSL https://install.python-poetry.org | python3 -
+
+# 2. 克隆仓库
+git clone http://42.192.203.166:3000/wyp/crossborder.git
+cd crossborder
+
+# 3. 安装依赖
+poetry install
+```
+
+## 🚀 使用方法
+```bash
+# 省级数据采集
+poetry run run-shandong       # 启动山东省数据采集
+poetry run run-guangdong      # 启动广东省省级数据采集
+poetry run run-henan          # 启动河南省数据采集
+poetry run run-fujian         # 启动福建省数据采集
+poetry run run-anhui          # 启动安徽省数据采集
+poetry run run-jiangsu        # 启动江苏省数据采集
+poetry run run-hebei          # 启动河北省数据采集
+poetry run run-zhejiang       # 启动浙江省数据采集
+
+# 特殊命令
+poetry run run-guangdong-city # 启动广东省城市级数据采集
+poetry run run-quanguo        # 启动全国性平台数据采集
+poetry run run-total-city     # 清洗各省市数据并统一入库
+
+
+```
+
+## ⚠️ 注意事项
+1. downloads/目录打包时排除,不会包含在最终发布包中
+2. 需要Python ≥3.10环境
+3. Chrome浏览器需与WebDriver版本匹配
+4. 需要配置数据库连接信息才能使用入库功能
+
+## 📦 打包发布
+```bash
+# 构建源码包
+poetry build --format sdist
+
+# 生成文件位置
+dist/crossborder-*.tar.gz
+
+# 也可构建wheel包
+poetry build --format wheel
+```
+
+## 📋 打包配置
+1. 排除目录:所有downloads/目录
+2. 打包格式:同时支持wheel和sdist
+3. 入口命令:通过pyproject.toml中的tool.poetry.scripts定义
+
+## 📚 开发者信息
+- 作者:王玉鹏 (Wang Yupeng), 张帆 (Zhang Fan)
+- 邮箱:wangyupeng@yto.net.cn
+- 许可证:MIT License
+- Python版本:≥3.10
+- 依赖管理:Poetry
+
+## 🔧 核心依赖库
+| 库名         | 版本要求 | 功能说明               |
+|--------------|----------|------------------------|
+| Selenium     | ≥4.32.0  | 自动化浏览器操作       |
+| Requests     | ≥2.32.3  | HTTP 请求              |
+| Pandas       | ≥2.2.3   | 数据分析与处理         |
+| Scrapy       | ≥2.13.0  | 网络爬虫框架           |
+| BeautifulSoup| ≥4.13.4  | HTML 解析器            |
+| lxml         | ≥5.4.0   | XML/HTML 解析          |
+| Click        | ≥8.1.8   | CLI 命令行解析         |
+| SQLAlchemy   | ≥2.0.41  | ORM 数据库操作         |
+| PyCryptodome | ≥3.23.0  | 加密算法支持           |