|
1 ay önce | |
---|---|---|
crossborder | 1 ay önce | |
.gitignore | 1 ay önce | |
README.md | 1 ay önce | |
pyproject.toml | 1 ay önce |
这是一个用于跨境电子商务平台数据采集的 Python 脚本工具集。支持多个省市(如山东、广东、河南等)的数据下载与清洗入库操作,适用于自动化数据抓取、数据治理及数据库导入等场景。
该项目使用了以下技术栈:
crossborder/
├── crossborder/
│ ├── anhui/
│ ├── fujian/
│ ├── guangdong/
│ ├── hebei/
│ ├── henan/
│ ├── jiangsu/
│ ├── quanguo/
│ ├── shandong/
│ ├── zhejiang/
│ ├── utils/
│ ├── data_cleaning_to_db.py
│ └── cli.py
├── pyproject.toml
└── README.md
crossborder/
└── downloads/
└── shandong/
└── data_*.xlsx
# 1. 安装Poetry
curl -sSL https://install.python-poetry.org | python3 -
# 2. 克隆仓库
git clone http://42.192.203.166:3000/wyp/crossborder.git
cd crossborder
# 3. 安装依赖
poetry install
# 省级数据采集
poetry run run-shandong # 启动山东省数据采集
poetry run run-guangdong # 启动广东省省级数据采集
poetry run run-henan # 启动河南省数据采集
poetry run run-fujian # 启动福建省数据采集
poetry run run-anhui # 启动安徽省数据采集
poetry run run-jiangsu # 启动江苏省数据采集
poetry run run-hebei # 启动河北省数据采集
poetry run run-zhejiang # 启动浙江省数据采集
# 特殊命令
poetry run run-guangdong-city # 启动广东省城市级数据采集
poetry run run-quanguo # 启动全国性平台数据采集
poetry run run-total-city # 清洗各省市数据并统一入库
# 构建源码包
poetry build --format sdist
# 生成文件位置
dist/crossborder-*.tar.gz
# 也可构建wheel包
poetry build --format wheel
库名 | 版本要求 | 功能说明 |
---|---|---|
Selenium | ≥4.32.0 | 自动化浏览器操作 |
Requests | ≥2.32.3 | HTTP 请求 |
Pandas | ≥2.2.3 | 数据分析与处理 |
Scrapy | ≥2.13.0 | 网络爬虫框架 |
BeautifulSoup | ≥4.13.4 | HTML 解析器 |
lxml | ≥5.4.0 | XML/HTML 解析 |
Click | ≥8.1.8 | CLI 命令行解析 |
SQLAlchemy | ≥2.0.41 | ORM 数据库操作 |
PyCryptodome | ≥3.23.0 | 加密算法支持 |