用于将 Google Maps Reviews Scraper(浏览器/Automa 工作流)导出的评论 JSON 做二次处理:
- 从
Addition(HTML 片段)中解析并提取字段:サービス、食事、雰囲気 - 批量输出清洗后的 JSON
- 批量转换为 CSV / Excel 方便整理与分析
datas/:放置从浏览器导出的原始*.jsonprocessed_datas/:清洗后的*_processed.json(脚本自动生成)csv/:CSV 输出目录(脚本自动生成)excel/:Excel 输出目录(脚本自动生成)data_handler.py:清洗原始 JSON(解析Addition)file_transform.py:将清洗后的 JSON 转为 CSV / XLSX一键执行.cmd:Windows 下的一键执行入口(依次运行两个脚本)
- Python 3(建议 3.9+)
- 需要安装依赖(用于导出 Excel):
pip install pandas openpyxl说明:file_transform.py 使用 pandas.DataFrame(...).to_excel(...),通常需要 openpyxl 作为 Excel 写入引擎。
- 安装 Automa 插件
- 在 Automa 市场安装并运行 Google Map Reviews Scraper 工作流
- 将导出的所有
*.json文件放入本项目的datas/目录
双击运行 一键执行.cmd,它会依次执行:
python .\data_handler.pypython .\file_transform.py
在项目根目录运行:
python data_handler.py
python file_transform.py运行完成后会得到:
processed_datas/*_processed.json- 每条评论若原本存在
Addition字段,会尝试解析并补充:サービス食事雰囲気
- 解析完成后会删除原字段
Addition
- 每条评论若原本存在
csv/*.csv:由processed_datas/批量生成excel/*.xlsx:由processed_datas/批量生成
file_transform.py 默认列顺序优先为:
名前、内容、評価、サービス、雰囲気、食事
如果 JSON 中还有其它字段,会自动追加到列尾部。
-
Q: 运行
file_transform.py报错 “No module named pandas/openpyxl”?
A: 先执行pip install pandas openpyxl,并确保你运行脚本的 Python 与 pip 是同一个环境(可用python -m pip install ...)。 -
Q: 为什么有些记录没有
サービス/食事/雰囲気?
A: 只有当原始记录里存在Addition且包含对应的<b>サービス:</b>等片段时才会被解析到;否则不会新增这些字段。
见 LICENSE。