Skip to content

Bayonetta/GoogleMapReviewsScraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

GoogleMapReviewsScraper

用于将 Google Maps Reviews Scraper(浏览器/Automa 工作流)导出的评论 JSON 做二次处理:

  • Addition(HTML 片段)中解析并提取字段:サービス食事雰囲気
  • 批量输出清洗后的 JSON
  • 批量转换为 CSV / Excel 方便整理与分析

目录结构

  • datas/:放置从浏览器导出的原始 *.json
  • processed_datas/:清洗后的 *_processed.json(脚本自动生成)
  • csv/:CSV 输出目录(脚本自动生成)
  • excel/:Excel 输出目录(脚本自动生成)
  • data_handler.py:清洗原始 JSON(解析 Addition
  • file_transform.py:将清洗后的 JSON 转为 CSV / XLSX
  • 一键执行.cmd:Windows 下的一键执行入口(依次运行两个脚本)

前置条件

  • Python 3(建议 3.9+)
  • 需要安装依赖(用于导出 Excel):
pip install pandas openpyxl

说明:file_transform.py 使用 pandas.DataFrame(...).to_excel(...),通常需要 openpyxl 作为 Excel 写入引擎。

使用流程

1) 获取原始 JSON(浏览器端)

  1. 安装 Automa 插件
  2. 在 Automa 市场安装并运行 Google Map Reviews Scraper 工作流
  3. 将导出的所有 *.json 文件放入本项目的 datas/ 目录

2) 本地处理(脚本端)

Windows(推荐)

双击运行 一键执行.cmd,它会依次执行:

  • python .\data_handler.py
  • python .\file_transform.py

macOS / Linux / 或手动执行

在项目根目录运行:

python data_handler.py
python file_transform.py

输出说明

运行完成后会得到:

  • processed_datas/*_processed.json
    • 每条评论若原本存在 Addition 字段,会尝试解析并补充:
      • サービス
      • 食事
      • 雰囲気
    • 解析完成后会删除原字段 Addition
  • csv/*.csv:由 processed_datas/ 批量生成
  • excel/*.xlsx:由 processed_datas/ 批量生成

file_transform.py 默认列顺序优先为:

  • 名前内容評価サービス雰囲気食事

如果 JSON 中还有其它字段,会自动追加到列尾部。

常见问题

  • Q: 运行 file_transform.py 报错 “No module named pandas/openpyxl”?
    A: 先执行 pip install pandas openpyxl,并确保你运行脚本的 Python 与 pip 是同一个环境(可用 python -m pip install ...)。

  • Q: 为什么有些记录没有 サービス/食事/雰囲気
    A: 只有当原始记录里存在 Addition 且包含对应的 <b>サービス:</b> 等片段时才会被解析到;否则不会新增这些字段。

许可

LICENSE

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published