文档

专业提取、清洗和导出网页表格所需的一切。从基础导出到高级数据清洗流程。

简介

HTML Table Exporter 是一款 Chrome 扩展程序,能够检测网页中的表格并将其导出为你所需的格式。与需要复杂配置的网页爬虫不同,这款工具即开即用:点击、选择格式、下载。

100% 隐私保护

所有处理均在浏览器本地完成。你的数据绝不会离开你的设备。

适用人群

  • 数据分析师 需要从财务报告、政府网站或研究数据库中提取表格
  • 研究人员 从学术来源或 Wikipedia 收集结构化数据
  • 开发者 需要快速访问表格数据而无需构建爬虫
  • 任何人 厌倦了逐个单元格复制粘贴表格

何时使用 HTML Table Exporter

HTML Table Exporter 专为特定用例设计。了解它的优势所在——以及在哪些情况下其他工具可能更合适——将帮助你充分利用它。

最适合

  • 一次性表格导出——财务报告、政府数据集、研究数据库、Wikipedia 表格、体育统计
  • Web 应用程序数据——许多 CRM 平台、数据分析仪表板、ERP 系统和商业工具会将数据渲染为扩展程序可以检测的 HTML 表格
  • 重复导出——将清洗规则和列设置保存为配置文件,每次从同一来源导出时复用
  • 隐私敏感环境——所有处理都在本地进行,适用于企业、金融或医疗等数据不能离开浏览器的场景
  • 需要清洗的数据——日期、数字、货币和空值在导出前自动标准化

不适合

  • 自动化或定时抓取——这是一款手动、交互式工具。如果你需要无头爬虫或基于定时任务的流程,请考虑 Scrapy、Puppeteer 或 Playwright
  • 非表格数据——扩展程序检测 HTML <table> 元素。卡片、列表、动态流和非结构化布局不受支持
  • 基于 API 的数据访问——如果你需要的数据可以通过 API 获取,直接使用 API 比从渲染页面提取更可靠
  • 保证兼容所有网站——网页表格结构差异很大。扩展程序适用于标准 HTML 表格和许多复杂的 Web 应用程序,但某些使用非标准渲染的网站可能无法完全支持
先试后买

免费版没有行数限制,适用于大多数表格。先安装并在你的特定网站上测试,再考虑是否需要 PRO。

安装

  1. 访问 Chrome Web Store

    在 Chrome 浏览器中打开 HTML Table Exporter 页面

  2. 点击“添加到 Chrome”

    点击蓝色按钮并在弹窗中确认。安装大约需要 3 秒。

  3. 固定扩展程序(可选)

    点击 Chrome 工具栏中的拼图图标,固定 HTML Table Exporter 以便快速访问。

权限

扩展程序请求"读取和更改你在网站上的所有数据"权限。这是检测表格所必需的,但请放心,所有处理均在本地完成,我们绝不会传输任何数据。

许可证激活

购买 HTML Table Exporter PRO 后,你将通过电子邮件收到许可证密钥。按照以下步骤解锁所有 PRO 功能。

一次性激活

你的许可证在激活时进行验证并在本地缓存。需要定期联网以重新验证许可证状态,确保服务不间断。

如何激活 PRO

  1. 在扩展程序中点击 “激活”

    打开扩展程序弹窗,点击右上角的 "激活" 按钮。你还会在免费版底部看到 PRO 功能列表。

  2. 输入你的许可证密钥

    粘贴格式为 XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX 的许可证密钥,然后点击 "激活"。密钥在购买后已发送至你的电子邮件。

  3. 开始使用 PRO 功能

    激活后,扩展程序将显示 "HTML Table Exporter PRO" 并带有历史记录按钮。所有 PRO 功能现已解锁。

图示指南

1 点击 "激活" 按钮
显示 激活按钮和 PRO 功能列表的 HTML Table Exporter 免费版

点击右上角的 "激活" 按钮。免费版会显示升级到 PRO 后可解锁的功能。

2 输入你的许可证
许可证激活对话框,包含许可证密钥输入框

粘贴你的许可证密钥并点击 "激活"。如果还没有密钥,请点击 "Get HTML Table Exporter PRO"。

许可证问题排查

“许可证密钥无效”

确保复制完整的许可证密钥,包括所有连字符。格式应为 XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX。检查密钥前后是否有多余的空格。

未收到许可证密钥

请检查你的垃圾邮件文件夹。邮件来自 Lemon Squeezy(我们的支付处理商)。如果仍然找不到,请携带你的订单号访问支持页面

需要将许可证转移到其他设备

每个许可证密钥仅对单个设备有效。如需在其他设备上使用 PRO,可以购买额外许可证或考虑我们的 TEAM 或 BUSINESS 计划。

还没有许可证?

获取 HTML Table Exporter PRO,享受 14 天退款保证。查看价格选项 →

快速入门

在 60 秒内导出你的第一张表格:

如何导出表格

智能选择(最快方法)

这种方式让你可以直接选择目标数据,从而节省时间。只需在网页上点击表格的任意位置,然后打开 HTML Table Exporter PRO 扩展程序图标。扩展程序会自动高亮并定位该表格,让你无需在其他检测结果中查找即可立即导出。

灵活的导出格式

每个检测到的表格都可以通过点击表格卡片上的相应按钮导出为多种专业格式:

  • Excel (XLSX) — 适合深度数据分析
  • CSV — 适合电子表格通用用途
  • JSON 或 NDJSON — 适合 Web 开发和 NoSQL 数据库
  • SQL — 生成可直接用于数据库的 INSERT 语句

批量下载

对于想要一次提取所有表格的用户,批量下载功能可供使用。找到 ZIP 格式下拉菜单,选择你希望的文件格式(如 CSV 或 JSON)。点击 "Export all tables (ZIP)",页面上的所有表格将一起下载为一个有组织的压缩包。

输出示例(CSV)
Company,Revenue,Growth
Apple,394.33B,+7.8%
Microsoft,211.91B,+12.4%
Google,282.84B,+9.8%

导出格式

HTML Table Exporter 支持五种输出格式,每种格式针对不同用例进行了优化。

CSV(逗号分隔值)

通用格式。兼容 Excel、Google Sheets、数据库以及几乎所有数据工具。PRO 用户可以自定义分隔符(逗号、分号、制表符)以适应不同地区的兼容性需求。

CSV
Name,Email,Status
John Doe,[email protected],Active
Jane Smith,[email protected],Pending

JSON(JavaScript 对象表示法)

开发者和 API 的理想选择。每行转换为一个对象,以列标题作为键。

JSON
[
  {
    "Name": "John Doe",
    "Email": "[email protected]",
    "Status": "Active"
  }
]

Excel (XLSX)

原生 Excel 格式,具有正确的单元格类型。数字就是数字,日期就是日期。

NDJSON(换行分隔 JSON)

非常适合流式数据处理和 NoSQL 数据库。每行是一个独立的 JSON 对象,非常适合大型数据集和日志处理。

NDJSON
{"Name":"John Doe","Email":"[email protected]","Status":"Active"}
{"Name":"Jane Smith","Email":"[email protected]","Status":"Pending"}

SQL(INSERT 语句)

生成可直接导入数据库的 INSERT 语句。适用于 MySQL、PostgreSQL、SQLite 及其他 SQL 数据库。

SQL
INSERT INTO table_name (Name, Email, Status) VALUES
('John Doe', '[email protected]', 'Active'),
('Jane Smith', '[email protected]', 'Pending');
PRO 功能:NDJSON 和 SQL

PRO 新增 NDJSON 和 SQL 导出格式。批量 ZIP 可同时包含所有格式。

数据清洗

网页数据总是很杂乱:货币符号、不一致的日期格式、隐藏字符——这些都会破坏分析和导入。HTML Table Exporter 自动清洗你的数据。

自动清洗(免费)

  • 去除所有单元格的空白字符
  • 去除隐藏的 Unicode 字符
  • 规范化换行符
  • 保留合并单元格的结构

智能清洗配置文件(PRO)

PRO 包含针对常见数据类型的预构建清洗配置文件:

货币配置文件

去除 $£ 符号和千位分隔符。将 $1,234.56 转换为 1234.56

百分比配置文件

去除 % 符号。将 45.5% 转换为 0.45545.5

日期配置文件

将日期标准化为 ISO 格式。将 Jan 15, 2024 转换为 2024-01-15

处理前 vs 处理后
// Raw data from website
"  $1,234.56  ", "Jan 15, 2024", "45.5%"

// After cleaning profiles
1234.56, "2024-01-15", 0.455

批量导出

当页面包含多个表格(或你需要多种格式)时,批量导出可以节省大量时间。

PRO 功能

批量导出功能仅对 PRO 用户开放。

导出所有表格

在扩展程序弹窗中点击 "Export All"。每个表格会转换为一个单独的文件。

ZIP 下载

获取一个包含所有表格的 ZIP 文件,格式由你选择。

ZIP 结构
tables-export.zip
├── table-1-revenue-summary.csv
├── table-2-revenue-summary.csv
└── table-3-revenue-summary.csv

复杂表格

真实世界的表格很少是简单的网格。HTML Table Exporter 能处理让其他工具崩溃的复杂情况。

合并单元格(Rowspan/Colspan)

当单元格跨越多行或多列时,导出的数据会填充相应的单元格以保持结构完整。

嵌套表格

表格中嵌套表格在旧网站中很常见。鼠标悬停高亮功能可帮助你在导出前进行确认。

动态表格/JavaScript 表格

许多现代 Web 应用程序使用 JavaScript 框架渲染表格。如果表格在浏览器中可见,扩展程序通常可以检测到它。但结果可能因网站的 DOM 结构而异——某些应用程序使用非标准元素,可能无法被识别为表格。

懒加载表格

某些网站会在你滚动时逐步加载表格行。请先滚动到底部以确保所有数据加载完成。

免费版 vs PRO 版对比

免费版功能强大实用,没有人为限制。PRO 为高频用户增加了高级功能。

功能 免费 PRO
CSV 导出
JSON 导出
Excel 导出
NDJSON 导出
SQL 导出
自动检测表格
合并单元格处理
ZIP 下载(所有表格) 仅 CSV 多格式
预设配置文件(Pandas、DuckDB 等)
清洗预设(数字、日期、空值)
列选择与重排
导出历史
重复上次导出
鼠标悬停预览
100% 本地处理

故障排除

“未检测到表格”

某些网站使用 <div> 布局,看起来像表格但实际上不是语义化的 HTML 表格。扩展程序主要检测 <table> 元素,同时兼容一些基于 JavaScript 的网格组件。请确保页面完全加载后再导出。

导出数据缺失

检查表格是否使用了懒加载。请先滚动浏览整个表格,然后再导出。

导出编码不正确

扩展程序使用 UTF-8 编码。如果在 Excel 中看到乱码,请使用"数据 → 从文本/CSV"导入。

扩展程序在某些网站上无法工作

某些网站(如 Chrome Web Store 本身)出于安全原因会阻止扩展程序。这是 Chrome 的限制。如果你认为扩展程序应该在某个特定网站上工作但实际不行,或者你发现了提取错误,请通过我们的支持表单报告,以便我们进行调查。

还没有解决?

请访问我们的支持页面并填写表单报告 bug。支持由专人处理,回复可能需要最多 10 个工作日。