文档
专业提取、清洗和导出网页表格所需的一切。从基础导出到高级数据清洗流程。
简介
HTML Table Exporter 是一款 Chrome 扩展程序,能够检测网页中的表格并将其导出为你所需的格式。与需要复杂配置的网页爬虫不同,这款工具即开即用:点击、选择格式、下载。
所有处理均在浏览器本地完成。你的数据绝不会离开你的设备。
适用人群
- 数据分析师 需要从财务报告、政府网站或研究数据库中提取表格
- 研究人员 从学术来源或 Wikipedia 收集结构化数据
- 开发者 需要快速访问表格数据而无需构建爬虫
- 任何人 厌倦了逐个单元格复制粘贴表格
安装
-
访问 Chrome Web Store
在 Chrome 浏览器中打开 HTML Table Exporter 页面。
-
点击“添加到 Chrome”
点击蓝色按钮并在弹窗中确认。安装大约需要 3 秒。
-
固定扩展程序(可选)
点击 Chrome 工具栏中的拼图图标,固定 HTML Table Exporter 以便快速访问。
扩展程序请求"读取和更改你在网站上的所有数据"权限。这是检测表格所必需的,但请放心,所有处理均在本地完成,我们绝不会传输任何数据。
许可证激活
购买 HTML Table Exporter PRO 后,你将通过电子邮件收到许可证密钥。按照以下步骤解锁所有 PRO 功能。
你的许可证在激活时进行验证并在本地缓存。需要定期联网以重新验证许可证状态,确保服务不间断。
如何激活 PRO
-
在扩展程序中点击 “Activate”
打开扩展程序弹窗,点击右上角的 "Activate" 按钮。你还会在免费版底部看到 PRO 功能列表。
-
输入你的许可证密钥
粘贴格式为
XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX的许可证密钥,然后点击 "Activate"。密钥在购买后已发送至你的电子邮件。 -
开始使用 PRO 功能
激活后,扩展程序将显示 "HTML Table Exporter PRO" 并带有历史记录按钮。所有 PRO 功能现已解锁。
图示指南
点击右上角的 "Activate" 按钮。免费版会显示升级到 PRO 后可解锁的功能。
粘贴你的许可证密钥并点击 "Activate"。如果还没有密钥,请点击 "Get HTML Table Exporter PRO"。
许可证问题排查
“许可证密钥无效”
确保复制完整的许可证密钥,包括所有连字符。格式应为 XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX。检查密钥前后是否有多余的空格。
未收到许可证密钥
请检查你的垃圾邮件文件夹。邮件来自 Lemon Squeezy(我们的支付处理商)。如果仍然找不到,请携带你的订单号访问支持页面。
需要将许可证转移到其他设备
每个许可证密钥仅对单个设备有效。如需在其他设备上使用 PRO,可以购买额外许可证或考虑我们的 TEAM 或 BUSINESS 计划。
获取 HTML Table Exporter PRO,享受 14 天退款保证。查看价格选项 →
快速入门
在 60 秒内导出你的第一张表格:
如何导出表格
智能选择(最快方法)
这种方式让你可以直接选择目标数据,从而节省时间。只需在网页上点击表格的任意位置,然后打开 HTML Table Exporter PRO 扩展程序图标。扩展程序会自动高亮并定位该表格,让你无需在其他检测结果中查找即可立即导出。
灵活的导出格式
每个检测到的表格都可以通过点击表格卡片上的相应按钮导出为多种专业格式:
- Excel (XLSX) — 适合深度数据分析
- CSV — 适合电子表格通用用途
- JSON 或 NDJSON — 适合 Web 开发和 NoSQL 数据库
- SQL — 生成可直接用于数据库的 INSERT 语句
批量下载
对于想要一次提取所有表格的用户,批量下载功能可供使用。找到 ZIP 格式下拉菜单,选择你希望的文件格式(如 CSV 或 JSON)。点击 "Export all tables (ZIP)",页面上的所有表格将一起下载为一个有组织的压缩包。
Company,Revenue,Growth
Apple,394.33B,+7.8%
Microsoft,211.91B,+12.4%
Google,282.84B,+9.8%
导出格式
HTML Table Exporter 支持五种输出格式,每种格式针对不同用例进行了优化。
CSV(逗号分隔值)
通用格式。兼容 Excel、Google Sheets、数据库以及几乎所有数据工具。PRO 用户可以自定义分隔符(逗号、分号、制表符)以适应不同地区的兼容性需求。
Name,Email,Status
John Doe,[email protected],Active
Jane Smith,[email protected],Pending
JSON(JavaScript 对象表示法)
开发者和 API 的理想选择。每行转换为一个对象,以列标题作为键。
[
{
"Name": "John Doe",
"Email": "[email protected]",
"Status": "Active"
}
]
Excel (XLSX)
原生 Excel 格式,具有正确的单元格类型。数字就是数字,日期就是日期。
NDJSON(换行分隔 JSON)
非常适合流式数据处理和 NoSQL 数据库。每行是一个独立的 JSON 对象,非常适合大型数据集和日志处理。
{"Name":"John Doe","Email":"[email protected]","Status":"Active"}
{"Name":"Jane Smith","Email":"[email protected]","Status":"Pending"}
SQL(INSERT 语句)
生成可直接导入数据库的 INSERT 语句。适用于 MySQL、PostgreSQL、SQLite 及其他 SQL 数据库。
INSERT INTO table_name (Name, Email, Status) VALUES
('John Doe', '[email protected]', 'Active'),
('Jane Smith', '[email protected]', 'Pending');
PRO 新增 NDJSON 和 SQL 导出格式。批量 ZIP 可同时包含所有格式。
数据清洗
网页数据总是很杂乱:货币符号、不一致的日期格式、隐藏字符——这些都会破坏分析和导入。HTML Table Exporter 自动清洗你的数据。
自动清洗(免费)
- 去除所有单元格的空白字符
- 去除隐藏的 Unicode 字符
- 规范化换行符
- 保留合并单元格的结构
智能清洗配置文件(PRO)
PRO 包含针对常见数据类型的预构建清洗配置文件:
货币配置文件
去除 $、€、£ 符号和千位分隔符。将 $1,234.56 转换为 1234.56。
百分比配置文件
去除 % 符号。将 45.5% 转换为 0.455 或 45.5。
日期配置文件
将日期标准化为 ISO 格式。将 Jan 15, 2024 转换为 2024-01-15。
// Raw data from website
" $1,234.56 ", "Jan 15, 2024", "45.5%"
// After cleaning profiles
1234.56, "2024-01-15", 0.455
批量导出
当页面包含多个表格(或你需要多种格式)时,批量导出可以节省大量时间。
批量导出功能仅对 PRO 用户开放。
导出所有表格
在扩展程序弹窗中点击 "Export All"。每个表格会转换为一个单独的文件。
ZIP 下载
获取一个包含所有表格的 ZIP 文件,格式由你选择。
tables-export.zip
├── table-1-revenue-summary.csv
├── table-2-revenue-summary.csv
└── table-3-revenue-summary.csv
复杂表格
真实世界的表格很少是简单的网格。HTML Table Exporter 能处理让其他工具崩溃的复杂情况。
合并单元格(Rowspan/Colspan)
当单元格跨越多行或多列时,导出的数据会填充相应的单元格以保持结构完整。
嵌套表格
表格中嵌套表格在旧网站中很常见。鼠标悬停高亮功能可帮助你在导出前进行确认。
动态表格/JavaScript 表格
如果表格已在浏览器中渲染并可见,通常就可以导出。如果表格使用分页,请先浏览所有页面以加载完整数据。
某些网站会在你滚动时逐步加载表格行。请先滚动到底部以确保所有数据加载完成。
免费版 vs PRO 版对比
免费版功能强大实用,没有人为限制。PRO 为高频用户增加了高级功能。
| 功能 | 免费 | PRO |
|---|---|---|
| CSV 导出 | ✔ | ✔ |
| JSON 导出 | ✔ | ✔ |
| Excel 导出 | ✔ | ✔ |
| NDJSON 导出 | — | ✔ |
| SQL 导出 | — | ✔ |
| 自动检测表格 | ✔ | ✔ |
| 合并单元格处理 | ✔ | ✔ |
| ZIP 下载(所有表格) | 仅 CSV | 多格式 |
| 预设配置文件(Pandas、DuckDB 等) | — | ✔ |
| 清洗预设(数字、日期、空值) | — | ✔ |
| 列选择与重排 | — | ✔ |
| 导出历史 | — | ✔ |
| 重复上次导出 | — | ✔ |
| 鼠标悬停预览 | — | ✔ |
| 100% 本地处理 | ✔ | ✔ |
故障排除
“未检测到表格”
某些网站使用 <div> 布局,看起来像表格但实际上不是语义化的 HTML 表格。扩展程序主要检测 <table> 元素,同时兼容一些基于 JavaScript 的网格组件。请确保页面完全加载后再导出。
导出数据缺失
检查表格是否使用了懒加载。请先滚动浏览整个表格,然后再导出。
导出编码不正确
扩展程序使用 UTF-8 编码。如果在 Excel 中看到乱码,请使用"数据 → 从文本/CSV"导入。
扩展程序在某些网站上无法工作
某些网站(如 Chrome Web Store 本身)出于安全原因会阻止扩展程序。这是 Chrome 的限制。如果你认为扩展程序应该在某个特定网站上工作但实际不行,或者你发现了提取错误,请通过我们的支持表单报告,以便我们进行调查。
请访问我们的支持页面并填写表单报告 bug。支持由专人处理,回复可能需要最多 10 个工作日。