Tài liệu

Tất cả những gì bạn cần để trích xuất, làm sạch và xuất bảng web như một chuyên gia. Từ xuất cơ bản đến quy trình làm sạch dữ liệu nâng cao.

Giới thiệu

HTML Table Exporter là tiện ích mở rộng Chrome phát hiện bảng trên trang web và xuất chúng sang định dạng bạn thích. Không giống như web scraper yêu cầu cấu hình phức tạp, công cụ này hoạt động ngay lập tức: nhấp, chọn định dạng, tải xuống.

100% Riêng tư

Tất cả xử lý diễn ra cục bộ trong trình duyệt của bạn. Dữ liệu của bạn không bao giờ rời khỏi thiết bị.

Dành cho ai?

  • Nhà phân tích dữ liệu cần trích xuất bảng từ báo cáo tài chính, trang web chính phủ hoặc cơ sở dữ liệu nghiên cứu
  • Nhà nghiên cứu thu thập dữ liệu có cấu trúc từ nguồn học thuật hoặc Wikipedia
  • Nhà phát triển cần truy cập nhanh dữ liệu dạng bảng mà không cần xây dựng scraper
  • Bất kỳ ai mệt mỏi với việc sao chép và dán bảng từng ô một

Khi nào sử dụng HTML Table Exporter

HTML Table Exporter được thiết kế cho một tập hợp trường hợp sử dụng cụ thể. Hiểu nơi nó nổi bật — và nơi các công cụ khác có thể phù hợp hơn — sẽ giúp bạn tận dụng tối đa.

Lý tưởng cho

  • Xuất bảng một lần — báo cáo tài chính, tập dữ liệu chính phủ, cơ sở dữ liệu nghiên cứu, bảng Wikipedia, thống kê thể thao
  • Dữ liệu ứng dụng web — nhiều nền tảng CRM, bảng điều khiển phân tích, hệ thống ERP và công cụ doanh nghiệp hiển thị dữ liệu dưới dạng bảng HTML mà tiện ích có thể phát hiện
  • Xuất định kỳ — lưu quy tắc làm sạch và cấu hình cột của bạn như một hồ sơ, và tái sử dụng mỗi khi xuất từ cùng nguồn
  • Môi trường nhạy cảm về quyền riêng tư — tất cả xử lý là cục bộ, làm cho nó phù hợp cho bối cảnh doanh nghiệp, tài chính hoặc y tế nơi dữ liệu không thể rời khỏi trình duyệt
  • Dữ liệu cần làm sạch — ngày, số, tiền tệ và giá trị null được chuẩn hóa tự động trước khi xuất

Không được thiết kế cho

  • Scraping tự động hoặc theo lịch — đây là công cụ thủ công và tương tác. Nếu bạn cần scraper headless hoặc pipeline dựa trên cron, hãy xem xét các công cụ như Scrapy, Puppeteer hoặc Playwright
  • Dữ liệu không phải bảng — tiện ích mở rộng phát hiện các phần tử HTML <table>. Thẻ, danh sách, feed và bố cục không có cấu trúc không được hỗ trợ
  • Truy cập dữ liệu qua API — nếu dữ liệu bạn cần có sẵn qua API, sử dụng trực tiếp sẽ đáng tin cậy hơn trích xuất từ trang đã hiển thị
  • Tương thích đảm bảo với tất cả trang web — cấu trúc bảng web rất đa dạng. Tiện ích hoạt động với bảng HTML tiêu chuẩn và nhiều ứng dụng web phức tạp, nhưng một số trang sử dụng hiển thị không tiêu chuẩn có thể không hoàn toàn tương thích
Dùng thử trước khi mua

Phiên bản miễn phí không có giới hạn số hàng và hoạt động với hầu hết các bảng. Cài đặt và thử trên trang web cụ thể của bạn trước khi xem xét PRO.

Cài đặt

  1. Truy cập Chrome Web Store

    Mở trang HTML Table Exporter trong trình duyệt Chrome của bạn.

  2. Nhấp vào "Thêm vào Chrome"

    Nhấp vào nút màu xanh và xác nhận trong popup. Cài đặt mất khoảng 3 giây.

  3. Ghim tiện ích (tùy chọn)

    Nhấp vào biểu tượng ghép hình trên thanh công cụ Chrome và ghim HTML Table Exporter để truy cập nhanh.

Quyền

Tiện ích yêu cầu "Đọc và thay đổi tất cả dữ liệu của bạn trên các trang web". Điều này cần thiết để phát hiện bảng, nhưng hãy nhớ rằng tất cả xử lý là cục bộ và chúng tôi không bao giờ truyền bất kỳ dữ liệu nào.

Kích hoạt giấy phép

Sau khi mua HTML Table Exporter PRO, bạn sẽ nhận được khóa giấy phép qua email. Làm theo các bước sau để mở khóa tất cả tính năng PRO.

Kích hoạt một lần

Giấy phép của bạn được xác thực trong quá trình kích hoạt và được lưu cache cục bộ. Cần truy cập internet định kỳ để xác minh lại trạng thái giấy phép, đảm bảo dịch vụ không gián đoạn.

Cách kích hoạt PRO

  1. Nhấp vào "Kích hoạt" trong tiện ích

    Mở popup tiện ích và nhấp vào nút "Kích hoạt" ở góc trên bên phải. Bạn cũng sẽ thấy các tính năng PRO được liệt kê ở phía dưới của phiên bản miễn phí.

  2. Nhập khóa giấy phép của bạn

    Dán khóa giấy phép của bạn theo định dạng XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX và nhấp vào "Kích hoạt". Khóa đã được gửi đến email của bạn sau khi mua.

  3. Bắt đầu sử dụng các tính năng PRO

    Sau khi kích hoạt, tiện ích sẽ hiển thị "HTML Table Exporter PRO" với nút Lịch sử. Tất cả tính năng PRO hiện đã được mở khóa.

Hướng dẫn hình ảnh

1 Nhấp vào nút "Kích hoạt"
Phiên bản miễn phí HTML Table Exporter hiển thị nút Kích hoạt và danh sách tính năng PRO

Nhấp vào nút "Kích hoạt" ở góc trên bên phải. Phiên bản miễn phí hiển thị những tính năng bạn mở khóa với PRO.

2 Nhập giấy phép của bạn
Modal kích hoạt giấy phép với trường để nhập khóa giấy phép

Dán khóa giấy phép của bạn và nhấp vào "Kích hoạt". Nếu bạn chưa có khóa, hãy nhấp vào "Nhận HTML Table Exporter PRO".

Khắc phục sự cố giấy phép

"Khóa giấy phép không hợp lệ"

Đảm bảo sao chép đầy đủ khóa giấy phép bao gồm tất cả dấu gạch ngang. Định dạng phải là XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX. Kiểm tra không có khoảng trắng thừa trước hoặc sau khóa.

Tôi không nhận được khóa giấy phép

Kiểm tra thư mục spam của bạn. Email đến từ Lemon Squeezy (nhà xử lý thanh toán của chúng tôi). Nếu vẫn không tìm thấy, hãy truy cập trang Hỗ trợ với số đơn hàng của bạn.

Tôi cần chuyển giấy phép sang thiết bị khác

Mỗi khóa giấy phép có hiệu lực cho một thiết bị duy nhất. Nếu bạn cần sử dụng PRO trên các thiết bị bổ sung, bạn có thể mua thêm giấy phép hoặc xem xét các gói TEAM hoặc BUSINESS của chúng tôi.

Bạn chưa có giấy phép?

Nhận HTML Table Exporter PRO với bảo đảm hoàn tiền 14 ngày. Xem các tùy chọn giá →

Khởi động nhanh

Xuất bảng đầu tiên của bạn trong chưa đầy 60 giây:

Cách xuất bảng

Chọn thông minh (phương pháp nhanh nhất)

Cách tiếp cận này tiết kiệm thời gian bằng cách cho phép bạn chọn trực tiếp dữ liệu mục tiêu. Chỉ cần nhấp vào bất kỳ vị trí nào trong bảng trên trang web và sau đó mở biểu tượng tiện ích HTML Table Exporter PRO. Tiện ích sẽ tự động đánh dấu và tập trung vào bảng cụ thể đó, cho phép xuất ngay lập tức mà không cần tìm kiếm giữa các kết quả phát hiện khác.

Định dạng xuất linh hoạt

Mỗi bảng được phát hiện có thể xuất sang nhiều định dạng chuyên nghiệp bằng cách nhấp vào nút tương ứng trên thẻ bảng:

  • Excel (XLSX) — Lý tưởng cho phân tích dữ liệu chuyên sâu
  • CSV — Hoàn hảo cho sử dụng chung trong bảng tính
  • JSON hoặc NDJSON — Lý tưởng cho phát triển web và cơ sở dữ liệu NoSQL
  • SQL — Tạo câu lệnh INSERT sẵn sàng sử dụng trong cơ sở dữ liệu

Tải xuống hàng loạt

Cho người dùng muốn trích xuất tất cả bảng cùng một lúc, tải xuống hàng loạt có sẵn. Để thực hiện, tìm menu dropdown định dạng ZIP và chọn định dạng ưa thích của bạn (như CSV hoặc JSON) cho các tệp trong gói. Khi nhấp vào "Xuất tất cả bảng (ZIP)", tất cả bảng trên trang được tải xuống cùng nhau trong một gói có tổ chức.

Ví dụ đầu ra (CSV)
Company,Revenue,Growth
Apple,394.33B,+7.8%
Microsoft,211.91B,+12.4%
Google,282.84B,+9.8%

Định dạng xuất

HTML Table Exporter hỗ trợ năm định dạng đầu ra, mỗi định dạng được tối ưu hóa cho các trường hợp sử dụng khác nhau.

CSV (Comma-Separated Values)

Định dạng phổ quát. Hoạt động với Excel, Google Sheets, cơ sở dữ liệu và hầu như bất kỳ công cụ dữ liệu nào. Người dùng PRO có thể tùy chỉnh dấu phân cách (dấu phẩy, dấu chấm phẩy, tab) để tương thích theo khu vực.

CSV
Name,Email,Status
John Doe,[email protected],Active
Jane Smith,[email protected],Pending

JSON (JavaScript Object Notation)

Hoàn hảo cho nhà phát triển và API. Mỗi hàng được chuyển đổi thành một đối tượng với tiêu đề cột làm khóa.

JSON
[
  {
    "Name": "John Doe",
    "Email": "[email protected]",
    "Status": "Active"
  }
]

Excel (XLSX)

Định dạng Excel gốc với kiểu ô chính xác. Số là số, ngày là ngày.

NDJSON (Newline Delimited JSON)

Hoàn hảo cho xử lý dữ liệu streaming và cơ sở dữ liệu NoSQL. Mỗi dòng là một đối tượng JSON riêng biệt, làm cho nó lý tưởng cho tập dữ liệu lớn và xử lý log.

NDJSON
{"Name":"John Doe","Email":"[email protected]","Status":"Active"}
{"Name":"Jane Smith","Email":"[email protected]","Status":"Pending"}

SQL (INSERT Statements)

Tạo câu lệnh INSERT sẵn sàng nhập trực tiếp vào cơ sở dữ liệu. Hoàn hảo cho MySQL, PostgreSQL, SQLite và các cơ sở dữ liệu SQL khác.

SQL
INSERT INTO table_name (Name, Email, Status) VALUES
('John Doe', '[email protected]', 'Active'),
('Jane Smith', '[email protected]', 'Pending');
Tính năng PRO: NDJSON và SQL

PRO thêm định dạng xuất NDJSON và SQL. ZIP hàng loạt bao gồm tất cả định dạng cùng một lúc.

Làm sạch dữ liệu

Dữ liệu web lộn xộn: ký hiệu tiền tệ, định dạng ngày không nhất quán, ký tự ẩn; những thứ này phá vỡ phân tích và nhập. HTML Table Exporter làm sạch dữ liệu của bạn tự động.

Làm sạch tự động (Miễn phí)

  • Loại bỏ khoảng trắng khỏi tất cả ô
  • Loại bỏ ký tự Unicode ẩn
  • Chuẩn hóa ngắt dòng
  • Bảo toàn cấu trúc ô được gộp

Hồ sơ làm sạch thông minh (PRO)

PRO bao gồm các hồ sơ làm sạch được xây dựng sẵn cho các loại dữ liệu phổ biến:

Hồ sơ tiền tệ

Loại bỏ ký hiệu $, , £ và dấu phân cách hàng nghìn. Chuyển đổi $1,234.56 thành 1234.56.

Hồ sơ phần trăm

Loại bỏ ký hiệu %. Chuyển đổi 45.5% thành 0.455 hoặc 45.5.

Hồ sơ ngày

Chuẩn hóa ngày sang định dạng ISO. Chuyển đổi Jan 15, 2024 thành 2024-01-15.

Trước vs Sau
// Raw data from website
"  $1,234.56  ", "Jan 15, 2024", "45.5%"

// After cleaning profiles
1234.56, "2024-01-15", 0.455

Xuất hàng loạt

Khi một trang có nhiều bảng (hoặc bạn cần nhiều định dạng), xuất hàng loạt tiết kiệm hàng giờ.

Tính năng PRO

Xuất hàng loạt chỉ dành riêng cho người dùng PRO.

Xuất tất cả bảng

Nhấp vào "Xuất tất cả" trong popup tiện ích. Mỗi bảng trở thành một tệp riêng biệt.

Tải ZIP

Nhận một ZIP duy nhất với tất cả bảng ở định dạng bạn chọn.

Cấu trúc ZIP
tables-export.zip
├── table-1-revenue-summary.csv
├── table-2-revenue-summary.csv
└── table-3-revenue-summary.csv

Bảng phức tạp

Bảng trong thế giới thực hiếm khi là lưới đơn giản. HTML Table Exporter xử lý sự phức tạp làm hỏng các công cụ khác.

Ô hợp nhất (Rowspan/Colspan)

Khi ô trải rộng nhiều hàng hoặc cột, dữ liệu xuất điền vào các ô tương ứng để duy trì cấu trúc.

Bảng lồng nhau

Bảng trong bảng phổ biến trên các trang web cũ. Làm nổi bật khi di chuột giúp bạn xác minh trước khi xuất.

Bảng động/JavaScript

Nhiều ứng dụng web hiện đại hiển thị bảng bằng framework JavaScript. Nếu bảng hiển thị trong trình duyệt của bạn, tiện ích thường có thể phát hiện nó. Tuy nhiên, kết quả có thể khác nhau tùy thuộc vào cách trang cấu trúc DOM — một số ứng dụng sử dụng các phần tử không tiêu chuẩn có thể không được nhận dạng là bảng.

Bảng tải chậm

Một số trang tải các hàng bảng khi bạn cuộn. Cuộn đến cuối trước để đảm bảo tất cả dữ liệu được tải.

Scroll Capture (PRO)

Scroll Capture là tính năng PRO được thiết kế cho bảng phân trang và ảo hóa chỉ hiển thị một tập con hàng tại một thời điểm. Nó hoạt động bằng cách bắt các hàng hiển thị khi bạn cuộn qua bảng, tích lũy và loại bỏ trùng lặp thành tập dữ liệu hoàn chỉnh.

Cách hoạt động: Bạn kích hoạt Scroll Capture và sau đó cuộn qua bảng theo tốc độ của bạn. Tiện ích đọc các hàng được hiển thị trong DOM trình duyệt tại thời điểm đó — không thực hiện yêu cầu mạng bổ sung, không mô phỏng nhấp chuột hoặc tương tác với điều khiển phân trang. Khi bạn đã đi qua dữ liệu cần thiết, bạn dừng bắt và xuất tập dữ liệu tích lũy.

Khác biệt chính với công cụ tự động phân trang: Không giống như tiện ích trình duyệt tự động nhấp vào nút "Trang tiếp theo" hoặc mô phỏng cuộn vô hạn, Scroll Capture là trình đọc thụ động. Nó quan sát những gì trình duyệt của bạn đã hiển thị mà không kích hoạt điều hướng trang hoặc yêu cầu máy chủ. Điều này làm cho nó ít có khả năng kích hoạt giới hạn tốc độ hoặc bảo vệ anti-bot, và hoạt động với lưới ảo hóa thay thế các nút DOM khi bạn cuộn.

Tương thích

Scroll Capture hoạt động với nhiều bảng phân trang và ảo hóa, nhưng kết quả phụ thuộc vào cách triển khai cụ thể của mỗi trang web. Không phải tất cả định dạng bảng đều tương thích. Chúng tôi khuyên bạn nên thử trước với phiên bản miễn phí để xác nhận phát hiện bảng cơ bản trên trang mục tiêu của bạn.

So sánh Miễn phí vs PRO

Phiên bản miễn phí thực sự hữu ích, không có giới hạn nhân tạo. PRO thêm các tính năng nâng cao cho người dùng thường xuyên.

Tính năng Miễn phí PRO
Xuất CSV
Xuất JSON
Xuất Excel
Xuất NDJSON
Xuất SQL
Tự động phát hiện bảng
Xử lý ô hợp nhất
Tải ZIP (tất cả bảng) Chỉ CSV Multi-format
Mẫu cấu hình có sẵn (Pandas, DuckDB, v.v.)
Cấu hình làm sạch có sẵn (số, ngày, null)
Chọn và sắp xếp lại cột
Lịch sử xuất
Lặp lại lần xuất cuối
Xem trước khi di chuột
Xử lý 100% cục bộ

Khắc phục sự cố

"Không phát hiện bảng"

Một số trang sử dụng bố cục với <div> trông giống bảng nhưng không phải là bảng HTML ngữ nghĩa. Tiện ích chủ yếu phát hiện các phần tử <table> và cũng tương thích với một số thành phần lưới dựa trên JavaScript. Đảm bảo trang đã tải hoàn toàn trước khi xuất.

Thiếu dữ liệu trong xuất

Kiểm tra xem bảng có sử dụng tải chậm không. Cuộn qua toàn bộ bảng trước, sau đó xuất.

Xuất có mã hóa không đúng

Tiện ích sử dụng mã hóa UTF-8. Nếu bạn thấy ký tự không đọc được trong Excel, sử dụng Dữ liệu → Từ Văn bản/CSV để nhập.

Tiện ích không hoạt động trên một trang

Một số trang (như chính Chrome Web Store) chặn tiện ích vì lý do bảo mật. Đây là hạn chế của Chrome. Nếu bạn nghĩ tiện ích nên hoạt động trên một trang cụ thể nhưng không, hoặc nếu bạn nhận thấy lỗi trích xuất, hãy báo cáo qua Biểu mẫu Hỗ trợ của chúng tôi để chúng tôi có thể điều tra.

Vẫn chưa giải quyết được?

Truy cập trang Hỗ trợ của chúng tôi và điền biểu mẫu để báo cáo lỗi. Hỗ trợ được xử lý cá nhân và phản hồi có thể mất đến 10 ngày làm việc.