Dokumentacija
Viskas, ko reikia žiniatinklio lentelėms ištraukti, valyti ir eksportuoti kaip profesionalui. Nuo bazinių eksportų iki pažangių duomenų valymo procesų.
Įvadas
HTML Table Exporter yra Chrome plėtinys, aptinkantis lenteles tinklalapiuose ir eksportuojantis jas jūsų pasirinktu formatu. Skirtingai nuo žiniatinklio scraperių, reikalaujančių sudėtingos konfigūracijos, šis įrankis veikia akimirksniu: spustelėkite, pasirinkite formatą, atsisiųskite.
Visas apdorojimas vyksta vietiškai jūsų naršyklėje. Jūsų duomenys niekada nepalieka jūsų įrenginio.
Kam tai skirta?
- Duomenų analitikams, kuriems reikia ištraukti lenteles iš finansinių ataskaitų, vyriausybinių svetainių ar tyrimų duomenų bazių
- Tyrėjams, renkiantiems struktūruotus duomenis iš akademinių šaltinių ar Wikipedia
- Programuotojams, kuriems reikia greitos prieigos prie lentelių duomenų nekuriant scraperio
- Visiems, pavargusiems kopijuoti ir įklijuoti lenteles langelis po langelio
Kada naudoti HTML Table Exporter
HTML Table Exporter sukurtas konkretiems naudojimo atvejams. Supratimas, kur jis puikiai tinka — ir kur kiti įrankiai gali būti tinkamesni — padės jums išnaudoti jį maksimaliai.
Idealu
- Vienkartiniam lentelių eksportui — finansinės ataskaitos, vyriausybiniai duomenų rinkiniai, tyrimų duomenų bazės, Wikipedia lentelės, sporto statistika
- Žiniatinklio programų duomenys — daugelis CRM platformų, analitikos prietaisų skydelių, ERP sistemų ir verslo įrankių atvaizduoja duomenis kaip HTML lenteles, kurias plėtinys gali aptikti
- Pasikartojančiam eksportui — išsaugokite valymo taisykles ir stulpelių konfigūraciją kaip profilį ir pakartotinai naudokite kiekvieną kartą eksportuodami iš to paties šaltinio
- Privatumui jautri aplinka — visas apdorojimas vietinis, todėl tinka korporatyvinei, finansinei ar sveikatos priežiūros aplinkai, kur duomenys negali palikti naršyklės
- Duomenys, kuriems reikia valymo — datos, skaičiai, valiutos ir null reikšmės automatiškai normalizuojamos prieš eksportą
Kam netinka
- Automatizuotam ar suplanuotam scraping — tai rankinis ir interaktyvus įrankis. Jei reikia headless scraperio ar cron pagrindu veikiančio konvejerio, apsvarstykite tokius įrankius kaip Scrapy, Puppeteer ar Playwright
- Ne lentelių duomenims — plėtinys aptinka HTML
<table>elementus. Kortelės, sąrašai, srautai ir nestruktūruoti išdėstymai nepalaikomi - Duomenų prieigai per API — jei reikalingi duomenys prieinami per API, tiesioginis jos naudojimas bus patikimesnis nei duomenų ištraukimas iš atvaizduoto puslapio
- Garantuotam suderinamumui su visomis svetainėmis — žiniatinklio lentelių struktūros labai skiriasi. Plėtinys veikia su standartinėmis HTML lentelėmis ir daugeliu sudėtingų žiniatinklio programų, bet kai kurios svetainės naudoja nestandartinį atvaizdavimą, kuris gali būti ne visiškai suderinamas
Nemokama versija neturi eilučių limito ir veikia su dauguma lentelių. Įdiekite ir išbandykite savo konkrečioje svetainėje prieš svarstydami PRO.
Diegimas
-
Apsilankykite Chrome Web Store
Atidarykite HTML Table Exporter puslapį savo Chrome naršyklėje.
-
Spustelėkite „Pridėti prie Chrome“
Spustelėkite mėlyną mygtuką ir patvirtinkite iššokančiajame lange. Diegimas trunka apie 3 sekundes.
-
Prisekite plėtinį (neprivaloma)
Spustelėkite dėlionės piktogramą Chrome įrankių juostoje ir prisekite HTML Table Exporter greitai prieigai.
Plėtinys prašo „Skaityti ir keisti visus jūsų duomenis svetainėse“. Tai būtina lentelių aptikimui, bet atminkite, kad visas apdorojimas vietinis ir mes niekada neperduodame jokių duomenų.
Licencijos aktyvavimas
Įsigijus HTML Table Exporter PRO, el. paštu gausite licencijos raktą. Atlikite šiuos veiksmus, kad atrakintumėte visas PRO funkcijas.
Jūsų licencija patvirtinama aktyvavimo metu ir saugoma vietiškai. Periodiškai reikalinga interneto prieiga licencijos būsenai pakartotinai patikrinti, užtikrinant nepertraukiamą paslaugą.
Kaip aktyvuoti PRO
-
Spustelėkite „Aktyvuoti“ plėtinyje
Atidarykite plėtinio iššokantį langą ir spustelėkite mygtuką „Aktyvuoti“ viršutiniame dešiniajame kampe. Taip pat matysite PRO funkcijų sąrašą nemokamos versijos apačioje.
-
Įveskite licencijos raktą
Įklijuokite licencijos raktą formatu
XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXXir spustelėkite „Aktyvuoti“. Raktas buvo išsiųstas el. paštu po pirkimo. -
Pradėkite naudoti PRO funkcijas
Aktyvavus plėtinys rodys „HTML Table Exporter PRO“ su Istorijos mygtuku. Visos PRO funkcijos dabar atrakintos.
Vaizdinė instrukcija
Spustelėkite mygtuką „Aktyvuoti“ viršutiniame dešiniajame kampe. Nemokama versija rodo, kokias funkcijas atrakinate su PRO.
Įklijuokite licencijos raktą ir spustelėkite „Aktyvuoti“. Jei dar neturite rakto, spustelėkite „Gauti HTML Table Exporter PRO“.
Licencijos problemų sprendimas
„Neteisingas licencijos raktas“
Įsitikinkite, kad nukopijavote pilną licencijos raktą su visais brūkšneliais. Formatas turi būti XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX. Patikrinkite, ar nėra papildomų tarpų prieš ar po rakto.
Negavau licencijos rakto
Patikrinkite šiukšlių (spam) aplanką. El. laiškas ateina iš Lemon Squeezy (mūsų mokėjimų tvarkytojo). Jei vis tiek nerandate, apsilankykite Palaikymo puslapyje su savo užsakymo numeriu.
Reikia perkelti licenciją į kitą įrenginį
Kiekvienas licencijos raktas galioja vienam įrenginiui. Jei reikia naudoti PRO papildomuose įrenginiuose, galite įsigyti papildomų licencijų arba apsvarstyti mūsų TEAM ar BUSINESS planus.
Gaukite HTML Table Exporter PRO su 14 dienų pinigų grąžinimo garantija. Peržiūrėti kainų parinktis →
Greita pradžia
Eksportuokite pirmąją lentelę per mažiau nei 60 sekundžių:
Kaip eksportuoti lenteles
Išmanusis pasirinkimas (greičiausias būdas)
Šis būdas taupo laiką leisdamas tiesiogiai pasirinkti tikslinius duomenis. Tiesiog spustelėkite bet kurią lentelę tinklalapyje ir atidarykite HTML Table Exporter PRO plėtinio piktogramą. Plėtinys automatiškai paryškins ir sutelks dėmesį į tą konkrečią lentelę, leisdamas ją eksportuoti akimirksniu be būtinybės ieškoti tarp kitų aptiktų rezultatų.
Lankstūs eksporto formatai
Kiekvieną aptiktą lentelę galima eksportuoti keliais profesionaliais formatais spustelėjus atitinkamą mygtuką lentelės kortelėje:
- Excel (XLSX) — Idealus giluminei duomenų analizei
- CSV — Puikus bendram naudojimui skaičiuoklėse
- JSON arba NDJSON — Idealus žiniatinklio kūrimui ir NoSQL duomenų bazėms
- SQL — Generuoja INSERT sakinius, paruoštus naudoti duomenų bazėse
Masinis atsisiuntimas
Naudotojams, norintiems ištraukti visas lenteles iš karto, galimas masinis atsisiuntimas. Tam suraskite ZIP formato išskleidžiamąjį meniu ir pasirinkite pageidaujamą formatą (pvz., CSV ar JSON) failams pakete. Spustelėjus „Eksportuoti visas lenteles (ZIP)“, visos puslapio lentelės atsisiunčiamos kartu organizuotame pakete.
Company,Revenue,Growth
Apple,394.33B,+7.8%
Microsoft,211.91B,+12.4%
Google,282.84B,+9.8%
Eksporto formatai
HTML Table Exporter palaiko penkis išvesties formatus, kiekvieną optimizuotą skirtingiems naudojimo atvejams.
CSV (Comma-Separated Values)
Universalus formatas. Veikia su Excel, Google Sheets, duomenų bazėmis ir praktiškai bet kokiu duomenų įrankiu. PRO naudotojai gali tinkinti skyriklį (kablelis, kabliataškis, tabuliacija) regioniniam suderinamumui.
Name,Email,Status
John Doe,[email protected],Active
Jane Smith,[email protected],Pending
JSON (JavaScript Object Notation)
Puikus programuotojams ir API. Kiekviena eilutė paverčiama objektu su stulpelių antraštėmis kaip raktais.
[
{
"Name": "John Doe",
"Email": "[email protected]",
"Status": "Active"
}
]
Excel (XLSX)
Savasis Excel formatas su teisingais langelių tipais. Skaičiai yra skaičiai, datos yra datos.
NDJSON (Newline Delimited JSON)
Puikus srautiniam duomenų apdorojimui ir NoSQL duomenų bazėms. Kiekviena eilutė yra atskiras JSON objektas, todėl idealus dideliems duomenų rinkiniams ir žurnalų apdorojimui.
{"Name":"John Doe","Email":"[email protected]","Status":"Active"}
{"Name":"Jane Smith","Email":"[email protected]","Status":"Pending"}
SQL (INSERT Statements)
Generuoja INSERT sakinius, paruoštus tiesioginiam importui į duomenų bazes. Puikus MySQL, PostgreSQL, SQLite ir kitoms SQL bazėms.
INSERT INTO table_name (Name, Email, Status) VALUES
('John Doe', '[email protected]', 'Active'),
('Jane Smith', '[email protected]', 'Pending');
PRO prideda NDJSON ir SQL eksporto formatus. Paketinis ZIP apima visus formatus vienu metu.
Duomenų valymas
Žiniatinklio duomenys yra netvarkingi: valiutų simboliai, nenuoseklūs datų formatai, paslėpti simboliai; tai sugadina analizes ir importus. HTML Table Exporter automatiškai valo jūsų duomenis.
Automatinis valymas (Nemokama)
- Pašalina perteklinius tarpus iš visų langelių
- Pašalina paslėptus Unicode simbolius
- Normalizuoja eilučių lūžius
- Išsaugo sujungtų langelių struktūrą
Išmanieji valymo profiliai (PRO)
PRO apima iš anksto paruoštus valymo profilius dažniems duomenų tipams:
Valiutos profilis
Pašalina $, €, £ simbolius ir tūkstančių skyriklius. Konvertuoja $1,234.56 į 1234.56.
Procentų profilis
Pašalina % simbolį. Konvertuoja 45.5% į 0.455 arba 45.5.
Datų profilis
Standartizuoja datas į ISO formatą. Konvertuoja Jan 15, 2024 į 2024-01-15.
// Raw data from website
" $1,234.56 ", "Jan 15, 2024", "45.5%"
// After cleaning profiles
1234.56, "2024-01-15", 0.455
Paketinis eksportas
Kai puslapyje yra kelios lentelės (arba reikia kelių formatų), paketinis eksportas sutaupo valandas.
Paketinis eksportas prieinamas tik PRO naudotojams.
Eksportuoti visas lenteles
Spustelėkite „Export All“ plėtinio iššokančiajame lange. Kiekviena lentelė paverčiama atskiru failu.
ZIP atsisiuntimas
Gaukite vieną ZIP su visomis lentelėmis jūsų pasirinktu formatu.
tables-export.zip
├── table-1-revenue-summary.csv
├── table-2-revenue-summary.csv
└── table-3-revenue-summary.csv
Sudėtingos lentelės
Realaus pasaulio lentelės retai būna paprasti tinkleliai. HTML Table Exporter apdoroja sudėtingumą, kuris sugadina kitus įrankius.
Sujungti langeliai (Rowspan/Colspan)
Kai langeliai apima kelias eilutes ar stulpelius, eksportuoti duomenys užpildo atitinkamus langelius struktūrai išlaikyti.
Įdėtosios lentelės
Lentelės lentelėse dažnos senose svetainėse. Paryškinimas užvedus pelę padeda patikrinti prieš eksportuojant.
Dinaminės/JavaScript lentelės
Daugelis šiuolaikinių žiniatinklio programų atvaizduoja lenteles naudodamos JavaScript karkasus. Jei lentelė matoma jūsų naršyklėje, plėtinys paprastai gali ją aptikti. Tačiau rezultatai gali skirtis priklausomai nuo to, kaip svetainė struktūrizuoja savo DOM — kai kurios programos naudoja nestandartinius elementus, kurie gali būti neatpažinti kaip lentelės.
Kai kurios svetainės įkelia lentelės eilutes slinkdami. Pirmiausia slinkite iki galo, kad įsitikintumėte, jog visi duomenys įkelti.
Scroll Capture (PRO)
Scroll Capture yra PRO funkcija, skirta puslapiuotoms ir virtualizuotoms lentelėms, kurios vienu metu rodo tik eilučių poaibį. Ji veikia fiksuodama matomas eilutes, kai slenkate per lentelę, kaupdama ir deduplikuodama jas į pilną duomenų rinkinį.
Kaip veikia: Aktyvuojate Scroll Capture ir slenkate per lentelę savo tempu. Plėtinys skaito eilutes, kurios tuo metu atvaizduotos naršyklės DOM — nevykdo papildomų tinklo užklausų, nesimuloja paspaudimų ir nesąveikauja su puslapiavimo valdikliais. Kai peržiūrėsite reikiamus duomenis, sustabdykite fiksavimą ir eksportuokite sukauptą duomenų rinkinį.
Pagrindiniai skirtumai nuo automatinio puslapiavimo įrankių: Skirtingai nuo naršyklės plėtinių, kurie automatiškai spaudžia „Kitas puslapis“ mygtukus ar simuliuoja begalinį slinkimą, Scroll Capture yra pasyvus skaitytojas. Jis stebi tai, ką jūsų naršyklė jau atvaizdavo, neaktyvuodamas puslapių navigacijos ar serverio užklausų. Tai daro jį mažiau linkusį aktyvuoti greičio ribojimus ar anti-bot apsaugą ir veikia su virtualizuotais tinkleliais, kurie keičia DOM mazgus slenkant.
Scroll Capture veikia su daugeliu puslapiuotų ir virtualizuotų lentelių, bet rezultatai priklauso nuo konkrečios kiekvienos svetainės realizacijos. Ne visi lentelių formatai suderinami. Rekomenduojame pirmiausia išbandyti nemokamą versiją, kad patvirtintumėte bazinį lentelių aptikimą jūsų tikslinėje svetainėje.
Nemokama vs PRO palyginimas
Nemokama versija yra tikrai naudinga, be dirbtinių apribojimų. PRO prideda pažangias funkcijas dažniems naudotojams.
| Funkcija | Nemokama | PRO |
|---|---|---|
| CSV eksportas | ✔ | ✔ |
| JSON eksportas | ✔ | ✔ |
| Excel eksportas | ✔ | ✔ |
| NDJSON eksportas | — | ✔ |
| SQL eksportas | — | ✔ |
| Automatinis lentelių aptikimas | ✔ | ✔ |
| Sujungtų langelių apdorojimas | ✔ | ✔ |
| ZIP atsisiuntimas (visos lentelės) | Tik CSV | Keli formatai |
| Iš anksto nustatyti profiliai (Pandas, DuckDB ir kt.) | — | ✔ |
| Valymo nustatymai (skaičiai, datos, null) | — | ✔ |
| Stulpelių pasirinkimas ir pertvarkymas | — | ✔ |
| Eksporto istorija | — | ✔ |
| Pakartoti paskutinį eksportą | — | ✔ |
| Peržiūra užvedus pelę | — | ✔ |
| 100% vietinis apdorojimas | ✔ | ✔ |
Problemų sprendimas
„Lentelės neaptiktos“
Kai kurios svetainės naudoja <div> išdėstymus, kurie atrodo kaip lentelės, bet nėra semantinės HTML lentelės. Plėtinys daugiausia aptinka <table> elementus ir taip pat suderinamas su kai kuriais JavaScript pagrindu veikiančiais tinklelio komponentais. Įsitikinkite, kad puslapis visiškai įkeltas prieš eksportuojant.
Trūkstami duomenys eksporte
Patikrinkite, ar lentelė naudoja atidėtą įkėlimą. Pirmiausia slinkite per visą lentelę, tada eksportuokite.
Eksportas turi neteisingą koduotę
Plėtinys naudoja UTF-8 koduotę. Jei matote neįskaitomus simbolius Excel, naudokite Duomenys → Iš Teksto/CSV importui.
Plėtinys neveikia svetainėje
Kai kurios svetainės (kaip pati Chrome Web Store) blokuoja plėtinius saugumo sumetimais. Tai Chrome apribojimas. Jei manote, kad plėtinys turėtų veikti konkrečioje svetainėje, bet neveikia, arba pastebite ištraukimo klaidas, praneškite per mūsų Palaikymo formą, kad galėtume tai ištirti.
Apsilankykite mūsų Palaikymo puslapyje ir užpildykite formą pranešti apie klaidą. Palaikymas teikiamas asmeniškai ir atsakymai gali užtrukti iki 10 darbo dienų.