Dokumentaatio
Kaikki mitä tarvitset verkkotaulukoiden poimimiseen, puhdistamiseen ja viemiseen ammattimaisesti. Perusvienneistä edistyneisiin tietojen puhdistustyönkulkuihin.
Johdanto
HTML Table Exporter on Chrome-laajennus, joka tunnistaa taulukot verkkosivuilla ja vie ne haluamaasi muotoon. Toisin kuin monimutkasta konfigurointia vaativat web-scraperit, tämä työkalu toimii välittömästi: napsauta, valitse muoto, lataa.
Kaikki käsittely tapahtuu paikallisesti selaimessasi. Tietosi eivät koskaan poistu laitteeltasi.
Kenelle tämä on tarkoitettu?
- Data-analyytikot, jotka tarvitsevat taulukoita talousraporteista, valtion sivustoilta tai tutkimustietokannoista
- Tutkijat, jotka keräävät rakenteellista dataa akateemisista lähteistä tai Wikipediasta
- Kehittäjät, jotka tarvitsevat nopean pääsyn taulukkomuotoiseen dataan ilman scraperin rakentamista
- Kuka tahansa, joka on kyllästynyt kopioimaan ja liittämään taulukoita solu solulta
Milloin käyttää HTML Table Exporteria
HTML Table Exporter on suunniteltu tiettyihin käyttötapauksiin. Ymmärtäminen missä se loistaa — ja missä muut työkalut voivat olla sopivampia — auttaa sinua hyödyntämään sitä parhaiten.
Ihanteellinen:
- Kertaviennit taulukoista — talousraportit, valtion datasetit, tutkimustietokannat, Wikipedia-taulukot, urheilutilastot
- Verkkosovellustiedot — monet CRM-alustat, analytiikkakojelaudat, ERP-järjestelmät ja yritystyökalut renderöivät tietoja HTML-taulukoina, jotka laajennus voi tunnistaa
- Toistuvat viennit — tallenna puhdistussäännöt ja sarakeasetukset profiiliksi ja käytä sitä uudelleen joka kerta kun viet samasta lähteestä
- Yksityisyysherkkät ympäristöt — kaikki käsittely on paikallista, mikä tekee siitä sopivan yritys-, rahoitus- tai terveydenhuoltoympäristöihin, joissa data ei saa poistua selaimesta
- Puhdistusta vaativat tiedot — päivämäärät, numerot, valuutat ja tyhjät arvot normalisoidaan automaattisesti ennen vientiä
Ei suunniteltu:
- Automatisoitu tai ajastettu scraping — tämä on manuaalinen, interaktiivinen työkalu. Jos tarvitset headless-scraperin tai cron-pohjaisen putken, harkitse työkaluja kuten Scrapy, Puppeteer tai Playwright
- Ei-taulukkodata — laajennus tunnistaa HTML
<table>-elementit. Kortit, listat, syötteet ja strukturoimattomat asettelut eivät ole tuettuja - Tietojen käyttö API:n kautta — jos tarvitsemasi tiedot ovat saatavilla API:n kautta, sen suora käyttö on luotettavampaa kuin renderöidyltä sivulta poimiminen
- Taattu yhteensopivuus kaikkien sivustojen kanssa — verkkotaulukkorakenteet vaihtelevat suuresti. Laajennus toimii tavallisten HTML-taulukoiden ja monien monimutkaisten verkkosovellusten kanssa, mutta jotkut sivustot käyttävät epästandardia renderöintiä, joka ei välttämättä ole täysin yhteensopiva
Ilmaisversiossa ei ole rivirajaa ja se toimii useimpien taulukoiden kanssa. Asenna ja testaa omalla sivustollasi ennen PRO:n harkitsemista.
Asennus
-
Käy Chrome Web Storessa
Avaa HTML Table Exporter -sivu Chrome-selaimessasi.
-
Napsauta "Lisää Chromeen"
Napsauta sinistä painiketta ja vahvista ponnahdusikkunassa. Asennus kestää noin 3 sekuntia.
-
Kiinnitä laajennus (valinnainen)
Napsauta palapelikuvaketta Chromen työkalupalkissa ja kiinnitä HTML Table Exporter nopeaa käyttöä varten.
Laajennus pyytää oikeuden "Lukea ja muuttaa kaikkia tietojasi verkkosivustoilla". Tämä on välttämätöntä taulukoiden tunnistamiseen, mutta muista, että kaikki käsittely on paikallista emmekä koskaan lähetä mitään tietoja.
Lisenssin aktivointi
HTML Table Exporter PRO:n ostamisen jälkeen saat lisenssiavaimen sähköpostitse. Noudata näitä vaiheita avataksesi kaikki PRO-ominaisuudet.
Lisenssisi vahvistetaan aktivoinnin aikana ja tallennetaan paikallisesti välimuistiin. Ajoittainen internet-yhteys vaaditaan lisenssin tilan uudelleentarkistukseen keskeytymättömän palvelun varmistamiseksi.
PRO:n aktivointi
-
Napsauta "Aktivoi" laajennuksessa
Avaa laajennuksen ponnahdusikkuna ja napsauta "Aktivoi"-painiketta oikeassa yläkulmassa. Näet myös PRO-ominaisuudet listattuna ilmaisversion alaosassa.
-
Syötä lisenssiavaimesi
Liitä lisenssiavaimesi muodossa
XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXXja napsauta "Aktivoi". Avain lähetettiin sähköpostiisi ostoksen jälkeen. -
Aloita PRO-ominaisuuksien käyttö
Aktivoinnin jälkeen laajennus näyttää "HTML Table Exporter PRO" Historia-painikkeella. Kaikki PRO-ominaisuudet ovat nyt käytettävissä.
Visuaalinen opas
Napsauta "Aktivoi"-painiketta oikeassa yläkulmassa. Ilmaisversio näyttää mitä ominaisuuksia PRO avaa.
Liitä lisenssiavaimesi ja napsauta "Aktivoi". Jos sinulla ei vielä ole avainta, napsauta "Get HTML Table Exporter PRO".
Lisenssiongelmien ratkaiseminen
"Virheellinen lisenssiavain"
Varmista, että kopioit koko lisenssiavaimen kaikkine ajatusviivoineen. Muodon tulee olla XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX. Tarkista, ettei avaimen edessä tai jälkeen ole ylimääräisiä välilyöntejä.
En saanut lisenssiavainta
Tarkista roskapostikansio. Sähköposti tulee Lemon Squeezylta (maksunprosessorimme). Jos et vieläkään löydä sitä, käy Tuki-sivulla tilausnumerosi kanssa.
Minun täytyy siirtää lisenssi toiselle laitteelle
Jokainen lisenssiavain on voimassa yhdelle laitteelle. Jos tarvitset PRO:ta lisälaitteilla, voit hankkia lisälisenssejä tai harkita TEAM- tai BUSINESS-suunnitelmia.
Hanki HTML Table Exporter PRO 14 päivän rahat takaisin -takuulla. Katso hinnoitteluvaihtoehdot →
Pikaopas
Vie ensimmäinen taulukkosi alle 60 sekunnissa:
Taulukoiden vienti
Älykäs valinta (nopein tapa)
Tämä lähestymistapa säästää aikaa antamalla sinun valita kohdetiedot suoraan. Napsauta vain mitä tahansa taulukon kohtaa verkkosivulla ja avaa sitten HTML Table Exporter PRO -laajennuksen kuvake. Laajennus korostaa ja keskittyy automaattisesti kyseiseen taulukkoon, mahdollistaen välittömän viennin ilman muiden havaittujen tulosten selaamista.
Joustavat vientimuodot
Jokainen havaittu taulukko voidaan viedä useissa ammattimuodoissa napsauttamalla vastaavaa painiketta taulukkokortissa:
- Excel (XLSX) — Ihanteellinen syvälliseen data-analyysiin
- CSV — Täydellinen yleiseen taulukkolaskentakäyttöön
- JSON tai NDJSON — Ihanteellinen web-kehitykseen ja NoSQL-tietokantoihin
- SQL — Luo INSERT-lauseita, jotka ovat valmiita käytettäväksi tietokannoissa
Erälataus
Käyttäjille, jotka haluavat poimia kaikki taulukot kerralla, erälataus on käytettävissä. Etsi ZIP-muodon pudotusvalikko ja valitse haluamasi muoto (kuten CSV tai JSON) paketin tiedostoille. Napsauttamalla "Vie kaikki taulukot (ZIP)" kaikki sivun taulukot ladataan yhdessä järjestetyssä paketissa.
Company,Revenue,Growth
Apple,394.33B,+7.8%
Microsoft,211.91B,+12.4%
Google,282.84B,+9.8%
Vientimuodot
HTML Table Exporter tukee viittä tulostusmuotoa, joista jokainen on optimoitu eri käyttötapauksiin.
CSV (pilkuilla erotetut arvot)
Universaali muoto. Toimii Excelin, Google Sheetsin, tietokantojen ja käytännössä minkä tahansa datatyökalun kanssa. PRO-käyttäjät voivat mukauttaa erottimen (pilkku, puolipiste, sarkain) alueellista yhteensopivuutta varten.
Name,Email,Status
John Doe,[email protected],Active
Jane Smith,[email protected],Pending
JSON (JavaScript Object Notation)
Täydellinen kehittäjille ja API:ille. Jokainen rivi muuttuu objektiksi, jossa sarakkeiden otsikot ovat avaimina.
[
{
"Name": "John Doe",
"Email": "[email protected]",
"Status": "Active"
}
]
Excel (XLSX)
Excelin natiivi muoto oikeilla solutyypeillä. Numerot ovat numeroita, päivämäärät ovat päivämääriä.
NDJSON (rivinvaihdolla erotettu JSON)
Täydellinen suoratoistodatan käsittelyyn ja NoSQL-tietokantoihin. Jokainen rivi on erillinen JSON-objekti, mikä tekee siitä ihanteellisen suurille dataseteille ja lokien käsittelyyn.
{"Name":"John Doe","Email":"[email protected]","Status":"Active"}
{"Name":"Jane Smith","Email":"[email protected]","Status":"Pending"}
SQL (INSERT-lauseet)
Luo INSERT-lauseita, jotka ovat valmiita tuotavaksi suoraan tietokantoihin. Täydellinen MySQL:lle, PostgreSQL:lle, SQLitelle ja muille SQL-tietokannoille.
INSERT INTO table_name (Name, Email, Status) VALUES
('John Doe', '[email protected]', 'Active'),
('Jane Smith', '[email protected]', 'Pending');
PRO lisää NDJSON- ja SQL-vientimuodot. Erä-ZIP sisältää kaikki muodot kerralla.
Tietojen puhdistus
Verkkodata on sotkuista: valuuttasymbolit, epäjohdonmukaiset päivämäärämuodot, piilotetut merkit; nämä rikkovat analyysit ja tuonnit. HTML Table Exporter puhdistaa tietosi automaattisesti.
Automaattinen puhdistus (Ilmainen)
- Poistaa välilyönnit kaikista soluista
- Poistaa piilotetut Unicode-merkit
- Normalisoi rivinvaihdot
- Säilyttää yhdistettyjen solujen rakenteen
Älykkäät puhdistusprofiilit (PRO)
PRO sisältää valmiita puhdistusprofiileja yleisille datatyypeille:
Valuuttaprofiili
Poistaa $, €, £ -symbolit ja tuhaterottimet. Muuntaa $1,234.56 muotoon 1234.56.
Prosenttiprofiili
Poistaa %-symbolin. Muuntaa 45.5% muotoon 0.455 tai 45.5.
Päivämääräprofiili
Standardoi päivämäärät ISO-muotoon. Muuntaa Jan 15, 2024 muotoon 2024-01-15.
// Raw data from website
" $1,234.56 ", "Jan 15, 2024", "45.5%"
// After cleaning profiles
1234.56, "2024-01-15", 0.455
Erävienti
Kun sivulla on useita taulukoita (tai tarvitset useita muotoja), erävienti säästää tunteja.
Erävienti on saatavilla vain PRO-käyttäjille.
Vie kaikki taulukot
Napsauta "Vie kaikki" laajennuksen ponnahdusikkunassa. Jokainen taulukko muuttuu erilliseksi tiedostoksi.
ZIP-lataus
Saat yhden ZIP:n kaikilla taulukoilla valitsemassasi muodossa.
tables-export.zip
├── table-1-revenue-summary.csv
├── table-2-revenue-summary.csv
└── table-3-revenue-summary.csv
Monimutkaiset taulukot
Todelliset taulukot ovat harvoin yksinkertaisia ruudukoita. HTML Table Exporter käsittelee monimutkaisuutta, joka rikkoo muita työkaluja.
Yhdistetyt solut (Rowspan/Colspan)
Kun solut ulottuvat useille riveille tai sarakkeille, viedyt tiedot täyttävät vastaavat solut rakenteen säilyttämiseksi.
Sisäkkäiset taulukot
Taulukot taulukoiden sisällä ovat yleisiä vanhoilla verkkosivuilla. Hiiren ohituksen korostus auttaa tarkistamaan ennen vientiä.
Dynaamiset/JavaScript-taulukot
Monet modernit verkkosovellukset renderöivät taulukoita JavaScript-kehyksillä. Jos taulukko näkyy selaimessasi, laajennus voi yleensä tunnistaa sen. Tulokset voivat kuitenkin vaihdella riippuen siitä, miten sivusto rakentelee DOM:nsa — jotkut sovellukset käyttävät epästandardeja elementtejä, joita ei välttämättä tunnisteta taulukoiksi.
Jotkut sivustot lataavat taulukon rivejä vierityksen mukaan. Vieritä ensin loppuun asti varmistaaksesi, että kaikki tiedot latautuvat.
Scroll Capture (PRO)
Scroll Capture on PRO-ominaisuus, joka on suunniteltu sivutetuille ja virtualisoiduille taulukoille, jotka näyttävät kerrallaan vain osan riveistä. Se toimii kaappaamalla näkyvät rivit vierittäessäsi taulukkoa, keräämällä ja poistamalla duplikaatit täydelliseksi datasetiksi.
Miten se toimii: Aktivoit Scroll Capturen ja vierität sitten taulukkoa omaan tahtiisi. Laajennus lukee rivit, jotka ovat renderöitynä selaimen DOM:ssa sillä hetkellä — se ei tee ylimääräisiä verkkopyyntöjä, simuloi napsautuksia tai vuorovaikuta sivutusohjainten kanssa. Kun olet käynyt läpi tarvitsemasi tiedot, pysäytät kaappauksen ja viet kertyneen datasetin.
Keskeiset erot automaattisivutustyökaluihin: Toisin kuin selainlaajennukset, jotka napsauttavat automaattisesti "Seuraava sivu" -painikkeita tai simuloivat loputonta vieritystä, Scroll Capture on passiivinen lukija. Se tarkkailee mitä selaimesi on jo renderöinyt aktivoimatta sivunavigointia tai palvelinpyyntöjä. Tämä tekee siitä vähemmän altis aktivoimaan nopeusrajoja tai bot-suojauksia, ja se toimii virtualisoitujen ruudukoiden kanssa, jotka korvaavat DOM-solmuja vierityksen aikana.
Scroll Capture toimii monien sivutettujen ja virtualisoitujen taulukoiden kanssa, mutta tulokset riippuvat kunkin verkkosivuston toteutuksesta. Kaikki taulukkomuodot eivät ole tuettuja. Suosittelemme testaamaan ensin ilmaisversiolla varmistaaksesi perustaulukkotunnistuksen kohdesivustollasi.
Ilmainen vs PRO -vertailu
Ilmaisversio on aidosti hyödyllinen ilman keinotekoisia rajoituksia. PRO lisää edistyneitä ominaisuuksia aktiivisille käyttäjille.
| Ominaisuus | Ilmainen | PRO |
|---|---|---|
| CSV-vienti | ✔ | ✔ |
| JSON-vienti | ✔ | ✔ |
| Excel-vienti | ✔ | ✔ |
| NDJSON-vienti | — | ✔ |
| SQL-vienti | — | ✔ |
| Automaattinen taulukoiden tunnistus | ✔ | ✔ |
| Yhdistettyjen solujen käsittely | ✔ | ✔ |
| ZIP-lataus (kaikki taulukot) | Vain CSV | Moniformaatti |
| Valmiit profiilit (Pandas, DuckDB, jne.) | — | ✔ |
| Puhdistusesiasetukset (numerot, päivämäärät, tyhjät) | — | ✔ |
| Sarakkeiden valinta ja järjestäminen | — | ✔ |
| Vientihistoria | — | ✔ |
| Toista viimeisin vienti | — | ✔ |
| Esikatselu hiirellä osoittamalla | — | ✔ |
| 100% paikallinen käsittely | ✔ | ✔ |
Vianetsintä
"Taulukoita ei havaittu"
Jotkut sivustot käyttävät <div>-pohjaisia asetteluja, jotka näyttävät taulukoilta mutta eivät ole semanttisia HTML-taulukoita. Laajennus tunnistaa pääasiassa <table>-elementtejä ja on myös yhteensopiva joidenkin JavaScript-pohjaisten ruudukkokomponenttien kanssa. Varmista, että sivu on latautunut kokonaan ennen vientiä.
Puuttuvat tiedot viennissä
Tarkista käyttääkö taulukko laiskaa latausta. Vieritä ensin koko taulukon läpi, sitten vie.
Viennissä on väärä koodaus
Laajennus käyttää UTF-8-koodausta. Jos näet lukukelvottomia merkkejä Excelissä, käytä Tiedot → Tekstistä/CSV:stä tuontiin.
Laajennus ei toimi sivustolla
Jotkut sivustot (kuten Chrome Web Store itse) estävät laajennukset turvallisuussyistä. Tämä on Chromen rajoitus. Jos uskot, että laajennuksen pitäisi toimia tietyllä sivustolla mutta ei toimi, tai huomaat poimintavirheitä, ilmoita siitä Tukipyyntölomakkeellamme tutkintaa varten.
Käy Tuki-sivullamme ja täytä lomake ilmoittaaksesi virheestä. Tuki hoidetaan henkilökohtaisesti ja vastaukset voivat kestää jopa 10 arkipäivää.