Uvozite podatke iz PDF-ja v Excel prek Power Queryja

Naloga prenosa podatkov iz preglednice v datoteki PDF v list Microsoft Excel je vedno "zabavna". Še posebej, če nimate drage programske opreme za prepoznavanje, kot je FineReader ali kaj podobnega. Neposredno kopiranje običajno ne pripelje do nič dobrega, saj. po lepljenju kopiranih podatkov na list se bodo najverjetneje "zlepili" v en stolpec. Zato jih bo treba nato z orodjem skrbno ločiti Besedilo po stolpcih iz zavihka datum (Podatki — besedilo v stolpce).

In seveda, kopiranje je možno samo za tiste PDF datoteke, kjer je tekstovna plast, torej pri dokumentu, ki je pravkar skeniran s papirja v PDF, to načeloma ne bo šlo.

Ampak ni tako žalostno, res 🙂

Če imate Office 2013 ali 2016, je v nekaj minutah, brez dodatnih programov, povsem mogoče prenesti podatke iz PDF v Microsoft Excel. Pri tem nam bosta pomagala Word in Power Query.

Za primer vzemimo to poročilo PDF s kupom besedila, formul in tabel s spletne strani Evropske ekonomske komisije:

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

... in poskusite potegniti iz nje v Excelu, recimo prvo tabelo:

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

Pojdimo!

Korak 1. Odprite PDF v Wordu

Iz neznanega razloga malo ljudi ve, toda od leta 2013 se je Microsoft Word naučil odpreti in prepoznati datoteke PDF (tudi skenirane, to je brez besedilne plasti!). To se naredi na povsem standarden način: odprite Word, kliknite Datoteka – Odpri (Datoteka — Odpri) in na spustnem seznamu v spodnjem desnem kotu okna določite format PDF.

Nato izberite datoteko PDF, ki jo potrebujemo, in kliknite Odprto (Odprto). Word nam pove, da bo zagnal OCR v tem dokumentu v besedilo:

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

Strinjamo se in čez nekaj sekund bomo videli naš PDF odprt za urejanje že v Wordu:

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

Seveda bodo dizajn, slogi, pisave, glave in noge itd. delno odleteli z dokumenta, vendar to za nas ni pomembno - potrebujemo samo podatke iz tabel. Načeloma je na tej stopnji že mikajoče, da bi tabelo iz prepoznanega dokumenta preprosto kopirali v Word in jo preprosto prilepili v Excel. Včasih deluje, vendar pogosteje vodi do vseh vrst izkrivljanja podatkov - na primer, številke se lahko spremenijo v datume ali ostanejo besedilo, kot v našem primeru, ker. PDF uporablja neločevalne znake:

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

Zato ne omejujmo, ampak naredimo vse skupaj malo bolj komplicirano, a prav.

2. korak: Shranite dokument kot spletno stran

Za nalaganje prejetih podatkov v Excel (prek Power Queryja) je treba naš dokument v Wordu shraniti v obliki spletne strani – ta oblika je v tem primeru nekakšen skupni imenovalec Worda in Excela.

Če želite to narediti, pojdite v meni Datoteka – Shrani kot (Datoteka — Shrani kot) ali pritisnite tipko F12 na tipkovnici in v oknu, ki se odpre, izberite vrsto datoteke Spletna stran v eni datoteki (Spletna stran — ena datoteka):

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

Po shranjevanju bi morali dobiti datoteko s pripono mhtml (če v Raziskovalcu vidite pripone datotek).

Faza 3. Nalaganje datoteke v Excel prek Power Queryja

Ustvarjeno datoteko MHTML lahko odprete neposredno v Excelu, a takrat bomo dobili, prvič, vso vsebino PDF-ja naenkrat, skupaj z besedilom in kopico nepotrebnih tabel, in drugič, spet bomo izgubili podatke zaradi nepravilnega ločila. Zato bomo uvoz v Excel izvedli prek dodatka Power Query. To je popolnoma brezplačen dodatek, s katerim lahko naložite podatke v Excel iz skoraj vseh virov (datoteke, mape, baze podatkov, ERP sistemi) in nato prejete podatke na vse možne načine transformirate in jim daste želeno obliko.

Če imate Excel 2010-2013, lahko prenesete Power Query z uradne Microsoftove spletne strani – po namestitvi boste videli zavihek poizvedba o moči. Če imate Excel 2016 ali novejši, vam ni treba ničesar prenesti – vse funkcionalnosti so že privzeto vgrajene v Excel in se nahajajo na zavihku datum (Datum) v skupini Prenesite in pretvorite (Pridobi in preobrazi).

Torej gremo bodisi na zavihek datum, ali na zavihku poizvedba o moči in izberite ekipo Za pridobitev podatkov or Ustvari poizvedbo – iz datoteke – iz XML. Če želite, da niso vidne samo datoteke XML, spremenite filtre na spustnem seznamu v spodnjem desnem kotu okna na Vse datoteke (Vse datoteke) in določite našo datoteko MHTML:

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

Upoštevajte, da se uvoz ne bo uspešno zaključil, ker. Power Query od nas pričakuje XML, dejansko pa imamo obliko HTML. Zato boste morali v naslednjem oknu, ki se prikaže, z desno miškino tipko klikniti datoteko, ki jo Power Query ne razume, in določiti njeno obliko:

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

Po tem bo datoteka pravilno prepoznana in videli bomo seznam vseh tabel, ki jih vsebuje:

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

Vsebino tabel si lahko ogledate tako, da z levim gumbom miške kliknete na belo ozadje (ne v besedi Tabela!) celic v stolpcu Podatki.

Ko je želena tabela definirana, kliknite na zeleno besedo Tabela – in »padete« v njeno vsebino:

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

Ostaja še nekaj preprostih korakov za "česanje" njegove vsebine, in sicer:

  1. izbrišite nepotrebne stolpce (z desnim klikom na glavo stolpca – odstrani)
  2. zamenjaj pike z vejicami (izberi stolpce, desni klik – Zamenjava vrednosti)
  3. odstrani enačaj v glavi (izberi stolpce, desni klik – Zamenjava vrednosti)
  4. odstranite zgornjo vrstico (Domov – Izbriši vrstice – Izbriši zgornje vrstice)
  5. odstranite prazne vrstice (Domov – Izbriši vrstice – Izbriši prazne vrstice)
  6. dvignite prvo vrstico do glave tabele (Domov – uporabite prvo vrstico kot naslove)
  7. filtrirajte nepotrebne podatke s filtrom

Ko je tabela postavljena v normalno obliko, jo lahko z ukazom razložimo na list zaprite in prenesite (Zapri in naloži) on Glavni zavihek. In dobili bomo takšno lepoto, s katero že lahko delamo:

Uvozite podatke iz PDF-ja v Excel prek Power Queryja

  • Pretvorba stolpca v tabelo s funkcijo Power Query
  • Razdelitev lepljivega besedila v stolpce

Pustite Odgovori