W dzisiejszym poście nauczymy się jak pobrać dane z pliku PDF do Power Query. Omówimy tutaj dwie możliwości. W Excelu, Power Query nie ma możliwości pobrania danych bezpośrednio z pliku PDF, natomiast taka możliwość pojawia się w Power BI Desktop (drugie rozwiązanie). Pierwsze rozwiązanie będzie wykonane na podstawie filmu znalezionego w sieci, gdzie najpierw przekształcimy dane z pliku PDF do takiego formatu, który Power Query będzie w stanie pobrać. Załóżmy, że mamy przykładowy plik PDF jak na rys. nr 1.

Rys. nr 1 – przykładowy plik pdf do pobrania
Rys. nr 1 – przykładowy plik pdf do pobrania

Musimy ten plik otworzyć za pomocą WORDA, czyli klikamy na niego prawym przyciskiem myszy i z podręcznego menu rozwijamy polecenie Otwórz za pomocą, a następnie wybieramy polecenie Wybierz inną aplikację (nie mamy na domyślnej liście programu WORD) – rys. nr 2.

Rys. nr 2 – polecenie Wybierz inną aplikację
Rys. nr 2 – polecenie Wybierz inną aplikację

Otworzy się okno o nazwie Jak chcesz otworzyć ten plik, gdzie musimy znaleźć na liście program WORD, zaznaczyć go i nasz wybór zatwierdzić przyciskiem OK (rys. nr 3).

 Rys. nr 3 – okno o nazwie Jak chcesz otworzyć ten plik?
Rys. nr 3 – okno o nazwie Jak chcesz otworzyć ten plik?

Po zatwierdzeniu otwarcia pliku PDF w programie Word, plik PDF zostaje przekonwertowany na edytowalny dokument tekstowy. Funkcjonalność ta działa od WORDA 2016, we wcześniejszej wersji nie działało. Pojawi nam się okno , gdzie musimy zatwierdzić decyzję, że chcemy przekształcić plik PDF za pomocą przycisku OK. Otworzy nam się WORD z plikiem przedstawionym na rys. nr 4.

Rys. nr 4 – plik pdf otwarty w programie WORD
Rys. nr 4 – plik pdf otwarty w programie WORD

Mamy dane w wordzie, razem z tabelkami, jakie nas interesują. Nie potrzebujemy danych z Worda tylko danych zapisanych jako html, czyli stronę web. Przechodzimy do menu Plik, następnie wybieramy polecenie Zapisz jako (rys. nr 5).

Rys. nr 5 – polecenie Zapisz jako
Rys. nr 5 – polecenie Zapisz jako

Otworzy nam się panel Zapisywania jako, gdzie możemy wybrać lokalizację w jakiej chcemy zapisać plik, zmienić tytuł (nazwę) pliku a przede wszystkim wybrać typ pliku. Rozwijamy listę z rodzajami plików i wybieramy Strona sieci Web (rys. nr 6).

Rys. nr 6 – typ pliku Strona sieci Web
Rys. nr 6 – typ pliku Strona sieci Web

Po wybraniu odpowiedniego typu pliku, a ze względu na to że żyjemy w Polsce, musimy rozwinąć polecenie Więcej opcji (zaznaczone strzałką na rys. nr 7).

Rys. nr 7 – polecenie Więcej opcji
Rys. nr 7 – polecenie Więcej opcji

Otworzy nam się okno Zapisz jako, gdzie w menu Narzędzia wybieramy polecenie Opcje sieci Web (rys. nr 8).

Rys. nr 8 – Opcje sieci Web
Rys. nr 8 – Opcje sieci Web

Otworzy nam się okno Opcji sieci Web, gdzie przechodzimy na zakładkę Kodowanie, a następnie upewniamy się że wybrane jest kodowanie Unicode (UTF‑8), żeby Power Query mógł to prawidłowo odczytać. Tak ustawione kodowanie zatwierdzamy przyciskiem OK (rys. nr 9).

Rys. nr 9 – kodowanie Unicode (UTF-8)
Rys. nr 9 – kodowanie Unicode (UTF‑8)

Automatycznie nastąpi powrót do okna Zapisz jako, gdzie ustawione parametry zatwierdzamy przyciskiem Zapisz. Word stworzył nam plik html i dopiero ten plik będziemy mogli zaczytać do Power Query.

Przy pobieraniu danych Power Query może mieć problem z polskimi znaczkami, dlatego tak ważne było ustawienie kodu UTF‑8. Rozwijamy polecenie Z pliku (punkt 2 na rys. nr 10) z karty Dane (punkt 1), a następnie wybieramy polecenie Ze skoroszytu (punkt 3).

Rys. nr 10 – ścieżka dostępu do polecenia Ze skoroszytu
Rys. nr 10 – ścieżka dostępu do polecenia Ze skoroszytu

Otworzy nam się okno Importowania danych, gdzie na dole obok wybranej Nazwy pliku musimy wybrać opcję Wszystkie pliki a nie tylko pliki Excel. Dzięki tej opcji wyświetlą nam się wszystkie pliki w tym katalogu. Wybieramy plik html i zatwierdzamy nasz wybór przyciskiem Importuj (rys. nr 11).

Rys. nr 11 – okno Importowania danych
Rys. nr 11 – okno Importowania danych

Power Query domyśli się że nie importujemy pliku Excela i otworzy nam okno Nawigatora, gdzie możemy wybrać poszczególne elementy, które chcemy zaczytać do Power Query. Wybieramy tabelę nr 2, następnie przechodzimy do Power Query za pomocą przycisku Przekształć dane. Naszym zadaniem było tylko zaczytanie danych a nie ich przekształcanie więc możemy dane na tym etapie od razu załadować do Excela za pomocą przycisku Załaduj (rys. nr 12).

Rys. nr 12 – okno Nawigator, gdzie wybieramy dane, które chcemy zaczytać do Power Query
Rys. nr 12 – okno Nawigator, gdzie wybieramy dane, które chcemy zaczytać do Power Query

Otrzymamy wybrane dane załadowane do Excela przedstawione na rys. nr 13, dane w dokładnie takiej postaci, w jakiej były w pliku PDF.

Rys. nr 13 – wybrane  dane zaczytane do Excela
Rys. nr 13 – wybrane dane zaczytane do Excela

Istotne jest, że dzięki ustawieniu odpowiedniego kodowania widać polskie znaki w danych. W razie potrzeby dane te możemy edytować za pomocą polecenia Edytuj z karty Zapytanie (rys. nr 14).

Rys. nr 14 – polecenie Edytuj
Rys. nr 14 – polecenie Edytuj

Pierwsze rozwiązanie jest dość długie, ale nie wymaga instalacji dodatkowego oprogramowania, wszystkie działania wykonujemy w pakiecie Microsoft Office.

Drugie rozwiązanie wykorzystuje Power BI Desktop, gdzie rozwijamy polecenie  Pobierz dane  z karty Strona główna, następnie wybieramy polecenie Więcej (rys. nr 15). Power Bi ma możliwość pobierania danych bezpośrednio z pliku pdf.

Rys. nr 15 – Więcej opcji pobierania danych
Rys. nr 15 – Więcej opcji pobierania

Otworzy nam się okno Pobierania danych, gdzie w zakładce Wszystkie wyszukujemy plik typu PDF. Wybór rodzaju pliku do pobrania zatwierdzamy przyciskiem Połącz (rys. nr 16).

Rys. nr 16 – okno Pobierania danych, gdzie wybieramy typ pliku jaki chcemy pobrać
Rys. nr 16 – okno Pobierania danych, gdzie wybieramy typ pliku jaki chcemy pobrać

Otworzy się okno Otwieranie, gdzie musimy wskazać plik pdf, z którego chcemy pobrać dane. Power Bi pamięta ścieżkę dostępu do pliku, na którym wykonujemy poszczególne czynności w tym odcinku. Zaznaczamy plik, który chcemy pobrać i klikamy dwukrotnie lub zatwierdzamy przyciskiem Otwórz (rys. nr 17).

Rys. nr 17 – okno Otwieranie, gdzie wybieramy plik do pobrania
Rys. nr 17 – okno Otwieranie, gdzie wybieramy plik do pobrania

Trochę dłużej trwa wczytywanie (łączenie) niż dla standardowego pliku czy to z Excela, czy np. html, ale Power Bi radzi sobie z wyciąganiem danych z pliku pdf. Otworzy nam się okno Nawigator z wyświetlonymi elementami pliku pdf. Nas interesuje ta tabelka, która wybieraliśmy w pierwszym przykładzie, czyli tutaj Table004 (page 3) i dodatkowo inna tabelka, aby pokazać działanie pobierania danych. Nasze wybrane tabelki zatwierdzamy przyciskiem Załaduj (rys. nr 18).

Rys. nr 18 – okno Nawigatora, gdzie wybieramy interesujące nas elementy pliku pdf
Rys. nr 18 – okno Nawigatora, gdzie wybieramy interesujące nas elementy pliku pdf

Podsumowując pobieramy dwie tabelki z pliku pdf. Ważne jest, że plik pdf nie może być obrazkowy, tzn. nie mogą to być rysunki (zdjęcia) tabel tylko fizycznie utworzone tabelki np. w pliku Word lub Excel. Jeśli mamy do czynienia z plikiem pdf, gdzie znajdują się pliki jpg, czyli zdjęcia jakichś elementów to nic nie jest w stanie odczytać takich danych, przynajmniej ja nie znam takiego programu. Otrzymamy zaczytane do Power Bi dwie tabelki (rys. nr 19).

Rys. nr 19 – tabelki zaczytane do Power Bi
Rys. nr 19 – tabelki zaczytane do Power Bi

Jeśli chcemy je skopiować do Excela, to wystarczy kliknąć w obszar danej tabelki prawym przyciskiem myszy i z podręcznego menu wybrać polecenie Kopiuj tabelę (rys. nr 20).

Rys. nr 20 – polecenie Kopiuj tabelę z podręcznego menu
Rys. nr 20 – polecenie Kopiuj tabelę z podręcznego menu

Po skopiowaniu tabeli wystarczy przejść do okna Excela i ją wkleić za pomocą skrótu klawiszowego Ctrl+V. Dane zostały wklejone do Excela identycznie jak wyglądały w programie Power Bi (rys. nr 21).

Rys. nr 21 – Tabelka wklejona do Excela
Rys. nr 21 – Tabelka wklejona do Excela

Możemy wrócić do Power BI i zrobić szybkie filtrowanie danych, mianowicie kliknąć w ikonkę trójkąta obok nazwy województwa i odznaczyć checkboxy przy nazwach województw, które nas w tym momencie nie interesują. Parametry filtru zatwierdzamy przyciskiem OK (rys. nr 22).

Rys. nr 22 – filtrowanie danych w tabeli
Rys. nr 22 – filtrowanie danych w tabeli

Otrzymamy przefiltrowane dane przedstawione na rys. nr 23.

Rys. nr 23 – przefiltrowane dane w tabeli
Rys. nr 23 – przefiltrowane dane w tabeli

Przygotowaliśmy sobie przefiltrowaną tabelkę, na którą klikamy prawym przyciskiem myszy i z podręcznego menu wybieramy polecenie Kopiuj tabelę jak na rys. nr 20. Następnie przechodzimy do Excela, ustawiamy aktywną komórkę obok poprzednio wklejonej tabelki i za pomocą skrótu klawiszowego Ctrl+V, wklejamy przefiltrowaną tabelkę (rys. nr 24).

Rys. nr 24 – Druga tabelka wklejona do Excela (z uwzględnionymi filtrami)
Rys. nr 24 – Druga tabelka wklejona do Excela (z uwzględnionymi filtrami)

Podsumowując Power Bi tak samo jak Power Query przy kopiowaniu danych uwzględnia nałożone wcześniej filtry. Jest to istotne, szczególnie przy pobieraniu danych z pliku pdf.


Książka Mistrz Excela + promo na 35 urodziny

Chcę Cię poinformować, że w końcu udało mi zebrać środki i dopiąć wszystkich formalności, żeby powstało II wydanie mojej książki Mistrz Excela (zostałem wydawcą)
II wydanie jest wzbogacone o rozdział (nr 22) wprowadzający w genialny dodatek (Power Query) do Excela służący do pobierania, łączenia i wstępnej obróbki danych z wielu źródeł.

Książka Mistrz Excela to historia Roberta, który musi poznać dobrze Excela na potrzeby nowej pracy. Książka jest napisana w formie rozmów Roberta z trenerem, dzięki temu jest przystępniejsza w odbiorze niż standardowe książki techniczne pisane językiem "wykładowym".

Rozmowy zostały podzielone na 22 tematyczne rozdziały, które krok po kroku wprowadzają Cię w tajniki Excela. Robert zaczyna naukę od poznania ciekawych aspektów sortowania i filtrowania danych w Excelu, przechodzi przez formatowanie warunkowe, tabele przestawne, funkcje wyszukujące i wiele innych tematów, by na koniec poznać wstępne informacje o VBA i Power Query.
A wszystko to na praktycznych przykładach i z dużą ilością zdjęć.

Żebyś mógł śledzić postępy Roberta, do książki dołączone są pliki Excela, na których pracuje Robert.

Aktualnie w promocji urodzinowej możesz mieć Mistrza Excela w obniżonej cenie, jeśli tylko wpiszesz kod 35URODZINY
https://exceliadam.pl/produkt/ksiazka-mistrz-excela

Na powyższej stronie znajdziesz dokładniejszy opis książki, opinie osób, które kupiły I wydanie oraz podgląd pierwszego rozdziału książki, żeby upewnić się, czy forma rozmów przy nauce Excela jest dla Ciebie.
Jeśli książka Ci się spodoba poinformuj o niej swoich znajomych.

W ramach promocji na moje 35 urodziny możesz też mieć każdy z moich kursów wideo na Udemy za zaledwie 35 zł. Linki do kursów zamieszczam poniżej. W każdym kursie są udostępnione filmy do podglądu, byś mógł się przekonać czy dany kurs jest dla Ciebie.

Power Query
https://www.udemy.com/course/mistrz-power-query/?couponCode=35URODZINY

Mistrz Excela
https://www.udemy.com/mistrz-excela/?couponCode=35URODZINY

Dashboardy
https://www.udemy.com/course/excel-dashboardy/?couponCode=35URODZINY

Mistrz Formuł
https://www.udemy.com/course/excel-mistrz-formul/?couponCode=35URODZINY

VBA
https://www.udemy.com/course/excel-vba-makra/?couponCode=35URODZINY

Microsoft Power BI
https://www.udemy.com/course/power-bi-microsoft/?couponCode=35URODZINY

Książka Mistrz Excela reklama