PDF-Import der Weberbank

Hallo,

habe soeben versucht eine Ertragsabrechnung als PDF der Weberbank einzulesen. Die arbeiten mit der Software der Landessparkassen. Als Fehlermeldung erhalte ich:
"Nur 2 von 3 Pattern erkannt: … " .

Kennt jemand ne Möglichkeit Dokumente aus dieser Quelle fehlerfrei zu importieren.

Danke schonmal vorab!

So 100%ig scheint es doch nicht identisch zu sein kannst du bitte ein Beispiel zur Verfügung stellen?

Und andere PDF Dokumente?

Andere Dokumente können im Source Code hinzufügen werden. Wer sich daran versuchen möchte, schaut sich z.B. den Importer für die Deutsche Bank an. Ansonsten kann ich - wenn Zeit und Muße vorhanden ist - auch Dokumente hinzufügen. Dazu braucht es den Text:

  • Im Menü “Datei” -> “Importieren…” -> “Debug: Text aus PDF extrahieren…” den Text aus der PDF Datei generieren
  • Gegebenenfalls private Informationen wie Namen, Anschrift oder genaue Buchungswerte ändern. Dabei aber unbedingt darauf achten, dass man keine neuen Zeilen, keine Zeilenümbrüche, oder Leerzeichen oder ähnliches einfügt.
  • Neuen Github Issue mit dem Text anlegen oder hier im Forum posten. Beim Posten im Forum bitte den Text in drei Backticks ( ``` ) einschließen, so dass die Formatierung nicht verändert wird

Vielen Dank, Ragas!

Das war ja wirklich schnell. Leider ist es schon mehr als 30 Jahre her, dass ich ein paar sinnige Funktionen in Basic geschrieben habe, zwischenzeitlich war ich weit weg vom Code schmieden und das nun nochmal wieder zu beleben bringt’s nicht wirklich. Github ist deshalb einfach nicht mein zuhause und somit wäre ich sehr erfreut, falls es Zeit und Muße erlauben, vielleicht ne Lösung von dir zu bekommen.
Nochmals „DANKE“ für die schnelle Reaktion und die ev. Lösungsmöglichkeit.
Hier der extrahierte und geXXXte Text des PDFs:

PDF Autor: ''
PDFBox Version: 1.8.16
-----------------------------------------
 Seite 1
Depotnummer
 XXXXXXXXXX
 Kundennummer XXXXXXXXXX
 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXX Datum 14.08.2020
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 
XXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXX
 
   
Dividendengutschrift
Nominale Wertpapierbezeichnung ISIN (WKN)
Stück 107 APPLE INC. US0378331005 (865985)
REGISTERED SHARES O.N.
Zahlbarkeitstag 13.08.2020 Dividende pro Stück 0,82 USD
Bestandsstichtag 06.08.2020 Herkunftsland USA
Ex-Tag 07.08.2020 Art der Dividende Quartalsdividende
Geschäftsjahr 01.10.2019 - 30.09.2020
Devisenkurs EUR / USD 1,1848
Devisenkursdatum 14.08.2020
Dividendengutschrift 87,74 USD 74,05+ EUR
Umrechnung in EUR 74,05 EUR
Einbehaltene Quellensteuer 15 % auf 87,74 USD 11,11- EUR
Anrechenbare Quellensteuer 15 % auf 74,05 EUR 11,11 EUR
Kapitalertragsteuerpflichtige Dividende 74,05 EUR
Verrechnete anrechenbare ausländische Quellensteuer
(Verhältnis 100/25) auf 11,11 EUR 44,44 - EUR
Berechnungsgrundlage für die Kapitalertragsteuer 29,61 EUR
Kapitalertragsteuer 25 % auf 29,61 EUR 7,40- EUR
Solidaritätszuschlag 5,5 % auf 7,40 EUR 0,40- EUR
Ausmachender Betrag 55,14+ EUR
Lagerstelle Clearstream Banking FFM (849000 / 40030000)
Den Betrag buchen wir zu Gunsten des Kontos XXXXXXXXXX (IBAN DEXX XXXX XXXX XXXX XXXX XX), BLZ XXX XXX XX (BIC
XXXXXXXXXXX). 
Keine Steuerbescheinigung. 
0858.08150100.0000330ER01

Seite 2
Depotnummer XXXXXXXXXX
Kundennummer XXXXXXXXXX
Abrechnungsnr. XXXXXXXXXX
Datum 14.08.2020
Nachrichtlich die Übersicht Ihrer Verrechnungs- und Steuertopfsalden zum Zeitpunkt der Erstellung der Abrechnung.
Verrechnungstöpfe 2020 Berechnungsgrundlage
der gezahlten Steuern
Euro Aktien Sonstige Sparer- anrechenbare Aktien und Sonstige
Pauschbetrag Quellensteuer
Vorher XX.XXX,XX X,XX X,XX X,XX X.XXX,XX
Ertrag XX,XX
0,00 0,00 0,00 11,11- 29,61
Nachher XX.XXX,XX X,XX X,XX X,XX X.XXX,XX
Dieses Dokument wurde maschinell erstellt und wird nicht unterschrieben.
0858.08150100.0000331ER01

Hallo @cnemo,
gibt es in dem Dokument einen Hinweis auf den Ursprung, also, dass das Dokument von der Weberbank stammt? Ich kann auf Anhieb nichts erkennen. Vermutlich ist im PDF nur ein Logo?! Das macht es der Programmlogik unmöglich zu entscheiden, mit welchem Extraktor das Dokument ausgelesen werden soll.

Ist in den anonymisierten Inhalten etwas zu finden? Vielleicht über den Beginn der IBAN (also die dort integrierte BLZ)?

Danke inv-trad, bin heute nicht zuhause, werde morgen nochmal schauen und Bescheid geben.
LG cnemo

Hallo inv-trad,
habe mir das Dokument jetzt nochmal angeschaut. Die einzigen Hinweise auf die Weberbank im PDF sind der Namenszug „Weberbank“ als Logo im Kopf und die Fußzeile (4-zeilig) mit den klassischen Kontaktangaben (einschl. Sitz, Vorstand BICC usw.), die aber alle nicht in den Textmodus übernommen werden. Ansonsten gibt’s nur nochmal die Angaben, Kontonummer (IBAN), BLZ (BICC) nach dem Text „Den Betrag buchen wir zu Gunsten des Kontos“ am Ende von Seite 1.
Hier die Zeile nochmal etwas weniger anonymisiert:
‚‘‚Den Betrag buchen wir zu Gunsten des Kontos 18000XXXXX (IBAN DE45 1012 0100 1800 0XXX XX), BLZ 101 201 00 (BIC
WELADED1WBB).‘’’
Wenn wir mehr brauchen, wird’s wohl schwierig.
Nochmal Danke für deine Bemühungen.

Danke. Damit sollten wir weiterkommen. Ich kann mir das nächste Woche mal anschauen.

Ich hab zu danken. Freu mich aufs Ergebnis. Bis dann!

In der Hoffnung, dass die BLZ immer vorkommt, habe ich mal einen „Entwurf“ eingereicht:

1 Like

oh, super, Danke inv-trad… aber wie bekomme ich das jetzt in die PP-App um es zu testen?

Da das vorab nicht ganz so einfach ist, vermutlich erst mit dem nächsten offiziellen Update.

Wenn es schneller gehen soll, funktioniert das meines Wissens nur über die Entwicklungsumgebung. Eine Anleitung gibt es hier.

oh-ha! dann bleibt es doch erst mal beim „Danke für deine Bemühungen“. Das ist doch nicht die Umgebung in der ich Sinnvolles beitragen kann. Ich warte dann mal aufs Update. :slight_smile:

Danke inv-trad - mit dem neuen Update ist alles perfekt eingespielt und der Import funktioniert bestens.
Tausend Dank!

2 Like