Ankündigung

Einklappen
Keine Ankündigung bisher.

[Erledigt] PDF in Excel umwandeln

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • [Erledigt] PDF in Excel umwandeln

    [/COLOR]"]
    Hallo
    Ich muss für die Arbeit ein Programm schreiben das eine PDF Datei in Excel umwandelt. Leider habe ich keine Vorstellung wie ich an die Sache rangehen soll. Ich bin im ersten Lehrjahr und finde, dass diese Aufgabe echt schwer ist, zumal ich in PHP noch nicht die große Erfahrung habe.
    ich sage schon mal Danke im voraus

  • #2
    Hi,

    Ich muss für die Arbeit ein Programm schreiben das eine PDF Datei in Excel umwandelt
    ähm sicher, dass das die Aufgabe ist und nicht andersrum??

    mfg wolf29
    while (!asleep()) sheep++;

    Unterschätze nie jemanden der einen Schritt zurück geht! Er könnte Anlauf nehmen.

    Kommentar


    • #3
      Ja leider ist es so richtigrum

      Kommentar


      • #4
        und inwiefern eignet sich das pdf las exel? fliesstext wirds ja nicht sein sein.

        also: parsen, aufteilen, execl generieren.

        Kommentar


        • #5
          Es gibt eine Spalte mit Postleitzahlen, ein Spalte mit Städten, ein Spalte mit Straßen, eine Spalte mit Hausnummern und eine Spalte mit Hausnummern Zusatz.
          Dazu kommt folgendes:
          Ortskennzahl: xxxxx
          Anschlussbereich: xxxx
          Verzweignummer: Xxxx.xxx

          Kommentar


          • #6
            PDF und Excel sind grundsätzlich verschieden von Aufbau und Intention.

            PDF kennt keine Zeilen und Spalten wie Excel, du kannst dort auch nicht auf einfach Weise Text auslesen, es ist kein Austauschformat, sondern ein Präsentationsformat (Ziel von PDF ist es, das ein Dokument platformübergreifend identisch dargestellt wird).

            Diese Aufgabe ist mehr als schwer... ich kenne keine API, mit der man zuverlässig Text aus PDF extrahieren kann.
            Du kannst es mit ein paar von diesen Vorschlägen versuchen, aber es kommt auf das PDF Dokument an, ob die Ergebnisse taugen...
            http://stackoverflow.com/questions/3...ext-from-a-pdf
            Über 90% aller Gewaltverbrechen passieren innerhalb von 24 Stunden nach dem Konsum von Brot.

            Kommentar


            • #7
              @ Melkor:

              Weiß dein "Auftraggeber" (sprich: Lehrherr(in)/Chef(in)/Berufsschullehrer(in)) überhaupt was er/sie da von dir verlangt? ->
              Denn laut Istegelitz ist das (fast) unmöglich und auch ich kenne keine API, die Text aus einem PDF "lesen" kann.
              Falls das eine Lernaufgabe sein soll, frag mal den-/diejenige(n), der/die das aufgegeben hat, ob er/sie weiß, in wie weit das möglich ist.

              @ all:
              Sorry, aber da musste ich jetzt meinen Senf dazu geben.


              mfG APH

              komisch: Kaum macht man`s richtig funktioniert`s a scho.

              Kommentar


              • #8
                Du musst uns schon noch mehr Infos geben.
                Wie werden die PDF-Dateien erstellt?
                .

                Kommentar


                • #9
                  Als Aufgabe fürs erste Lehrjahr ist das gut. Es sollte schon zu denken geben das es keine oder nur sehr wenige Tools gibt die sowas überhaupt anbieten. Das Problem ist PDF bietet unzählige Möglichkeiten um eine Tabelle auf den Monitor zu bringen, aber in der PDF selbst sind das am Ende nur Objekte wie Linien, Zeichen, Bilder die irgendwo dargestellt werden. Ein Parser zu schreiben ist daher ziemlich komplex und wird auch nie zu 100% funktionieren.
                  Als realistisch würde ich das Vorhaben nur einschätzen wenn du immer die gleichen PDFs auslesen willst. Dann kannst du ein Parser schreiben der sich aus den bekannten stellen die benötigten Daten zieht. (aber auch nicht unbeingt fürs erste Lehrjahr)
                  Wenn die PDFs unterscheidlich sind würde ichs gleich lassen und eher sowas wie FineReader nehmen. Muss zwar immer per Hand nachgearbeitet werden, geht aber schneller als abtippen.

                  Kommentar


                  • #10
                    zuverlässig, nicht - das stimmt.

                    die geringe anzahl fehler, welche ich bei einer masse an unterschiedlichen pdf dateien hatte, hab ich mit dem umweg über jpg's und ocr recht gut in den griff bekommen. es waren unter 0.2 percentum.
                    sonst lief es relativ glatt mit alladin ghostscript ist aber auch schon einige zeit her.

                    ich gehe davon aus, dass sich die pdf datei durchaus brauchbar parsen lässt, sonst wäre die aufgabe ja sinnloss. wenn man kein forum bemüht, sondern selbst recherchiert, ist das durchaus eine aufgabe an der man wachsen kann.

                    Kommentar


                    • #11
                      Zitat von moma Beitrag anzeigen
                      die geringe anzahl fehler, welche ich bei einer masse an unterschiedlichen pdf dateien hatte, hab ich mit dem umweg über jpg's und ocr recht gut in den griff bekommen. es waren unter 0.2 percentum.
                      sonst lief es relativ glatt mit alladin ghostscript ist aber auch schon einige zeit her.
                      Blöde frage, aber wie? Ich hab das auch mal versucht. Da scheitere es aber schon beim extrahieren vom Text. Teils kam gar nix raus, Teils Datenmüll, und dort wo was rauskam war der Text kaum zur Weiterverarbeitung geeignet, geschweige denn zur automatischen Weiterverarbeitung. Ist mittlerweile aber auch 6 Jahre her.

                      Kommentar


                      • #12
                        Selbst das Adobe-eigene Text-extract tool im Reader/Exchange taugt nur bedingt zur Textextraktion.
                        Das liegt daran, wie PDF-intern ein Text aufgebaut ist (bzw. sein kann).

                        Ich habe in meinem ersten Job vor vielen Jahren sehr viel mit der Acrobat API gearbeitet und dabei kamen mir PDF Dokumente unter, bei denen sogar ein zusammenhängendes Wort (wenn man das Dokument im Reader betrachtete) in mehrere Teile getrennt war, aber die einzelnen Teile des Wortes lagen irgendwo im Dokument verstreut und wurden erst zur Anzeige wieder zusammengefügt (fragt mich nicht, wie das genau funktioniert hat). Es war unmöglich, dieses Wort durch Markieren & Kopieren aus dem Dokument herauszubekommen. Selbst mit den API Mitteln war es extremst schwierig, ohne perfekte Kenntnisse des internen Aufbaus von PDF Dokumenten war es nicht lösbar.

                        Zugegeben, das war ein Sonderfall, aber es kann vorkommen... wie ich bereits schrieb gibt es keine zuverlässige Lösung, die mit jedem PDF Dokument zurecht kommen kann, weil der interne Aufbau des Dokuments sich erheblich von dem unterscheiden kann, was man auf dem Bildschirm sieht.
                        Über 90% aller Gewaltverbrechen passieren innerhalb von 24 Stunden nach dem Konsum von Brot.

                        Kommentar


                        • #13
                          Wofür soll das überhaupt gut sein? Was ist der Zweck? @TE
                          .

                          Kommentar


                          • #14
                            Ich schau mal ob ich es noch finde, schicke es dann mal rüber;


                            aber:
                            so auf die schnelle?
                            das entscheidende war wohl das output device, sowie eine mir nicht mehr genau präsente vorarbeit -> zu version 1 allen schnickschnack weg etc.

                            und mal für den TE?

                            hab mal den test mit pdftottext gemacht (vsphere_pricing -- man muss ja was beliebiges nehmen)

                            da hatte ich noch ne alte version glaub ich:
                            http://www.vmware.com/files/pdf/vsphere_pricing.pdf
                            sieht so aus bei:

                            http://pastebin.com/H6Cf4CCf

                            finde die ergebnisse brauchbar.

                            @kremser:
                            Ich muss für die Arbeit ein Programm schreiben das eine PDF Datei in Excel umwandelt.

                            Kommentar


                            • #15
                              Ja, das habe ich auch gelesen. Es kann sein, dass der Lehrherr den TE quälen will. Dann führt kein Weg daran vorbei. Allerdings könnte sich der Lehrherr auch Nüsse auskennen und sich darüber garnicht bewusst sein, was er hier von seinem Schützling verlangt. Bevor ich hier großartig herumprogrammiere, würde ich mich daher fragen, ob man die Daten nicht auch anders bekommen könnte.
                              .

                              Kommentar

                              Lädt...
                              X