Ankündigung

Einklappen
Keine Ankündigung bisher.

parser programmieren

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • parser programmieren

    Hi,
    ich möchte gerne eine Parser programmieren, habe dazu mal im Wikipedia gelesen.
    Da man ja nicht das Rad neu erfinden sollte, hätte ich gerne gewusst, ob es bereits Parser in PHP gibt und wo man Informationen darüber findet.?

    Ich habe mal mit einer Textdatei und "fopen" in einem Browser anzeigen lassen und sah sehr gut aus.

    Demnach habe ich das mal mit Formatiertem Text .rtf, .eml, .emlx und pdf versucht und hab da Sachen gesehen die von gut lesbar bis Kuddelmuddel zu sehen waren.

    Nun ja da es sich um verschiedene Dateiformate handelt ist es augenwischerei zu denken, das man mit dem "fopen" Befehl direkt den richtigen Inhalt zu sehen bekommt.

    Weiss vielleicht jemand wie das programmieren von parsern funktioniert, das man den richten Inhalt bekommt? Oder vielleicht Infos, Tutorial.

    vielen Dank

    Mi

  • #2
    Es gibt für verschiedene Endungen verschiedene Classen.. xD
    Mach alle in deine Seite rein.
    Schreib selbst eine funktion und da ist deiner
    Ansonsten wüsste ich nichts, was direkt deinen ansprüchen gerecht wird.

    Und sonst gillt auch noch:
    Inserate, Konzepte und Meinungsumfragen

    LG Lucien

    Kommentar


    • #3
      ok, also in Klassen habe ich PHP noch nicht kennengelernt, bin noch bei imperativer programmierung in PHP.

      Aber das wird sich bald ändern.
      Wo finde ich den informationen welche Dateiendungen (Klassen) in PHP verfügbar sind?.

      OK, ich habe Inserate, Konzepte und Meinungsumfragen Gelsen und stelle fest ich frage zu viel.
      Sorry.

      Also mehr Bücher und Blogs lesen.

      Danke
      Mi

      Kommentar


      • #4
        Ich redete über externe.. xD
        sowas wie FBDF.. xD
        Nicht direkt von PHP )
        sonst würde ich dir es ja einfach sagen oder nicht? _D

        LG lucien

        Kommentar


        • #5
          naja pdf wirste wohle nicht ohne weiteres bearbeiten können. du kannst mit bestimmten PHP klassen aus einem HTML code eine Formatierte PDF erzeugen aber andersherum wird es nicht funktionieren.

          Versuch mal ein Tool zu finden der PFD zu word umwandelt

          bei den anderen dateien, müsstest du legedlich herausfinden wie der text formatiert wird und welcher header die datei hat , bisschen googlen und schon findest du informationen dazu.

          ein parser ist nichts anderes als ein text umwandler

          Kommentar


          • #6
            Zitat von BlackScorp Beitrag anzeigen
            naja pdf wirste wohle nicht ohne weiteres bearbeiten können. du kannst mit bestimmten PHP klassen aus einem HTML code eine Formatierte PDF erzeugen aber andersherum wird es nicht funktionieren.

            Versuch mal ein Tool zu finden der PFD zu word umwandelt

            bei den anderen dateien, müsstest du legedlich herausfinden wie der text formatiert wird und welcher header die datei hat , bisschen googlen und schon findest du informationen dazu.

            ein parser ist nichts anderes als ein text umwandler
            Ich suche mich schon etwas länger doof und dusselig an PHP => PDF
            Also weiß ich es ganz genau!
            Ich weiß, dass es ein tool irgendwo im netzt gibt, dass pdf auch lesen kann! xD
            Nur ka mehr xD
            suche schon zu lange

            lg lucien

            Kommentar


            • #7
              PDF lesen, dafür gibts adobe reader.

              es ging ums bearbeiten. PDF ist ein format welches immer neu erzeugt werden muss. d.h der ersteller hat das Original.

              was meinste wieso viele rechnung in PDF und nicht als word zum download angeboten werden?

              Kommentar


              • #8
                Ganz ehrlich: Vergiss es. Bei Deinem Wissenstand, den Du hier präsentierst, wird das Jahre dauern. Und offenkundig hast Du Dich NULL mit dem Fachgebiet beschäftigt. PDF ist z.B. ein Containerformat der Druckvorstufe (Stichwort Postscript), in dem von Reintext über Inhalt als Rastergrafik bis hin zu Inhalten als Vektorgrafik so gut wie alles drin stehen kann. Das kann man nicht einfach "zurückrechnen" und das stammt auch nicht immer aus einer Textverarbeitung.
                PDF ist ein komplexer Standard, beinhaltet oftmals Druckdaten bis hin zu Kalibrierdaten, binär eingebetten Schriftarten, Scripten, Metadaten und Signaturen. PDF wird aus vielerlei High-Class-Anwendungen erzeugt, ganz vorn die Elite der Grafikbearbeitung.
                Standard-Office Word-Document ist ein Binärformat, nicht womit ein Stino-Parser umgehen kann. Usw. usf. Dein Vorhaben ist absolut illusorisch. Ganz zu schweigen von der Sinnfrage, einen Parser für mehrere Formate gleichzeitig zu schreiben. Das fängt schon mit dem Erkennen des Dateityps an. Fazit: Was Du willst, ist klar geworden, aber von dieser Idee solltest Du Dich gleich verabschieden. Mal abgesehen von Google gibt es kaum Player auf dem Markt, die sowas stemmen können.

                Kommentar


                • #9
                  Na klar habe ich über PHP kaum wissen, denn ich mache das erst seit ein paar Tagen und bin eigentlich ziemlich glücklich über den Fortschritt. Vielleicht ist es mein Ehrgeiz oder zu schnell zu viel zu wollen. In den letzten Monaten habe ich MySQL, Java und auch Objektiv-C kennen gelernt und bin sehr zufrieden. Mit Dokumenten wie PDF hantiere ich schon seit Jahren mit Acrobat und der Creative Suite herum, aber leider noch nicht mit der Programmierung. In den letzten 2 Jahren habe ich in Bezug ziemliche Erfolge gehabt und wenn ich das in Java machen würde, könnte ich das Problem ebenfalls lösen indem ich TIKA verwenden würde. Diesmal möchte ich keine Fremdprogramme wie Skim verwenden um den OCR erkannten Text aus dem PDF zu extrahieren, es sollte auch ohne gehen. Bilder und sonstiges zu extrahieren ist nicht erforderlich. Natürlich muss ich das nicht selbst programmieren, wenn es Bibliotheken oder Klassen oder wie auch immer dafür gibt. Lediglich die Dokumentarten die nicht unterstützt werden müsste ich selsbt erstellen und dabei beginne ich mit dem Textformat, das einfachste von allem, nachdem sollte mann sich steigern und LERNEN wie das ganze funktioniert und selbst mal ausprobieren.
                  Ich denke in ein paar Wochen bin ich mit dem Buch durch.
                  Mi

                  Kommentar


                  • #10
                    Zitat von BlackScorp Beitrag anzeigen
                    PDF lesen, dafür gibts adobe reader.

                    es ging ums bearbeiten.
                    Den Acrobat Reader habe ich nicht auf der NAS DiskStation.
                    Es geht nur um Textinhalte aus PDF zu extrahieren, mehr nicht.

                    Mi

                    Kommentar


                    • #11
                      Zitat von MiMa Beitrag anzeigen
                      Na klar habe ich über PHP kaum wissen, denn ich mache das erst seit ein paar Tagen und bin eigentlich ziemlich glücklich über den Fortschritt. Vielleicht ist es mein Ehrgeiz oder zu schnell zu viel zu wollen. In den letzten Monaten habe ich MySQL, Java und auch Objektiv-C kennen gelernt und bin sehr zufrieden. Mit Dokumenten wie PDF hantiere ich schon seit Jahren mit Acrobat und der Creative Suite herum, aber leider noch nicht mit der Programmierung. In den letzten 2 Jahren habe ich in Bezug ziemliche Erfolge gehabt und wenn ich das in Java machen würde, könnte ich das Problem ebenfalls lösen indem ich TIKA verwenden würde. Diesmal möchte ich keine Fremdprogramme wie Skim verwenden um den OCR erkannten Text aus dem PDF zu extrahieren, es sollte auch ohne gehen. Bilder und sonstiges zu extrahieren ist nicht erforderlich. Natürlich muss ich das nicht selbst programmieren, wenn es Bibliotheken oder Klassen oder wie auch immer dafür gibt. Lediglich die Dokumentarten die nicht unterstützt werden müsste ich selsbt erstellen und dabei beginne ich mit dem Textformat, das einfachste von allem, nachdem sollte mann sich steigern und LERNEN wie das ganze funktioniert und selbst mal ausprobieren.
                      Mi
                      Gute Einstellung


                      Lg Lucien

                      Kommentar


                      • #12
                        Zitat von MiMa Beitrag anzeigen
                        Es geht nur um Textinhalte aus PDF zu extrahieren, mehr nicht.
                        Geht nicht es gibt auch keine sofware die Text Inhalte aus einer PDF rauslesen kann

                        Kommentar


                        • #13
                          ich lese sehr viel in Büchern und im Netz, aber was ich da so alles gelesen habe wird IMMER irgendwo Java benötigt.

                          http://www.uzi-web.de/parser/parser_was.htm

                          ich habe mir 2 Parser herausgegriffen, nämlich den von Sun (Project X TR2) und den von IBM (XML4J v2.0.15), und diese etwas ausprobiert. Die Grundlagen der Benutzung beider Parser möchte ich hier vermitteln. Andere Parser werden sich in der Benutzung nicht wesentlich unterscheiden, da die Schnittstellen großen Teils standardisiert sind. Beide sind komplett in Java geschrieben. Folglich sind auch alle Beispiele in Java.
                          Leider habe ich Java auf dem NAS nicht verfügbar und daher ist es echt recht Schwierig.

                          Das parsen mit in die Clientanwendung zu nehmen wollte ich eigentlich nicht.

                          Mi

                          Kommentar


                          • #14
                            Zitat von BlackScorp Beitrag anzeigen
                            Geht nicht es gibt auch keine sofware die Text Inhalte aus einer PDF rauslesen kann
                            Auf dem Mac konnte ich mittels AppleScript und Skim den Textinhalt ohne weiteres mit einem einzigen Befehl entnehmen.
                            Wie es nun auf anderen Systemen ist, muss ich ja halt herausfinden.

                            Hatte hier auc schon mal etwas über Tika für PHP gepostet.

                            http://www.php.de/off-topic-diskussi...-fuer-php.html

                            ich weiss aber jetzt noch nicht, ob das wieder mit Java läuft, oder komplett in PHP geschrieben wudre ?

                            Mi

                            Kommentar


                            • #15
                              Vielleicht hilft es, wenn du zunächst von der anderen Seite an die Sache heran gehst:
                              http://sourceforge.net/projects/tcpdf/
                              Also erst mal schauen, wie man mit PHP ein PDF-Dokument erstellen kann.
                              Dann würde ich mir von Linux Seite informationen und vor allem Quell-Code von Open-Source PDF-Editoren anschauen und versuchen daraus brauchbare Bestandteile nach PHP zu portieren.

                              Das Thema ist höchst komplex, aber es soll ja überdurchschnittlich intelligente Leute geben, mit einer beängstigend schnellen Auffassungsgabe. Wenn du einer von diesen "Göttern in Brain" bist, ist das genau das richtige für dich und wir dürfen uns vielleicht bald auf einen hoffentlich freien PDF-Parser/Editor für PHP freuen.

                              Kommentar

                              Lädt...
                              X