Hallo,
ich suche einen HTML-zu-Text-Konverter. Im Standard-'Magazin' (13.0) habe ich nichts gesehen - vielleicht auch übersehen.
Was könnt ihr empfehlen?
Danke.
HTML-Konverter
HTML-Konverter
Regards Gruß
jpg
jpg
- damNageHack
- Posts: 663
- Joined: 24. Sep 2009, 17:07
Re: HTML-Konverter
HTML ist auch (nur) Text, aber wird bei der Darstellung anders interpretiert.
In HTML sind neben dem eigentlichen Text auch Formatierungsangaben enthalten.
So ganz verstehe ich nicht, was du unter einem HTML-Konverter verstehst.
Was suchst du denn genau? Hast du ein Beispiel?
In HTML sind neben dem eigentlichen Text auch Formatierungsangaben enthalten.
So ganz verstehe ich nicht, was du unter einem HTML-Konverter verstehst.
Was suchst du denn genau? Hast du ein Beispiel?
Re: HTML-Konverter
Hallo,
na eben genau die HTML-Tags entfernen, damit der nackte, ungeschminkte Text übrig bleibt!
also aus <bold>bla blubber</bold> soll 'bla blubber' werden.
Wenn es nur ein paar Zeilen wären oder eine Seite, ok, geht von Hand.
Aber ich brauche das für viele viele Seiten...
Ich arbeite immer noch an dem Übersetzungsprojekt (etwas älterer Beitrag), musste aber feststellen, dass die Quellen ( csv-Dateien aus/für Tabellenkalkulationen) nicht sauber sind.
Ich kann die Quellen aber (sauber) als HTML ansurfen. Wenn ich die dann speichere und den Text extrahiere...bin ich unter Umständen schneller am Ziel.
Daher...
na eben genau die HTML-Tags entfernen, damit der nackte, ungeschminkte Text übrig bleibt!
also aus <bold>bla blubber</bold> soll 'bla blubber' werden.
Wenn es nur ein paar Zeilen wären oder eine Seite, ok, geht von Hand.
Aber ich brauche das für viele viele Seiten...
Ich arbeite immer noch an dem Übersetzungsprojekt (etwas älterer Beitrag), musste aber feststellen, dass die Quellen ( csv-Dateien aus/für Tabellenkalkulationen) nicht sauber sind.
Ich kann die Quellen aber (sauber) als HTML ansurfen. Wenn ich die dann speichere und den Text extrahiere...bin ich unter Umständen schneller am Ziel.
Daher...
Regards Gruß
jpg
jpg
- damNageHack
- Posts: 663
- Joined: 24. Sep 2009, 17:07
Re: HTML-Konverter
Wie gesagt, dafür gibt es mehr als zig Möglichkeiten - einfach mal Google fragen.
Das sieht ziemlich brauchbar aus: http://www.mbayer.de/html2text/index_de.shtml
Notfalls auch einfach per Kommandozeile:
http://www.unixboard.de/vb3/showthread. ... -entfernen
Das sieht ziemlich brauchbar aus: http://www.mbayer.de/html2text/index_de.shtml
Notfalls auch einfach per Kommandozeile:
http://www.unixboard.de/vb3/showthread. ... -entfernen
Re: HTML-Konverter
Wenn ich nen Konverter suche, dann befrage ich grundsätzlich immer Google mit "format2format". Ist meistens von Erfolg gekrönt
Re: HTML-Konverter
Hi,
html2text hatte ich schon gefunden, allerdings nur die Sourcen und das Teil ließ sich nicht kompilieren.
Es werden Binaries für diverse Linuxe angeboten - leider kein Slackware.
Welches Paket verspricht am wenigsten Probleme?
Debian <> FreeBSD<>Gentoo<>Mandriva/SuSE<>NetBSD<>RPM (generic)<>Ubuntu
Danke.
html2text hatte ich schon gefunden, allerdings nur die Sourcen und das Teil ließ sich nicht kompilieren.
Es werden Binaries für diverse Linuxe angeboten - leider kein Slackware.
Welches Paket verspricht am wenigsten Probleme?
Debian <> FreeBSD<>Gentoo<>Mandriva/SuSE<>NetBSD<>RPM (generic)<>Ubuntu
Danke.
Regards Gruß
jpg
jpg
Re: HTML-Konverter
Hi Gapan,
w3m is really a nice tool to browse the html - however I could not find an option to save the file as text only.
I did not find a way to i.e. mark the text displayed, copy to clipboard and then paste to a new file.
There is a dump function, however I am not sure how it will work...
html2text habe ich dann doch kompilieren können, allerdings steigt das Programm aus, wenn die Tabellen groß werden. Und das ist eindeutig der Fall.
Dann gibt es noch eine Python-Lösung html2text, die läuft sauber, zerschießt aber die Tabelle - aus 3 Spalten werden 3 Zeilen
Die enstandene Datei müßte ich dann auch erst wieder nachformatieren dass sie in einer Tabellenkalkulation verarbeitet werden kann.
So'n Schei... aber auch!
w3m is really a nice tool to browse the html - however I could not find an option to save the file as text only.
I did not find a way to i.e. mark the text displayed, copy to clipboard and then paste to a new file.
There is a dump function, however I am not sure how it will work...
html2text habe ich dann doch kompilieren können, allerdings steigt das Programm aus, wenn die Tabellen groß werden. Und das ist eindeutig der Fall.
Dann gibt es noch eine Python-Lösung html2text, die läuft sauber, zerschießt aber die Tabelle - aus 3 Spalten werden 3 Zeilen
Die enstandene Datei müßte ich dann auch erst wieder nachformatieren dass sie in einer Tabellenkalkulation verarbeitet werden kann.
So'n Schei... aber auch!
Regards Gruß
jpg
jpg
Re: HTML-Konverter
Did you really try this?
you can open the TEXTFILE with any text editor you like and you can copy anything from there, obviously.
Code: Select all
w3m url > TEXTFILE
- damNageHack
- Posts: 663
- Joined: 24. Sep 2009, 17:07
Re: HTML-Konverter
Nochmal: In der Konsole eingeben.
Code: Select all
sed -e 's/<[^<>]*>//g; /^[ ]*$/d' test.html