Page 1 of 2

HTML-Konverter

Posted: 28. Oct 2010, 17:03
by jpg153
Hallo,


ich suche einen HTML-zu-Text-Konverter. Im Standard-'Magazin' (13.0) habe ich nichts gesehen - vielleicht auch übersehen.
Was könnt ihr empfehlen?

Danke.

Re: HTML-Konverter

Posted: 28. Oct 2010, 18:33
by damNageHack
HTML ist auch (nur) Text, aber wird bei der Darstellung anders interpretiert.
In HTML sind neben dem eigentlichen Text auch Formatierungsangaben enthalten.
So ganz verstehe ich nicht, was du unter einem HTML-Konverter verstehst.
Was suchst du denn genau? Hast du ein Beispiel?

Re: HTML-Konverter

Posted: 28. Oct 2010, 18:49
by jpg153
Hallo,

na eben genau die HTML-Tags entfernen, damit der nackte, ungeschminkte Text übrig bleibt!

also aus <bold>bla blubber</bold> soll 'bla blubber' werden.

Wenn es nur ein paar Zeilen wären oder eine Seite, ok, geht von Hand.
Aber ich brauche das für viele viele Seiten...

Ich arbeite immer noch an dem Übersetzungsprojekt (etwas älterer Beitrag), musste aber feststellen, dass die Quellen ( csv-Dateien aus/für Tabellenkalkulationen) nicht sauber sind.
Ich kann die Quellen aber (sauber) als HTML ansurfen. Wenn ich die dann speichere und den Text extrahiere...bin ich unter Umständen schneller am Ziel.
Daher...

Re: HTML-Konverter

Posted: 28. Oct 2010, 19:04
by damNageHack
Wie gesagt, dafür gibt es mehr als zig Möglichkeiten - einfach mal Google fragen.
Das sieht ziemlich brauchbar aus: http://www.mbayer.de/html2text/index_de.shtml

Notfalls auch einfach per Kommandozeile:
http://www.unixboard.de/vb3/showthread. ... -entfernen

Re: HTML-Konverter

Posted: 28. Oct 2010, 19:07
by thenktor
Wenn ich nen Konverter suche, dann befrage ich grundsätzlich immer Google mit "format2format". Ist meistens von Erfolg gekrönt ;)

Re: HTML-Konverter

Posted: 28. Oct 2010, 19:27
by jpg153
Hi,

html2text hatte ich schon gefunden, allerdings nur die Sourcen und das Teil ließ sich nicht kompilieren.
Es werden Binaries für diverse Linuxe angeboten - leider kein Slackware.
Welches Paket verspricht am wenigsten Probleme?
Debian <> FreeBSD<>Gentoo<>Mandriva/SuSE<>NetBSD<>RPM (generic)<>Ubuntu

Danke.

Re: HTML-Konverter

Posted: 28. Oct 2010, 19:43
by gapan

Code: Select all

slapt-get -i w3m
w3m url > TEXTFILE

Re: HTML-Konverter

Posted: 28. Oct 2010, 20:30
by jpg153
Hi Gapan,

w3m is really a nice tool to browse the html - however I could not find an option to save the file as text only.
I did not find a way to i.e. mark the text displayed, copy to clipboard and then paste to a new file.
There is a dump function, however I am not sure how it will work...

html2text habe ich dann doch kompilieren können, allerdings steigt das Programm aus, wenn die Tabellen groß werden. Und das ist eindeutig der Fall.

Dann gibt es noch eine Python-Lösung html2text, die läuft sauber, zerschießt aber die Tabelle - aus 3 Spalten werden 3 Zeilen :x
Die enstandene Datei müßte ich dann auch erst wieder nachformatieren dass sie in einer Tabellenkalkulation verarbeitet werden kann.
So'n Schei... aber auch! :evil:

Re: HTML-Konverter

Posted: 28. Oct 2010, 20:33
by gapan
Did you really try this?

Code: Select all

w3m url > TEXTFILE
you can open the TEXTFILE with any text editor you like and you can copy anything from there, obviously.

Re: HTML-Konverter

Posted: 28. Oct 2010, 20:43
by damNageHack
Nochmal: In der Konsole eingeben.

Code: Select all

sed -e 's/<[^<>]*>//g; /^[ ]*$/d' test.html