Page 1 of 2
HTML-Konverter
Posted: 28. Oct 2010, 17:03
by jpg153
Hallo,
ich suche einen HTML-zu-Text-Konverter. Im Standard-'Magazin' (13.0) habe ich nichts gesehen - vielleicht auch übersehen.
Was könnt ihr empfehlen?
Danke.
Re: HTML-Konverter
Posted: 28. Oct 2010, 18:33
by damNageHack
HTML ist auch (nur) Text, aber wird bei der Darstellung anders interpretiert.
In HTML sind neben dem eigentlichen Text auch Formatierungsangaben enthalten.
So ganz verstehe ich nicht, was du unter einem HTML-Konverter verstehst.
Was suchst du denn genau? Hast du ein Beispiel?
Re: HTML-Konverter
Posted: 28. Oct 2010, 18:49
by jpg153
Hallo,
na eben genau die HTML-Tags entfernen, damit der nackte, ungeschminkte Text übrig bleibt!
also aus <bold>bla blubber</bold> soll 'bla blubber' werden.
Wenn es nur ein paar Zeilen wären oder eine Seite, ok, geht von Hand.
Aber ich brauche das für viele viele Seiten...
Ich arbeite immer noch an dem Übersetzungsprojekt (etwas älterer Beitrag), musste aber feststellen, dass die Quellen ( csv-Dateien aus/für Tabellenkalkulationen) nicht sauber sind.
Ich kann die Quellen aber (sauber) als HTML ansurfen. Wenn ich die dann speichere und den Text extrahiere...bin ich unter Umständen schneller am Ziel.
Daher...
Re: HTML-Konverter
Posted: 28. Oct 2010, 19:04
by damNageHack
Wie gesagt, dafür gibt es mehr als zig Möglichkeiten - einfach mal Google fragen.
Das sieht ziemlich brauchbar aus:
http://www.mbayer.de/html2text/index_de.shtml
Notfalls auch einfach per Kommandozeile:
http://www.unixboard.de/vb3/showthread. ... -entfernen
Re: HTML-Konverter
Posted: 28. Oct 2010, 19:07
by thenktor
Wenn ich nen
Konverter suche, dann befrage ich grundsätzlich immer Google mit "
format2format". Ist meistens von Erfolg gekrönt
Re: HTML-Konverter
Posted: 28. Oct 2010, 19:27
by jpg153
Hi,
html2text hatte ich schon gefunden, allerdings nur die Sourcen und das Teil ließ sich nicht kompilieren.
Es werden Binaries für diverse Linuxe angeboten - leider kein Slackware.
Welches Paket verspricht am wenigsten Probleme?
Debian <> FreeBSD<>Gentoo<>Mandriva/SuSE<>NetBSD<>RPM (generic)<>Ubuntu
Danke.
Re: HTML-Konverter
Posted: 28. Oct 2010, 19:43
by gapan
Code: Select all
slapt-get -i w3m
w3m url > TEXTFILE
Re: HTML-Konverter
Posted: 28. Oct 2010, 20:30
by jpg153
Hi Gapan,
w3m is really a nice tool to browse the
html - however I could not find an option to save the file as text only.
I did not find a way to i.e. mark the text displayed, copy to clipboard and then paste to a new file.
There is a dump function, however I am not sure how it will work...
html2text habe ich dann doch kompilieren können, allerdings steigt das Programm aus, wenn die Tabellen groß werden. Und das ist eindeutig der Fall.
Dann gibt es noch eine Python-Lösung html2text, die läuft sauber, zerschießt aber die Tabelle - aus 3 Spalten werden 3 Zeilen
Die enstandene Datei müßte ich dann auch erst wieder nachformatieren dass sie in einer Tabellenkalkulation verarbeitet werden kann.
So'n Schei... aber auch!
Re: HTML-Konverter
Posted: 28. Oct 2010, 20:33
by gapan
Did you really try this?
you can open the TEXTFILE with any text editor you like and you can copy anything from there, obviously.
Re: HTML-Konverter
Posted: 28. Oct 2010, 20:43
by damNageHack
Nochmal: In der Konsole eingeben.
Code: Select all
sed -e 's/<[^<>]*>//g; /^[ ]*$/d' test.html