HTML-Konverter

German Forum
User avatar
jpg153
Donor
Posts: 449
Joined: 23. Oct 2009, 15:43
Location: Krefeld/NRW/BRD/EU

HTML-Konverter

Post by jpg153 »

Hallo,


ich suche einen HTML-zu-Text-Konverter. Im Standard-'Magazin' (13.0) habe ich nichts gesehen - vielleicht auch übersehen.
Was könnt ihr empfehlen?

Danke.
Regards Gruß
jpg
User avatar
damNageHack
Posts: 663
Joined: 24. Sep 2009, 17:07

Re: HTML-Konverter

Post by damNageHack »

HTML ist auch (nur) Text, aber wird bei der Darstellung anders interpretiert.
In HTML sind neben dem eigentlichen Text auch Formatierungsangaben enthalten.
So ganz verstehe ich nicht, was du unter einem HTML-Konverter verstehst.
Was suchst du denn genau? Hast du ein Beispiel?
User avatar
jpg153
Donor
Posts: 449
Joined: 23. Oct 2009, 15:43
Location: Krefeld/NRW/BRD/EU

Re: HTML-Konverter

Post by jpg153 »

Hallo,

na eben genau die HTML-Tags entfernen, damit der nackte, ungeschminkte Text übrig bleibt!

also aus <bold>bla blubber</bold> soll 'bla blubber' werden.

Wenn es nur ein paar Zeilen wären oder eine Seite, ok, geht von Hand.
Aber ich brauche das für viele viele Seiten...

Ich arbeite immer noch an dem Übersetzungsprojekt (etwas älterer Beitrag), musste aber feststellen, dass die Quellen ( csv-Dateien aus/für Tabellenkalkulationen) nicht sauber sind.
Ich kann die Quellen aber (sauber) als HTML ansurfen. Wenn ich die dann speichere und den Text extrahiere...bin ich unter Umständen schneller am Ziel.
Daher...
Regards Gruß
jpg
User avatar
damNageHack
Posts: 663
Joined: 24. Sep 2009, 17:07

Re: HTML-Konverter

Post by damNageHack »

Wie gesagt, dafür gibt es mehr als zig Möglichkeiten - einfach mal Google fragen.
Das sieht ziemlich brauchbar aus: http://www.mbayer.de/html2text/index_de.shtml

Notfalls auch einfach per Kommandozeile:
http://www.unixboard.de/vb3/showthread. ... -entfernen
User avatar
thenktor
Salix Wizard
Posts: 2426
Joined: 6. Jun 2009, 14:47
Location: Franconia
Contact:

Re: HTML-Konverter

Post by thenktor »

Wenn ich nen Konverter suche, dann befrage ich grundsätzlich immer Google mit "format2format". Ist meistens von Erfolg gekrönt ;)
Image
burnCDDA (burns audio CDs)
geBIERt (German beer blog)
User avatar
jpg153
Donor
Posts: 449
Joined: 23. Oct 2009, 15:43
Location: Krefeld/NRW/BRD/EU

Re: HTML-Konverter

Post by jpg153 »

Hi,

html2text hatte ich schon gefunden, allerdings nur die Sourcen und das Teil ließ sich nicht kompilieren.
Es werden Binaries für diverse Linuxe angeboten - leider kein Slackware.
Welches Paket verspricht am wenigsten Probleme?
Debian <> FreeBSD<>Gentoo<>Mandriva/SuSE<>NetBSD<>RPM (generic)<>Ubuntu

Danke.
Regards Gruß
jpg
User avatar
gapan
Salix Wizard
Posts: 6238
Joined: 6. Jun 2009, 17:40

Re: HTML-Konverter

Post by gapan »

Code: Select all

slapt-get -i w3m
w3m url > TEXTFILE
Image
Image
User avatar
jpg153
Donor
Posts: 449
Joined: 23. Oct 2009, 15:43
Location: Krefeld/NRW/BRD/EU

Re: HTML-Konverter

Post by jpg153 »

Hi Gapan,

w3m is really a nice tool to browse the html - however I could not find an option to save the file as text only.
I did not find a way to i.e. mark the text displayed, copy to clipboard and then paste to a new file.
There is a dump function, however I am not sure how it will work...

html2text habe ich dann doch kompilieren können, allerdings steigt das Programm aus, wenn die Tabellen groß werden. Und das ist eindeutig der Fall.

Dann gibt es noch eine Python-Lösung html2text, die läuft sauber, zerschießt aber die Tabelle - aus 3 Spalten werden 3 Zeilen :x
Die enstandene Datei müßte ich dann auch erst wieder nachformatieren dass sie in einer Tabellenkalkulation verarbeitet werden kann.
So'n Schei... aber auch! :evil:
Regards Gruß
jpg
User avatar
gapan
Salix Wizard
Posts: 6238
Joined: 6. Jun 2009, 17:40

Re: HTML-Konverter

Post by gapan »

Did you really try this?

Code: Select all

w3m url > TEXTFILE
you can open the TEXTFILE with any text editor you like and you can copy anything from there, obviously.
Image
Image
User avatar
damNageHack
Posts: 663
Joined: 24. Sep 2009, 17:07

Re: HTML-Konverter

Post by damNageHack »

Nochmal: In der Konsole eingeben.

Code: Select all

sed -e 's/<[^<>]*>//g; /^[ ]*$/d' test.html
Post Reply