Textverarbeitung mit Stoppworten, grep und das Problem mit fmt

vendredi 2 octobre 2015

Hallo Linux User:D,

Ziel meiner Textverarbeitung ist es, einen Fließtext (etwa 100.000 Zeilen) in einem Graphencluster darzustellen.
Hierfür liegen mir diverse Tools vor. Zuvor muss der Fließtext von Stoppworten (800 Wörter) befreit werden, da diese nicht aussagekräftig sind.


Habe bereits erfolgreich folgende Befehle in der Shell ausgeführt:
Code:

fmt -0 fließtext.txt | grep -w -i -v -f stop.txt > clear.txt
"fmt -0" Wandelt Fließtext in Wortliste um. Ein Wort pro Zeile.
"grep" durchsucht Zeilen nach nachfolgenden Optionen
"-w" ganze Wörter; "-i" ignoriert Groß-,KLeinschreibung; "-v" findet Zeilen die nicht dem Muster entsprechen; "-f stopwords" Stoppworte aus der Datei.


Soweit ich das verstanden habe, muss der Text aus einer Wortliste bestehen, da sonst grep nicht richtig arbeitet. Problematisch hierbei ist, dass nun jede Zeile vom Cluster als eigener Satz verstanden wird und so kein Cluster mit Kookkurrenz, sondern eine Landschaft aus unabhängigen Wörtern entsteht.

Ist es möglich die Stoppworte auf eine andere Art zu filtern, sodass die Fließtextstruktur erhalten bleibt?
Oder: Gibt es Mittel und Wege den Befehl "fmt -0" wieder rückgängig zu machen, nachdem die Stoppworte entfernt wurden?

Ich hoffe Ihr könnt mir helfen das Problem zu lösen, bin noch ziemlich neu mit linux unterwegs und bin gerade etwas verzweifelt :confused:

Danke im Voraus.


0 commentaires:

Enregistrer un commentaire

 

Lorem

Ipsum

Dolor