Trojaner-Board

Trojaner-Board (https://www.trojaner-board.de/)
-   Diskussionsforum (https://www.trojaner-board.de/diskussionsforum/)
-   -   Skript zum Text extrahieren (https://www.trojaner-board.de/181077-skript-text-extrahieren.html)

Softwehr 12.08.2016 17:02

Skript zum Text extrahieren
 
Moinsen,

ich arbeite an einem Projekt, bei dem ich mir eine Menge Arbeit sparen kann wenn ich ein Skript anwende. Ich würde euch hierbei gern um Rat Fragen:

Der Ablauf ist wie folgt: das fiktive Skript liegt im selben Verzeichnis wie die doc-Dateien und soll nun den Inhalt jeder doc-Datei in eine gleichnamige txt-Datei schreiben. Da es sich hierbei aber um speziellere Zeichen handelt (mkhedruli Alphabet), brauche ich die txt-Dateien im UTF-8 kodiert.

Meine Suche nach diesem relativ spezifischen Programm hat mir leider nicht geholfen. Kennt ihr ein solches Programm? Wahrscheinlich müsste ich es selbst schreiben.. aber so ein schrauber wie schrauber bin ich noch nicht :kaffee:

cosinus 12.08.2016 22:26

Suchst du sowas wie das hier => Docx to Text convertor :wtf:

Softwehr 14.08.2016 23:03

Prinzipell schon - aber der hatte da nichts von utf-8 encoding stehen, deswegen habe ich den verworfen.

Softwehr 16.08.2016 16:54

Da bin ich wieder! Ich habe ein schönes schlankes Programm gefunden dass die Aufgabe erledigt.
word2text converter

burningice 17.08.2016 15:57

Ja gibt ganz coole tools - auf der Arbeit brauche ich schonmal das hier:
"Convert XLS" An Excel Converter software tool for XLS, CSV files etc.

In deinem Fall hätten sie auch ein entsprechendes Tool gehabt, die trail Versionen sind normal "ausreichend" :D
Kann sogar commandline und so tausende Sachen konvertieren


Hier für Word: Easily Convert Document Files to/from PDF, Doc, HTML, RTF, TXT etc. with 'Convert Doc' from Softinterface



Und die Produktübersicht: Produktübersicht

W_Dackel 17.08.2016 22:31

Ich habe vor Jahren mal das Freeware Textverarbeitungsprogramm AbiWord (das sich per Script mit Befehlen von der Kommandozeile aus aufrufen lässt) dazu missbraucht .doc in .txt umzuwandeln. Kannst dir mal ansehen ob es auch .docx in deiner Zielsprache mit UTF 8 kann..


Alle Zeitangaben in WEZ +1. Es ist jetzt 12:33 Uhr.

Copyright ©2000-2025, Trojaner-Board


Search Engine Optimization by vBSEO ©2011, Crawlability, Inc.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131