Software gesucht

classic Classic list List threaded Threaded
10 messages Options
Reply | Threaded
Open this post in threaded view
|

Software gesucht

Harald Tobias-3
Moin,

ich suche etwas, das aus mehreren Servern quasi einen Server macht.
Konkret:

Es gilt eine große Mengen an jpg-Dateien mittels convert und weiteren
Programmen zu bearbeiten. Täglich werden ca. 15.000-20.000 Dateien in
mehreren Verzeichnissen bearbeitet. Eines dieser Programme kostet Geld
und der Preis rechnet nach Lizenzen je Server.

Meine Vorstellung ist es, mehrere Rechner an dieser Aufgabe arbeiten
zu lassen, ohne organisatorisch tätig werden zu müssen, diese
Frickelei wäre ziemlich zeitaufwändig und das möchte ich mir ersparen.

Kann ich mit Ubuntu einen Rechnerverbund aufbauen, der wie eine
einzige Maschine agiert? Wenn ja, womit?


Harald

--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de
Reply | Threaded
Open this post in threaded view
|

Re: Software gesucht

Karsten Bonhuis
Moin,

normalerweise ist der Flaschenhals heutzutage das Lesen und Schreiben auf die Festplatte. Daher würde ich erstmal an ein geschwindigkeitoptimiertes RAID in einem Server denken. 

mfG Karsten


Am 7. August 2013 09:41 schrieb Harald Tobias <[hidden email]>:
Moin,

ich suche etwas, das aus mehreren Servern quasi einen Server macht.
Konkret:

Es gilt eine große Mengen an jpg-Dateien mittels convert und weiteren
Programmen zu bearbeiten. Täglich werden ca. 15.000-20.000 Dateien in
mehreren Verzeichnissen bearbeitet. Eines dieser Programme kostet Geld
und der Preis rechnet nach Lizenzen je Server.

Meine Vorstellung ist es, mehrere Rechner an dieser Aufgabe arbeiten
zu lassen, ohne organisatorisch tätig werden zu müssen, diese
Frickelei wäre ziemlich zeitaufwändig und das möchte ich mir ersparen.

Kann ich mit Ubuntu einen Rechnerverbund aufbauen, der wie eine
einzige Maschine agiert? Wenn ja, womit?


Harald

--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de


--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de
Reply | Threaded
Open this post in threaded view
|

Re: Software gesucht

Harald Tobias-3
Am 07.08.2013 13:45, schrieb Karsten Bonhuis:
> Moin,
>
> normalerweise ist der Flaschenhals heutzutage das Lesen und Schreiben
> auf die Festplatte. Daher würde ich erstmal an ein
> geschwindigkeitoptimiertes RAID in einem Server denken.
>
> mfG Karsten

Hallo Karsten,

danke für den Tip, daran habe ich auch schon gedacht und ein Raid
gehört mit zu meinen Planungen, genauso wie ein Gigabit- oder
Glasfasernetzwerk.

Nichtsdestotrotz bin ich auf der Suche von dem, was ich beschrieben habe.


Gruß

Harald


--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de
Reply | Threaded
Open this post in threaded view
|

Re: Software gesucht

Karsten Bonhuis
Moin,

das Stichwort dafür ist Cluster.

Das Kernproblem wird trotzdem sein, die Daten richtig zu verteilen. Schlimmstenfalls liegen die Daten auf einer Platte in dem einen Server und müssen zum anderen übertragen werden. Ohne eine gute Load-Balancing-Strategie könnte eine solche Übertragung bei jedem Arbeitsschritt passieren, denn das scheinen ja einzelne Prozesse zu sein und die könnten auf jedem Prozessor des Verbund-Rechners gestartet werden. Damit hätte man dann erheblich mehr IO-Zugriffe, die vermutlich die eigentliche Bremse sind. Bis so etwas richtig rund arbeitet, muss man sicher eine ganze Weile frickeln. Man kann das natürlich mit schnellem Netzwerkspeicher lösen, aber das kostet nicht gerade wenig Geld.

Ohne die konkrete Aufgabe zu kennen: Bei 20.000 Bildern am Tag, hat man pro Bild vier Sekunden Zeit. Das scheint mir aus dem Bauch heraus deutlich unterhalb dessen zu liegen, was man heute an Rechenleistung in einem Servergehäuse kaufen könnte. 

Gibt es ein laufendes System? Läuft der Prozessor tatsächlich schon auf Anschlag?

mfG Karsten


Am 7. August 2013 16:24 schrieb Harald Tobias <[hidden email]>:
Am <a href="tel:07.08.2013%2013" value="+49708201313">07.08.2013 13:45, schrieb Karsten Bonhuis:
> Moin,
>
> normalerweise ist der Flaschenhals heutzutage das Lesen und Schreiben
> auf die Festplatte. Daher würde ich erstmal an ein
> geschwindigkeitoptimiertes RAID in einem Server denken.
>
> mfG Karsten

Hallo Karsten,

danke für den Tip, daran habe ich auch schon gedacht und ein Raid
gehört mit zu meinen Planungen, genauso wie ein Gigabit- oder
Glasfasernetzwerk.

Nichtsdestotrotz bin ich auf der Suche von dem, was ich beschrieben habe.


Gruß


--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de
Reply | Threaded
Open this post in threaded view
|

Re: Software gesucht

Ronald Kaufmann
In reply to this post by Harald Tobias-3
Wenn ich dich richtig verstehe suchst du eine software, die wie ein cluster agiert. Was soll die software denn genau tun, bzw was macht die software derzeit auf einem server, was du künftig auf mehreren erledigen willst?

Beschreibe bitte genauer, was du brauchst.

Grüße, Ronny



Harald Tobias <[hidden email]> schrieb:
Am 07.08.2013 13:45, schrieb Karsten Bonhuis:
Moin,

normalerweise ist der Flaschenhals heutzutage das Lesen und Schreiben
auf die Festplatte. Daher würde ich erstmal an ein
geschwindigkeitoptimiertes RAID in einem Server denken.

mfG Karsten

Hallo Karsten,

danke für den Tip, daran habe ich auch schon gedacht und ein Raid
gehört mit zu meinen Planungen, genauso wie ein Gigabit- oder
Glasfasernetzwerk.

Nichtsdestotrotz bin ich auf der Suche von dem, was ich beschrieben habe.


Gruß

Harald


--
Diese Nachricht wurde von meinem Android-Mobiltelefon mit K-9 Mail gesendet.
--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de
Reply | Threaded
Open this post in threaded view
|

Re: Software gesucht

Harald Tobias-3
Am 07.08.2013 18:02, schrieb Ronald Kaufmann:
> Wenn ich dich richtig verstehe suchst du eine software, die wie ein
> cluster agiert. Was soll die software denn genau tun, bzw was macht
> die software derzeit auf einem server, was du künftig auf mehreren
> erledigen willst?
>
> Beschreibe bitte genauer, was du brauchst.

Hallo Ronny,

ok, dann beschreibe ich mal.

Es handelt sich um Graustufenbilder, die zunächst mit convert
behandelt werden:

- Anpassung der Auflösung (dpi)
- Umwandlung von Graustufen in monochrom
- Drehen um 90°
- Beschneiden eines definierten Bereiches
- Ergebnis jeweils in eine neue jpg-Datei

Danach OCR-Bearbeitung und speichern in jeweils eine pdf-Datei.

Als letzter Schritt muss mit viel Aufwand ein Script erstellt werden,
das die zueinander gehörigen Seiten in eine Datei zusammenfasst. Das
läuft dann wieder mit convert.

Vielleicht ist die Idee, die OCR auf einem separaten Server allein
laufen zu lassen, auch schon ein Lösungsansatz, ich befürchte jedoch,
dass das sehr schnell an Grenzen stoßen wird, weil die zur Verfügung
stehende Zeit von ca. 4 Sekunden je Datei auf gar keinen Fall
ausreichen wird, um die Texterkennung plus Konvertierung zu pdf plus
speichern auszuführen.

Außerdem wird die Kapazität von ca. 20.000 Dateien pro Tag
wahrscheinlich um ein mehrfaches erhöht werden. Dieser Schritt kann
nach ein paar Wochen oder ein paar Monaten erreicht werden.

Für die OCR-Software muß ich pro Maschine eine Lizenz erwerben. Das
wäre eigentlich nicht so schlimm, aber da ich auch noch zusätzlich
eine Gebühr pro erkannter Seite zahlen muss, versuche ich, wenigstens
bei der Lizenz sparen.

Jetzt schweife ich mal etwas ab, ich hoffe, das stört bei diesem
Thread nicht.

Ich würde was darum geben, wenn es eine OCR aus dem OSS-Bereich gäbe,
aber das ist wohl nur Wunschdenken. Nach meinen Versuchen mit den
wenigen verfügbaren Programmen habe ich ernüchtert aufgegeben.

Einen vielversprechenden Ansatz ist "pdfsandwich", welches meine
Bedürfnisse erfüllen würde, wenn die OCR-Engine bessere Ergebnisse
liefern würde, die derzeit erzielbare Qualität ist schlicht nicht
ausreichend für den professionellen Bedarf.

Ich hoffe, das ist als Erklärung ausreichend, um die Aufgabe und das
Problem zu erkennen. Falls nicht, fragt bitte noch mal nach.


Harald


--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de
Reply | Threaded
Open this post in threaded view
|

Re: Software gesucht

Daniel Ziegenberg-3


> Am 07.08.2013 um 20:02 schrieb Harald Tobias <[hidden email]>:
>
> Am 07.08.2013 18:02, schrieb Ronald Kaufmann:
>> Wenn ich dich richtig verstehe suchst du eine software, die wie ein
>> cluster agiert. Was soll die software denn genau tun, bzw was macht
>> die software derzeit auf einem server, was du künftig auf mehreren
>> erledigen willst?
>>
>> Beschreibe bitte genauer, was du brauchst.
>
> Hallo Ronny,
>
> ok, dann beschreibe ich mal.
>
> Es handelt sich um Graustufenbilder, die zunächst mit convert
> behandelt werden:
>
> - Anpassung der Auflösung (dpi)
> - Umwandlung von Graustufen in monochrom
> - Drehen um 90°
> - Beschneiden eines definierten Bereiches
> - Ergebnis jeweils in eine neue jpg-Datei
>
> Danach OCR-Bearbeitung und speichern in jeweils eine pdf-Datei.
>
> Als letzter Schritt muss mit viel Aufwand ein Script erstellt werden,
> das die zueinander gehörigen Seiten in eine Datei zusammenfasst. Das
> läuft dann wieder mit convert.
>
> Vielleicht ist die Idee, die OCR auf einem separaten Server allein
> laufen zu lassen, auch schon ein Lösungsansatz, ich befürchte jedoch,
> dass das sehr schnell an Grenzen stoßen wird, weil die zur Verfügung
> stehende Zeit von ca. 4 Sekunden je Datei auf gar keinen Fall
> ausreichen wird, um die Texterkennung plus Konvertierung zu pdf plus
> speichern auszuführen.
>
> Außerdem wird die Kapazität von ca. 20.000 Dateien pro Tag
> wahrscheinlich um ein mehrfaches erhöht werden. Dieser Schritt kann
> nach ein paar Wochen oder ein paar Monaten erreicht werden.
>
> Für die OCR-Software muß ich pro Maschine eine Lizenz erwerben. Das
> wäre eigentlich nicht so schlimm, aber da ich auch noch zusätzlich
> eine Gebühr pro erkannter Seite zahlen muss, versuche ich, wenigstens
> bei der Lizenz sparen.
>
> Jetzt schweife ich mal etwas ab, ich hoffe, das stört bei diesem
> Thread nicht.
>
> Ich würde was darum geben, wenn es eine OCR aus dem OSS-Bereich gäbe,
> aber das ist wohl nur Wunschdenken. Nach meinen Versuchen mit den
> wenigen verfügbaren Programmen habe ich ernüchtert aufgegeben.
>
> Einen vielversprechenden Ansatz ist "pdfsandwich", welches meine
> Bedürfnisse erfüllen würde, wenn die OCR-Engine bessere Ergebnisse
> liefern würde, die derzeit erzielbare Qualität ist schlicht nicht
> ausreichend für den professionellen Bedarf.
>
> Ich hoffe, das ist als Erklärung ausreichend, um die Aufgabe und das
> Problem zu erkennen. Falls nicht, fragt bitte noch mal nach.
>
>
> Harald
>
>
> --
> ubuntu-de mailing list
> [hidden email]
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-de

--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de
Reply | Threaded
Open this post in threaded view
|

Re: Software gesucht

Daniel Ziegenberg-3
In reply to this post by Harald Tobias-3


> Am 07.08.2013 um 20:02 schrieb Harald Tobias <[hidden email]>:
>
> Am 07.08.2013 18:02, schrieb Ronald Kaufmann:
>> Wenn ich dich richtig verstehe suchst du eine software, die wie ein
>> cluster agiert. Was soll die software denn genau tun, bzw was macht
>> die software derzeit auf einem server, was du künftig auf mehreren
>> erledigen willst?
>>
>> Beschreibe bitte genauer, was du brauchst.
>
> Hallo Ronny,
>
> ok, dann beschreibe ich mal.
>
> Es handelt sich um Graustufenbilder, die zunächst mit convert
> behandelt werden:
>
> - Anpassung der Auflösung (dpi)
> - Umwandlung von Graustufen in monochrom
> - Drehen um 90°
> - Beschneiden eines definierten Bereiches
> - Ergebnis jeweils in eine neue jpg-Datei

Wenn man das script-gesteuert macht, kann man jedem Core zwei convert Prozesse zum Verarbeiten geben (mit Hyper-Threading jedem Core vier) und dürfte die 20.000 Bilder pro Tag locker schaffen. Das müsste bei einem Quad-Core sogar das 10-fache drin sein. Das ließe sich wohl auch auf mehrere Server verteilen, man müsste sich dann nur überlegen wie man die Koordination macht, sodass Bilder nicht doppelt verarbeitet werden.
Das ganze ist natürlich absolut I/O intensiv, sodass man hier wohl nur mit RAID 0 (oder RAID 10, wenn man eine gewisse Ausfallssicherheit haben möchte,) klar kommt. Besser wären natürlich noch SSDs.

>
> Danach OCR-Bearbeitung und speichern in jeweils eine pdf-Datei.

Diesen Schritt würde man am besten auf einen eigenen Server auslagern. Dazu müsste man sich ein script schreiben, das die verarbeiteten Bilder des ersten Schritts auf diesen Server pusht oder pulled.
Auch hier kann man pro Core ein oder zwei OCR-Prozesse starten. Wenn du dir einen Server mit zwei Octacore CPUs besorgst, könntest du 16 Bilder gleichzeitig analysieren. Das hängt allerdings auch davon ab, wie gut multithreading das OCR Programm ist und ob es schon Unterstützung zur Parallelisierung mitbringt.

> Als letzter Schritt muss mit viel Aufwand ein Script erstellt werden,
> das die zueinander gehörigen Seiten in eine Datei zusammenfasst. Das
> läuft dann wieder mit convert.

Fasst du am Ende die Bilder oder die PDFs zusammen? Ist hier nur das Script aufwändig oder das zusammenfassen?

> Vielleicht ist die Idee, die OCR auf einem separaten Server allein
> laufen zu lassen, auch schon ein Lösungsansatz, ich befürchte jedoch,
> dass das sehr schnell an Grenzen stoßen wird, weil die zur Verfügung
> stehende Zeit von ca. 4 Sekunden je Datei auf gar keinen Fall
> ausreichen wird, um die Texterkennung plus Konvertierung zu pdf plus
> speichern auszuführen.

s.o.

> Außerdem wird die Kapazität von ca. 20.000 Dateien pro Tag
> wahrscheinlich um ein mehrfaches erhöht werden. Dieser Schritt kann
> nach ein paar Wochen oder ein paar Monaten erreicht werden.
>
> Für die OCR-Software muß ich pro Maschine eine Lizenz erwerben. Das
> wäre eigentlich nicht so schlimm, aber da ich auch noch zusätzlich
> eine Gebühr pro erkannter Seite zahlen muss, versuche ich, wenigstens
> bei der Lizenz sparen.

Wie ist "Maschine" in diesem Lizenzfall genau definiert? Ich kenne zB. die Microsoft Lizenzsituation und da zahlt man oftmals auf per CPU oder Core.

> Jetzt schweife ich mal etwas ab, ich hoffe, das stört bei diesem
> Thread nicht.
>
> Ich würde was darum geben, wenn es eine OCR aus dem OSS-Bereich gäbe,
> aber das ist wohl nur Wunschdenken. Nach meinen Versuchen mit den
> wenigen verfügbaren Programmen habe ich ernüchtert aufgegeben.

Hast du es schon mit der Google Software Tesserac probiert. Das ist deren Programm für ihre Google Books Projekte. https://code.google.com/p/tesseract-ocr/

Müsste man sich allerdings erst einarbeiten und das scheint keine Klick-und-Fertig Lösung zu sein. Aber du möchtest hier in Dimensionen arbeiten, die sowieso viel Handarbeit für die Optimierung benötigt.

> Einen vielversprechenden Ansatz ist "pdfsandwich", welches meine
> Bedürfnisse erfüllen würde, wenn die OCR-Engine bessere Ergebnisse
> liefern würde, die derzeit erzielbare Qualität ist schlicht nicht
> ausreichend für den professionellen Bedarf.
>
> Ich hoffe, das ist als Erklärung ausreichend, um die Aufgabe und das
> Problem zu erkennen. Falls nicht, fragt bitte noch mal nach.
>
>
> Harald


Klingt nach einem großen Projekt.

Notiz am Rande: Wenn du die unterschiedlichen Aufgaben auf verschiedene Server verteilst, musst du dafür sorgen, dass jeder Server immer die Daten zur Verfügung hat, die er für seinen Arbeitsschritt gerade braucht. Du kannst entweder die Daten per Skript von einem Server übers Netzwerk zum nächsten Server schieben oder ziehen lassen. Oder alle Server greifen übers Netz auf einen gemeinsamen Speicher zu. In letzterem Fall würde sich ein SAN ganz gut machen. Ist aber nicht billig.
Der Vorteil, wenn du die Aufgaben auf mehrere Server verteilst, liegt in der besseren Skalierbarkeit, wenn dein System in Zukunft wachsen soll. Man stellt einen weiteren Server dazu und gibt ihm eine der Aufgabe, sodass dann zwei Server gleichzeitig convert oder ORC machen.

lg, Daniel


--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de
Reply | Threaded
Open this post in threaded view
|

Re: Software gesucht

Frank Babies
In reply to this post by Harald Tobias-3
Hallo Harald,

> ok, dann beschreibe ich mal.
>
> Es handelt sich um Graustufenbilder, die zunächst mit convert
> behandelt werden:
>
> - Anpassung der Auflösung (dpi)
> - Umwandlung von Graustufen in monochrom
> - Drehen um 90°
> - Beschneiden eines definierten Bereiches
> - Ergebnis jeweils in eine neue jpg-Datei
>
> Danach OCR-Bearbeitung und speichern in jeweils eine pdf-Datei.
>
> Als letzter Schritt muss mit viel Aufwand ein Script erstellt werden,
> das die zueinander gehörigen Seiten in eine Datei zusammenfasst. Das
> läuft dann wieder mit convert.
>

Also um convert oder ähnliche Programme parallel nutzen zu können nutze
ich immer gnu-parallel. Schau es dir einfach mal an ob es dich weiter
bringt um deine Maschine besser aus zu lasten.

http://d24m.de/2012/04/05/howto-gnu-parallel/

LG

Frank


--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de
Reply | Threaded
Open this post in threaded view
|

Re: Software gesucht

Harald Tobias-3
In reply to this post by Harald Tobias-3
Am 07.08.2013 09:41, schrieb Harald Tobias:
> Moin,
>
> ich suche etwas, das aus mehreren Servern quasi einen Server macht.

Hallo alle zusammen,

ich möchte mich für eure Tips recht herzlich bedanken!


Harald


--
ubuntu-de mailing list
[hidden email]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-de