Video: Wie extrahiert man mit ABBYY FineReader 14 eine beliebige Seite aus einem mehrseitigen Dokument 2024
Ein natürliches Beispiel einer sich selbst organisierenden Gruppe, die Sie in der Vorhersage-Analyse anwenden können, ist eine Kolonie von Ameisen, die Nahrung suchen. Die Ameisen optimieren gemeinsam ihre Fährte, so dass sie immer den kürzesten Weg zu einem Futterziel nehmen.
Auch wenn du versuchst, eine marschierende Ameisenkolonie zu stören und sie daran zu hindern, zum Futterziel zu gelangen, gelangen sie schnell wieder auf die Spur und finden (wieder) den kürzesten Weg zum Nahrungsziel, wobei sie alle die gleichen Hindernisse meiden. auf der Suche nach Essen. Diese Gleichförmigkeit des Verhaltens ist möglich, weil jede Ameise eine Spur von Pheromonen auf dem Boden hinterlässt.
Betrachten Sie eine Armee von Ameisen, die in ihrem Nest untätig sind. Wenn sie nach Nahrung suchen, haben sie absolut keine Informationen darüber, wo sie sie finden können. Sie marschieren zufällig, bis eine einzelne Ameise Nahrung findet; Jetzt muss die glückliche Ameise (nenne sie Ameise X) ihren Funden den Rest der Ameisen mitteilen - und um das zu tun, muss sie ihren Weg zurück zum Nest finden.
Zum Glück produzierte Ameise X ihre eigenen Pheromone, während sie nach Nahrung suchte. es kann seiner eigenen Spur von Pheromonen zurück zum Nest folgen. Auf dem Weg zurück zum Nest legt Ant X auf seinem eigenen Pheromonpfad weitere Pheromone auf den gleichen Weg.
Infolgedessen wird der Geruch auf der Spur von Ant X der stärkste unter den Spuren aller anderen Ameisen sein. Die stärkste Spur von Pheromonen wird alle anderen Ameisen anziehen, die immer noch nach Nahrung suchen. Sie werden dem stärksten Duft folgen. Je mehr Ameisen Ant X folgen, desto mehr Pheromone werden hinzugefügt. der Duft wird stärker. Schon bald haben alle anderen Ameisen einen starken Duft zu folgen.
Wenn mehrere Ameisen die gleiche Nahrungsquelle gefunden haben, werden die Ameisen, die den kürzesten Weg genommen haben, mehr Trips unternehmen als Ameisen, die längere Pfade verfolgen - daher werden auf kürzestem Weg mehr Pheromone produziert. Die Beziehung zwischen individuellem und kollektivem Verhalten ist ein aufschlussreiches natürliches Beispiel.
Jeder Punkt steht für ein Dokument. Nehmen Sie an, dass die schwarzen Punkte Dokumente über Vorhersageanalysen sind und die weißen Punkte Dokumente über Anthropologie sind. Punkte, die die verschiedenen Arten von Dokumenten repräsentieren, sind zufällig in dem Raster von fünf Zellen verteilt.
"Ameisen" werden zufällig im Raster bereitgestellt, um nach ähnlichen Dokumenten zu suchen. Jede Zelle mit einem Wert darin repräsentiert eine Instanz eines "Pheromons". "Unter Verwendung der Dokumentenmatrix wird der" Pheromon "-Wert jeder Zelle aus dem entsprechenden Dokument berechnet.
Okay, wie schafft die kollektive Intelligenz der Ameisenkolonie ein Modell für die effektive Clusterung von Daten? Die Antwort liegt in einer einfachen Analogie: Ameisen suchen in ihrer Umgebung nach Nahrung, so wie wir nach Clustern in einem Datensatz suchen, um nach ähnlichen Dokumenten in einer großen Menge von Dokumenten zu suchen.
Betrachten Sie einen Datensatz von Dokumenten, die Sie nach Themen organisieren möchten. Ähnliche Dokumente werden im selben Cluster gruppiert. Hier kann die Ameisenkolonie Hinweise zum Gruppieren ähnlicher Dokumente geben.
Stellen Sie sich ein zweidimensionales (2D-) Raster vor, in dem Sie Dokumente als Punkte darstellen können. Das 2D-Gitter ist in Zellen unterteilt. Jeder Zelle ist ein "Pheromon" (Wert) zugeordnet. Kurz gesagt, unterscheidet der "Pheromon" -Wert jedes Dokument in einer gegebenen Zelle.
Die Punkte werden anfänglich zufällig verteilt - und jeder Punkt im Raster repräsentiert ein eindeutiges Dokument. Der nächste Schritt besteht darin, andere Punkte zufällig auf dem 2D-Gitter zu platzieren, um die Suche der Ameisenkolonie nach Nahrung in ihrer Umgebung zu simulieren. Diese Punkte sind anfänglich in demselben 2D-Raster mit den Dokumenten verstreut.
Jeder neue Punkt, der zum Raster hinzugefügt wird, repräsentiert eine Ameise. Diese "Ameisen", die im Ameisen-Kolonie-Algorithmus oft als -Agenten bezeichnet werden, bewegen sich im 2D-Gitter. Jede "Ameise" wird die anderen Punkte (Dokumente) entweder aufnehmen oder ablegen, je nachdem wo die Dokumente am besten hingehören. In dieser Analogie hat das "Essen" die Form von Dokumenten, die so ähnlich sind, dass sie gruppiert werden können.
Eine "Ameise" geht zufällig in das Gitter; Wenn ein Dokument gefunden wird, kann es eine von zwei Aktionen ausführen: Auswahl oder Ablegen. Jede Zelle hat eine "Pheromonintensität", die anzeigt, wie ähnlich das Dokument zu den anderen Dokumenten (Punkten) ist, die sich in der Nähe des fraglichen Dokuments befinden - demjenigen, das eine "Ameise" entweder aufnehmen oder fallen lässt.
Beachten Sie, dass die "Ameise" in Zelle 3 das schwarzpunktierte Dokument aufnimmt, da der weiße "Pheromon" -Wert dominiert; und begeben Sie sich in eine Zelle, in der der Wert nahe (ähnlich) wie in Zelle 4 ist (mehrere schwarze Punkte). Die Suche wird wiederholt, bis sich die Cluster bilden.
In der Tat verschiebt die "Ameise" Dokumente von einer Zelle in eine andere, um Cluster zu bilden, indem sie eine von zwei Aktionen ausführen: das Aufnehmen eines Dokuments oder das Löschen eines Dokuments.
Wenn die "Ameisen" sich zufällig auf dem Gitter bewegen, führt das Auffinden eines Punktes (Dokument) dazu, dass die "Ameise" ein Dokument aus seiner aktuellen Zelle aufnimmt, mit sich bewegt und es in eine Zelle fallen lässt. ausreichende Ähnlichkeit zu passen.
Wie würde eine "Ameise" die beste Zelle bestimmen, in der ein Dokument abgelegt werden soll? Die Antwort lautet, dass sich die Werte in den Zellen wie "Pheromone" verhalten - und jede Zelle im 2D-Raster enthält einen numerischen Wert, der so berechnet werden kann, dass er ein Dokument in der Zelle darstellt.
Denken Sie daran, dass jedes Dokument als ein Satz von Zahlen oder ein Vektor von numerischen Werten dargestellt wird. Die "Intensität des Pheromons" (der numerische Wert) nimmt zu, wenn mehr Dokumente in die Zelle geworfen werden - und dieser Wert nimmt ab, wenn die Zahlen, die Dokumente darstellen, aus der Zelle herausbewegt werden.