Video: Linear Programming Problem (LPP) in R | Optimization | Operation Research 2024
Die Disziplin des maschinellen Lernens hat einen reichen und umfangreichen Katalog von Techniken. Mahout bringt eine Reihe statistischer Werkzeuge und Algorithmen mit in die Tabelle, aber es erfasst nur einen Bruchteil dieser Techniken und Algorithmen, da die Aufgabe, diese Modelle in ein MapReduce-Framework zu konvertieren, eine Herausforderung darstellt.
Im Laufe der Zeit wird Mahout sicherlich seine statistische Toolbox weiter ausbauen, aber bis dahin müssen alle Datenwissenschaftler und Statistiker da draußen auf eine alternative Software zur statistischen Modellierung achten - woher kommt R?
Die Sprache R ist eine leistungsfähige und beliebte statistische Open-Source-Sprache und Entwicklungsumgebung. Es bietet ein umfassendes Analyse-Ökosystem, das Datenwissenschaftlern bei der Datenexploration, Visualisierung, statistischen Analyse und Berechnung, Modellierung, maschinellem Lernen und Simulation helfen kann. Die Sprache R wird üblicherweise von Statistikern, Data Minern, Datenanalysten und (heute) Data Scientists verwendet.
R-Sprachprogrammierer haben Zugriff auf die Comprehensive R Archive Network (CRAN) -Bibliotheken, die zum Zeitpunkt des Schreibens mehr als 3000 statistische Analysepakete enthält. Diese Add-ons können in jedes R-Projekt eingebunden werden und bieten umfassende Analysetools für die Ausführung von Klassifizierung, Regression, Clustering, linearer Modellierung und spezielleren maschinellen Lernalgorithmen.
Die Sprache ist für diejenigen zugänglich, die mit einfachen Datenstrukturtypen - Vektoren, Skalaren, Datenrahmen (Matrizen) und dergleichen - vertraut sind, die üblicherweise von Statistikern und Programmierern verwendet werden.
Eine der größten Tücken bei der Verwendung der R-Sprache ist die mangelnde Unterstützung für die Ausführung gleichzeitiger Aufgaben. Statistische Sprachwerkzeuge wie R zeichnen sich durch rigorose Analyse aus, verfügen jedoch nicht über Skalierbarkeit und native Unterstützung für parallele Berechnungen.
Diese Systeme sind nicht verteilbar und wurden nicht entwickelt, um für die moderne Petabyte-Welt der Big Data skalierbar zu sein. Vorschläge zur Überwindung dieser Einschränkungen müssen Rs Anwendungsbereich über In-Memory-Lade- und Einzelcomputer-Ausführungsumgebungen hinaus erweitern, während Rs Gespür für leicht implementierbare statistische Algorithmen erhalten bleibt.