XLMiner-Funktionen Übersicht XLMiner bietet einen umfassenden Satz an Analysefunktionen, die sowohl auf statistischen als auch auf maschinellen Lernmethoden basieren. Ein Problem oder ein Datensatz kann durch mehrere Methoden analysiert werden. Es ist normalerweise eine gute Idee, verschiedene Ansätze auszuprobieren, ihre Ergebnisse zu vergleichen und dann ein Modell auszuwählen, das dem Problem gut entspricht. Datenbanken, Tabellenkalkulationen und Größenbeschränkungen XLMiner kann mit großen Datensätzen arbeiten, die die Grenzen in Excel überschreiten können. Eine Standardprozedur besteht darin, Daten aus einer größeren Datenbank abzutasten, sie in Excel zu importieren, um ein Modell anzupassen, und im Falle von überwachten Lernroutinen die Ausgabe wieder in die Datenbank zurückzugeben. XLMiner kann Daten aus Oracle, SQL Server und Access Datenbanken sowie in V4.0 aus PowerPivot In-Memory-Datenbanken abfragen. Seit XLMiner V4.0 (im Gegensatz zu früheren XLMiner Versionen) ist diese Funktion sowohl in der Professional Edition als auch in der Educational Edition erhältlich. Allerdings begrenzt die Educational Edition die Größe der Datenbanktabelle oder Ansicht, von der aus Sie die Probe abrufen können, sowie die Größe der gezeichneten Probe. Weitere Informationen zu XLMiners Limits finden Sie hier. Data Exploration und Visualisierung XLMiner verfügt über integrierte Funktionen zur Datenerforschung und - visualisierung. Es ist nicht mehr notwendig, externe Werkzeuge wie Tableau oder SpotFire zu verwenden, um Ihre Daten zu visualisieren, die einfach und ohne zusätzliche Kosten in XLMiner selbst durchgeführt werden können. Sie können eine beliebige Anzahl von Diagrammfenstern (mit jeweils mehreren verknüpften Diagrammen), Namen erstellen und diese Fenster in der Arbeitsmappe speichern. In einem Diagrammfenster können Sie Bar-, Linien-, Scatterplot-, Boxplot - und Histogramm-Diagramme mit einem Klick erstellen. Ebenfalls verfügbar (mit einem Klick) sind Schnelldiagramme aller Variablen, Scatterplot-Matrixdiagramme und Parallelkoordinaten-Diagramme. Sie können mit der Maus vergrößern oder verkleinern oder Punkte aus einem bestimmten Diagramm auswählen, diese Punkte werden in anderen Diagrammen im gleichen Diagrammfenster gebürstet oder hervorgehoben, und die tatsächlichen Werte der Variablen an jedem hervorgehobenen Punkt sind in scrollbar sichtbar Seitenscheibe. Sie können Filter für jede kontinuierliche und kategoriale Variable - einfache Schieberegler und Kontrollkästchenarrays, die automatisch in einem Seitenfenster erscheinen - verwenden, um interessierende Punkte ein - oder auszuschließen. Mit einem einfachen Punkt und Klicken können Sie Achsen oder Farben ändern oder mehrere Felder erstellen, die auf den Werten jeder kategorialen Variablen basieren. Das Erforschen von Daten in dieser Weise liefert oft schnelle Erkenntnisse über verborgene Beziehungen in den Daten, sowie was wichtig ist, und was nicht ist. Dieser Schritt kann Ihre Entscheidungen über weitere Vorgänge, von der Datenaufbereitung und - umwandlung bis hin zur Anpassung von Data-Mining-Modellen, informieren. Es gibt fünf große Gruppen von Operationen in XLMiner: Ein Datensatz mit bekannten Werten einer Outcome-Variable (Antwort) ist notwendig, um ein Data-Mining-Modell zu trainieren. Für die Ausbildung eines Modells, wählen wir in der Regel (zufällig) einen Bruchteil der verfügbaren Daten - die Trainingspartition. Trainierte Modelle können dann auf eine andere Partition - die Validierungspartition - desselben Datensatzes angewendet werden, um zu sehen, wie gut sie mit Daten arbeiten, für die sie nicht trainiert wurden. In dieser Phase können Modelle eingestellt und das bestmögliche Modell ausgewählt werden. Nachdem ein endgültiges Modell ausgewählt ist, kann es auf eine dritte Partition - die Testpartition - angewendet werden, um zu testen, wie gut das endgültige Modell mit Daten arbeitet, die weder beim Testen noch bei der Validierung verwendet wurden. XLMiner unterstützt auch die Partitionierung mit Oversampling, verwendet, wenn seltene Ereignisse modelliert werden und Sie müssen eine ausreichende Versorgung dieser Ereignisse in der Modellierung zu gewährleisten. Klicken Sie auf einen der folgenden Links, um mehr zu erfahren: Wenn die Ergebnisvariable diskret oder kategorisch ist, besteht das Ziel des Data Mining darin, die Datensätze in die einzelnen Klassen oder Kategorien zu klassifizieren. XLMiner bietet verschiedene Klassifikationstechniken an: Wenn die Ergebnisvariable stetig ist, ist es das Ziel, den Wert der Ergebnisvariablen für jeden Datensatz vorherzusagen. XLMiner bietet die folgenden Methoden der Vorhersage: Einige Probleme beinhalten das Erkennen der Zuordnung zwischen den Eigenschaften von Datensätzen. XLMiner unterstützt die Erzeugung von Verbandsregeln, um zu zeigen, welche Attribute der Daten häufig zusammen auftreten. Eine gemeinsame Anwendung ist es, zu bestimmen, Gruppen von Produkten Kunden sind wahrscheinlich zusammen zu kaufen, auch bekannt als Market Basket Analysis. XLMiner bietet Zeitreihenvorhersage. Mit den Explorationsverfahren ACF (Autokorrelationsfunktion) und PACF (Partielle Autokorrelationsfunktion), Glättungstechniken (gleitender Durchschnitt, exponentieller, doppelter Exponential - und Holt-Winter) sowie ARMA - und ARIMA-Modellierung. Datenreduzierung und Exploration Es ist oft nützlich oder notwendig, die Dimensionalität der Daten in nur ein paar Attribute, die mehr als andere Fragen zu reduzieren. In dieser Situation versuchen wir nicht, eine Ergebnisvariable zu klassifizieren oder vorherzusagen. Stattdessen ist das Ziel, Ähnlichkeiten in Datensätzen zu entdecken und gruppieren sie zusammen mit den verfügbaren Attributen (Variablen). Eine solche Methode beinhaltet die Entscheidung, welche Variablen am meisten in der Erklärung der Unterschiede zwischen den Datensätzen. Andere Methoden kategorisieren Daten in Cluster, die als eine neue kategorische Variable zu den Daten hinzugefügt werden können dargestellt werden. XLMiner unterstützt die folgenden Methoden der Datenerforschung und - reduzierung: Ausgabepräsentation und Grafiken XLMiner bietet spezielle Grafiken, um das Verständnis der Daten und der Analyseergebnisse zu verbessern. Beispielsweise liefern Baumdiagramme in Klassifikations - und Regressionsbäumen und Dendrogramme im hierarchischen Clustering sehr nützliche Einsichten. In Verbindung mit XLMiner-Ausgängen können Sie die integrierten Excels-Funktionen verwenden, um mit dem Ausgang zu arbeiten. Beispielsweise sind Histogramme, Streudiagramme und Blasendiagramme sehr nützlich, um einen Einblick in die Daten und die angepassten Ergebnisse zu liefern. Lift-Charts und Gewinndiagramme können leicht aus XLMiner-Ausgängen erzeugt werden, um den Nutzen zu sehen, der durch die Data-Mining-Übung erzeugt wird. Es wurden randomisierte Experimente (oder randomisierte kontrollierte Studien RCT) ein leistungsfähiges Werkzeug für die Prüfung von Kausalzusammenhängen. Ihr Hauptprinzip ist die Zufallszuweisung, bei der Themen oder Gegenstände zufällig einer der experimentellen Bedingungen zugewiesen werden. Ein klassisches Beispiel ist eine klinische Studie mit einer oder mehreren Behandlungsgruppen und einer Gruppe ohne Behandlung (Kontrollgruppe), wobei Individuen zufällig einer dieser Gruppen zugeordnet werden. Geschichte 1: (Internet) Experimente in der Industrie Internet-Experimente sind mittlerweile eine große Aktivität in riesigen Unternehmen wie Amazon, Google und Microsoft, in kleineren Web-basierten Unternehmen und unter akademischen Forschern in Management und den Sozialwissenschaften. Das Stichwort AB Testing bezieht sich auf die häufigste und einfachste Konstruktion, die zwei Gruppen (A und B) einschließt, wobei Themen - typischerweise Benutzer - zufällig der Gruppe A oder B zugeordnet werden und ein Effekt von Interesse gemessen wird. AB-Tests werden zum Testen alles von der Wirkung eines neuen Website-Feature auf Engagement, um die Wirkung eines neuen Sprachenübersetzungsalgorithmus auf Benutzerzufriedenheit verwendet. Die Unternehmen führen ständig viele Experimente durch. Mit einem großen und aktiven Benutzer-Basis können Sie ein Internet-Experiment sehr schnell und ganz billig. Akademische Forscher beginnen nun auch, randomisierte Experimente mit großem Umfang zu verwenden, um wissenschaftliche Hypothesen über soziales und menschliches Verhalten zu testen (wie bei Einwegspiegeln im Online-Dating: Ein randomisiertes Feldversuch). Basierend auf unseren Erfahrungen in diesem Bereich und dem, was ich von Kollegen und ehemaligen Studenten in solchen Umgebungen gelernt habe, gibt es mehrere kritische Fragen Herausforderung die Fähigkeit, gültige Schlussfolgerungen aus Internet-Experimente zu ziehen. Hier sind drei: Kontaminierte Daten. Unternehmen führen kontinuierlich Online-Experimente, die Interventionen verschiedener Typen einführen (z. B. das Ausführen verschiedener Promotions, das Ändern von Website-Features und das Schalten der zugrunde liegenden Technologien). Das Ergebnis ist, dass wir nie saubere Daten haben, um ein Experiment durchzuführen, und wir wissen nicht, wie sie schmutzig sind. Die Daten werden immer wieder durch andere, parallel stattfindende Experimente verunreinigt, und in vielen Fällen wissen wir noch nicht einmal, was und wann solche Experimente stattgefunden haben. Spill-over-Effekte. In einem randomisierten Experiment gehen wir davon aus, dass jeder Beobachter nur eine Behandlung (oder Kontrolle) erfährt. Bei Experimenten, bei denen eine Intervention wie die Wissensverteilung einbezogen wird (z. B. erhält die Behandlungsgruppe Informationen über einen neuen Dienst, während die Kontrollgruppe dies nicht tut), könnte die Behandlung durch soziale Netzwerke, Online-Foren und andere auf Gruppenmitglieder übertragen werden Information-Sharing-Plattformen, die heute üblich sind. Zum Beispiel verwenden viele Forscher Amazon Mechanical Turk, um Experimente durchzuführen, wo, wie DynamoWiki beschreibt, Mitarbeiter (die Versuchsthemen) Informationen austauschen, Normen aufbauen und durch Plattformen wie CloudMeBaby, MTurk Crowd, mTurk Forum, mTurk Grind, Reddits rmturk aufbauen Und rHITsWorthTurkingFor, Turker Nation und Turkopticon. Dies bedeutet, dass die Kontrollgruppe durch die Behandlungswirkung kontaminiert werden kann. Geschenk-Effekt. Behandlungen, die die behandelten Themen in gewisser Weise (wie eine spezielle Förderung oder erweiterte Funktion) profitieren können die Wirkung der Behandlung mit dem Effekt einer besonderen Behandlung verwechseln. Mit anderen Worten, der Unterschied zwischen dem Ergebnis für die Behandlung und den Kontrollgruppen kann nicht auf die Behandlung an sich zurückzuführen sein, sondern aufgrund der besonderen Aufmerksamkeit der Behandlungsgruppe, die das Unternehmen oder Forscher erhalten hat. Geschichte 2: Statistische Disziplin des experimentellen Entwurfs von Experimenten (DOE oder DOX) ist ein Subfeld von Statistiken, die auf die Schaffung der effizientesten Designs für ein Experiment und die am besten geeignete Analyse konzentriert ist. Effizient hier bezieht sich auf einen Kontext, wo jeder Lauf ist sehr teuer oder Ressourcen verbraucht in gewisser Weise. Das Ziel der DOE-Methodik ist es daher, die kausalen Fragen von Interesse mit der kleinsten Anzahl von Läufen (Beobachtungen) zu beantworten. Die statistische methodische Entwicklung von DOE wurde durch landwirtschaftliche Anwendungen im frühen 20. Jahrhundert, unter der Leitung des berühmten Ronald Fisher motiviert. Die DOE-Methodik gewann im Rahmen von industriellen Experimenten eine weitere Dynamik (heute gilt sie in der Regel als Teil der industriellen Statistik). Gegenwärtig ist der aktivste Forschungsbereich innerhalb von DOE Computerexperimente, die darauf ausgerichtet sind, Simulationen zu simulieren, um ein physikalisches System für Fälle zu emulieren, in denen Experimente unmöglich, unpraktisch oder schrecklich teuer sind (z. B. Experimente im Klima). Führen die beiden Geschichten mit der gegenwärtigen starken Nutzung von Online-Experimenten von Unternehmen zusammen, hätte man gedacht, dass die DOE-Disziplin gedeihen würde: neue Forschungsprobleme, viel Nachfrage aus der Industrie für die Zusammenarbeit, neue Studenten. Dennoch höre ich, dass die Zahl der DOE-Forscher an den US-Universitäten schrumpft. Die meisten Business-Analytik-oder Data-Science-Programme haben keinen dedizierten Kurs auf experimentelle Design (mit Schwerpunkt auf Internet-Experimente). Aktuelle DOE-Papiere in Top-Industrie-Statistik-Zeitschriften (zB Technometrics) und DOE-Konferenzen zeigen, dass die brennenden Themen aus Story 1 fehlen. Die akademische DOE-Forschung von Statistikern scheint sich weiterhin auf den knappen Datenkontext und auf Experimente auf Dinge und nicht auf menschliche Subjekte zu konzentrieren. Die Wikipedia-Seite auf DOE erzählt auch eine ähnliche Geschichte. Ich versuchte, diese Punkte und andere in meinem neuen Papier zu analysieren Behavioral Big Data: Methodische, praktische, ethische und moralische Fragen. Hoffentlich wird das Papier und diese Post wird DOE Forscher ermutigen, solche brennenden Fragen zu begegnen und nehmen Sie die Fahrer Platz bei der Erstellung von Designs und Analysen für Forscher und Unternehmen, die große Experimente. Jetzt, da der emotionale Sturm, der der Aussage der amerikanischen statistischen Vereinigungen auf p-Werten folgt, sich verlangsamt (ist es dort sogar ein Sturm außerhalb des Statistikbereichs), denkt man über ein praktisches Thema nach. Eines, das die Datenanalyse in den meisten Bereichen stark beeinflusst: statistische Software. Statistische Software beeinflusst, welche Methoden verwendet werden und wie sie gemeldet werden. Softwarefirmen beeinträchtigen somit die gesamte Disziplin und deren Fortschritt und Kommunikation. Star-Notation für p-Wert Schwellen in statistischen Software Egal, ob Ihr Feld verwendet SAS, SPSS (jetzt IBM), STATA, oder eine andere statistische Software-Paket, youre wahrscheinlich die Sterne-Notation (dies ist nicht über die Hotelbewertungen) gesehen haben. Ein Stern () bedeutet p-valuelt0.05, zwei Sterne () bedeuten p-valuelt0.01 und drei Sterne () bedeuten p-valuelt0.001. Entsprechend dem ASA-Statement. P-Werte sind nicht die Quelle des Problems, sondern ihre Diskretisierung. Die ASA empfiehlt, dass P-Werte, wenn verwendet, als Werte anstelle von Ungleichungen (p .0168, anstatt p lt 0,05) angegeben werden. In der Tat sehen wir, dass es eine bessere Anerkennung, dass die Messung der Stärke der Beweise ist wirklich kontinuierlich, anstatt diskret. Diese Aussage ist ein starkes Signal für die statistischen Software-Unternehmen: weiterhin die Stern-Notation verwenden, auch wenn Ihre Nutzer sind süchtig, ist in Verletzung der ASA-Empfehlung. Werden wir sehen, jede Änderung bald Ive bemerkte, dass in fast jedem Vortrag oder Diskussion, die den Begriff Big Data beinhaltet, eine der ersten Folien durch den Moderator oder die ersten Fragen vom Publikum gefragt ist, was ist Big Data Die typische Antwort hat Mit einigen Ziffern, vielen Vs, Begriffen, die mit Bytes enden, oder Aussagen über Software oder Hardwarekapazität zu tun. Ich bin anderer Ansicht. Groß ist relativ. Es ist relativ zu einem bestimmten Feld, und zwar zu den Praktiken auf dem Gebiet. Wir müssen daher die Benchmark eines bestimmten Feldes berücksichtigen, um festzustellen, ob die heutigen Daten groß sind. Meine Definition von Big Data ist daher Daten, die ein Feld erfordern, um seine Praktiken der Datenverarbeitung und Analyse zu ändern. Auf der einen Extreme, betrachten Wettervorhersage. Wo Datenerfassung, große Rechenleistung und Algorithmen für die Analyse riesige Mengen an Daten gibt es schon seit einer langen Zeit. So ist die heutige Klimatologie Daten Big für das Gebiet der Wettervorhersage Wahrscheinlich nicht, es sei denn, Sie beginnen die Prüfung neuer Arten von Daten, die die alten Methoden nicht verarbeiten oder zu analysieren. Ein weiteres Beispiel ist der Bereich der Genetik, in dem Forscher seit einiger Zeit mit einer Analyse großer Datensätze (insbesondere aus dem Human Genome Project) zusammenarbeiten. Die Big Data in diesem Bereich ist über die Verknüpfung verschiedener Datenbanken und die Integration von Domain-Wissen mit den Mustern in den Daten gefunden (Da große Daten-Forscher durch große Tumor-Datenbanken suchen nach Mustern von Mutationen, sie sind neue Kategorien von Brustkrebs Das andere Extrem, betrachten Studien in den Sozialwissenschaften, in Bereichen wie Politikwissenschaft oder Psychologie, die traditionell auf 3-stellige Probengrößen (wenn Sie Glück hatten) verlassen. In diesen Bereichen ist eine Stichprobe von 100.000 Menschen Big Data, weil sie die Methoden der Forscher auf dem Gebiet herausfordert. Hier sind einige der Herausforderungen, die entstehen: Alte Methoden brechen zusammen: Die gängige Methode der statistischen Signifikanztests für die Theorie der Theorie funktioniert nicht mehr, da p-Werte in der Regel winzig sind, unabhängig von der praktischen Bedeutung (ein weiterer Grund, die jüngsten sorgfältig zu berücksichtigen Technologie-Herausforderung: Die statistische Software und Hardware, die von vielen Sozialwissenschaftlern verwendet wird, ist möglicherweise nicht in der Lage, mit diesen neuen Datengrößen umzugehen Einfache Operationen wie Visualisierung von 100.000 Die Beobachtungen in einem Scatter-Plot erfordern neue Praktiken und Software (wie modernste interaktive Softwarepakete). Sozialwissenschaftliche Forscher müssen lernen, mehr nuancierte Fragen zu stellen, nachdem ihnen reicher Daten zur Verfügung stehen Nicht in Data Mining geschult, aber die neuen Größen von Datasets können sie zu entdecken, dass Muster, die nicht von der Theorie hypothetisch sind In Bezug auf die Vielfalt der Datentypen, ist Big Data wieder bereichsabhängig. Sozialwissenschaftler verfügen über langjährige Erfahrungen mit Textdaten (qualitative Forscher haben lange Interviews, Videos etc.) und mit sozialen Netzwerkdaten (die Ursprünge vieler der heute verwendeten Metriken) Sind in der Soziologie). Kurz gesagt, was Big für ein Feld ist, kann für ein anderes Feld als klein angesehen werden. Big Data ist feldabhängig und sollte auf dem Delta (der Differenz) zwischen früheren Datenanalysepraktiken und solchen basieren, die für die heutigen Daten erforderlich sind. Vor zehn Jahren war die Mikro-Ebene Vorhersage, wie wir sie heute kennen, in Unternehmen fast nicht vorhanden. MBAs gelernt über die Datenanalyse vor allem in einem erforderlichen Statistik-Kurs, die überwiegend statistische Schlußfolgerung und beschreibende Modellierung abgedeckt. Zu der Zeit lernte ich selbst meinen Weg in die prädiktive Welt und entwarf den ersten Data Mining-Kurs an der University of Marylands Smith School of Business (der bis heute erfolgreich läuft). Als ich die Lücke erkannte, fing ich an, Gespräche über die Vorteile der prädiktiven Analytik und ihre Verwendungen. Und Ive entwarf und lehrte eine Reihe von Predictive Analytics Kurseprogramme auf der ganzen Welt (USA, Indien, Taiwan) und online (Statistiken). Ich wäre sehr erfreut über den Anblick der prädiktiven Analytik, die in der Industrie nur zehn Jahre später so verbreitet ist. Aber die Wahrheit ist: Ich bin alarmiert. Eine neue Harvard Business Review Artikel Dont Let Big Data Bury Ihre Marke berührt einen Aspekt der prädiktiven Analytik Nutzung zu beunruhigen: Unternehmen erkennen nicht, dass Maschinen-Lernen basierte prädiktive Analytik kann hervorragend für kurzfristige Vorhersage, aber arm in Die langfristige. Der HBR-Artikel spricht über das Szenario einer CMO, die zwischen den CEOs gezwungen ist, prädiktionsbasierte Promotions (basierend auf den IT-Abteilungsdatenanalysten) voranzutreiben und seine langfristigen Markenaufbauanstrengungen: Fortgeschrittene Marketinganalyse und große Daten machen den Ausgleich kurz - term Umsatzverfolgung und langfristige Markenbildung viel härter heute. Wenn es schwierig war, Branding-Investitionen mit unbestimmten und entfernten Auszahlungen zu verteidigen, ist es doppelt so jetzt, dass kurzfristige Verkäufe so präzise konstruiert werden können. Analytics ermöglicht eine scheinbare Allwissenheit darüber, was Werbeangebote Kunden ansprechend finden. Große Daten ermöglichen beeindruckende Mengen an Informationen über die Kaufmuster und Transaktionshistorien identifizierbarer Kunden zu erhalten. Angesichts Marketing-Dollar und die Diskretion, um sie in beide Richtungen zu investieren, ist die Versuchung, Kassen läuten zu halten fast unwiderstehlich. Es gibt zwei Gründe für die Schwäche der Vorhersage auf lange Sicht: Erstens, prädiktive Analytik aus der Vergangenheit lernen, um die Zukunft vorauszusagen. In einer dynamischen Umgebung, in der die Zukunft sehr verschieden von der Vergangenheit ist, werden die Prognosen offensichtlich scheitern. Zweitens beruht die prädiktive Analytik auf Korrelationen und Assoziationen zwischen den Eingaben und der zu berechnenden Ausgabe, nicht auf Kausalbeziehungen. Während Korrelationen kurzfristig gut funktionieren können, sind sie langfristig viel empfindlicher. Sich auf Korrelationen zu verlassen, ist keine schlechte Sache, obwohl der typische Statistiker Ihnen den demographischen Blick der Korrelation gibt, ist keine Kausalität. Korrelationen ein sehr nützliches für kurzfristige Vorhersage. Sie sind ein schneller und nützlicher Proxy für die Beurteilung der Ähnlichkeit der Dinge, wenn alles, was wir kümmern ist, ob sie ähnlich sind oder nicht. Predictive Analytics sagt uns, was zu tun ist. Aber sie sagen nicht, warum. Und auf lange Sicht müssen wir oft wissen, warum, um richtige Vorhersagen, Szenarien und Politiken zu entwickeln. Die Gefahr ist dann mit prädiktiven Analysen für die langfristige Vorhersage oder Planung. Es ist ein gutes Werkzeug, aber es hat seine Grenzen. Vorhersage wird viel wertvoller, wenn sie mit Erklärung kombiniert wird. Die gute Nachricht ist, dass die Gründung von Kausalität auch bei Big Data möglich ist: Sie führen Experimente durch (das heute populäre AB-Testen ist ein einfaches Experiment) oder Sie verlassen sich auf andere kausale Fachkenntnisse. Es gibt sogar Methoden, die Big Data verwenden, um kausale Beziehungen aus Beobachtungsdaten zu quantifizieren, aber sie sind schwieriger und häufiger in Akademien als in der Praxis (das wird kommen) verwendet. Fazit: Wir brauchen eine Kombination aus Kausalmodellierung und Vorhersagemodellierung, um Daten für kurzfristige und langfristige Maßnahmen und Planung nutzen zu können. Das Vorhersage-Toolkit kann helfen, Korrelationen zu entdecken, die wir dann verwenden können, Experimente (oder Umfragen), um herauszufinden, warum. Und dann verbessern unsere langfristigen Vorhersagen. Sein ein Zyklus. Vor kurzem hatte Ive Diskussionen mit einigen Instruktoren von Data-Mining-Kurse über eine Tatsache, die oft aus vielen Büchern übrig geblieben ist, ist aber sehr wichtig: unterschiedliche Behandlung von Dummy-Variablen in verschiedenen Data-Mining-Methoden. Statistikkurse, die lineare oder logistische Regression abdecken, lehren uns, vorsichtig zu sein, wenn wir eine kategorische Vorhersagevariable in unserem Modell berücksichtigen. Angenommen, wir haben eine kategorische Variable mit m Kategorien (z. B. m Länder). Zuerst müssen wir es in m binäre Variablen, die als Dummy-Variablen, D1, D2 bezeichnet werden, faktorisieren. Dm (z. B. D1 1, wenn CountryJapan und 0 andernfalls D2 1, wenn CountryUSA und 0 sonst usw.) Dann schließen wir m-1 der Dummy-Variablen in das Regressionsmodell ein. Der wichtigste Punkt ist, eine der m Dummy-Variablen auszuschließen, um Redundanz zu vermeiden. Die ausgeschlossene Dummy-Kategorie wird als Referenzkategorie bezeichnet. Mathematisch ist es egal, welche Dummy Sie ausschließen, obwohl die resultierenden Koeffizienten werden relativ zu der Referenzkategorie interpretiert werden, so dass, wenn Interpretation wichtig ist, ist es sinnvoll, die Referenzkategorie als die, die wir am meisten mit vergleichen wollen. In linearen und logistischen Regressionsmodellen, einschließlich aller m Variablen führt zu perfekter Multikollinearität. Was typischerweise einen Ausfall des Schätzalgorithmus verursacht. Smarter Software wird das Problem zu identifizieren und fallen eine der Dummies für Sie. Das ist, warum jedes Statistikbuch oder Kurs auf Regression betont die Notwendigkeit, eine der Dummy-Variablen fallen. Jetzt kommt der überraschende Teil: Bei der Verwendung kategorialer Prädiktoren in maschinellen Lernalgorithmen wie k-nearest neighbours (kNN) oder Klassifizierungs - und Regressionsbäumen behalten wir alle m dummy-Variablen. Der Grund dafür ist, dass wir in solchen Algorithmen keine linearen Kombinationen aller Prädiktoren erzeugen. Ein Baum beispielsweise wählt eine Teilmenge der Prädiktoren aus. Wenn wir einen Dummy auslassen, dann, wenn diese Kategorie von den anderen Kategorien in Bezug auf die Ausgabe von Interesse unterscheidet, wird der Baum nicht in der Lage sein, es zu erkennen. Ähnlich würde das Fallenlassen eines Dummys in kNN nicht die Wirkung der Zugehörigkeit zu dieser Kategorie enthalten In die verwendete Entfernung. Der einzige Fall, in dem Dummy-Variable Inklusion gleich behandelt wird über Methoden ist für eine Zwei-Kategorie-Prädiktor, wie Gender. In diesem Fall genügt eine einzelne Dummy-Variable in Regression, kNN, CART oder irgendeinem anderen Data-Mining-Verfahren. In ihrer jüngsten Editorial, die Zeitschrift Basic and Applied Social Psychology angekündigt, dass es nicht mehr akzeptieren Papiere, die klassische statistische Schlussfolgerung verwenden. Keine p-Werte mehr, t-Tests oder sogar. Müssen die Autoren alle Reste des NHSTP entfernen (p-Werte, t-Werte, F-Werte, Aussagen über 82168216 signifikante82178217 Unterschiede oder deren Fehlen usw.). Konfidenzintervalle sind auch von BASP verboten Viele Statistiker würden sich einig sein, dass es höchste Zeit ist, von p-Werten und statistischer Folgerung auf praktische Bedeutung, Schätzung, aufwendigere nichtparametrische Modellierung und Resampling zu verzichten, um annahmeschwere Modelle zu vermeiden. Dies ist besonders jetzt so, wenn Datensätze werden immer größer und Technologie ist in der Lage, mehr Minute-Effekte zu messen. In unserer Zeitschrift "Too Big To Fail": Große Stichproben und das p-Wert Problem heben wir das ernsthafte Problem an p-Wert-basierte Entscheidungsfindung bei der Verwendung sehr großer Proben. Viele haben uns nach Lösungen gefragt, die p-Werte skalieren, aber wir havent stoßen auf eine, die wirklich funktioniert. Unser Schwerpunkt lag auf der Erkennung, wenn Sie zu groß sind und wir betonten die Bedeutung der Fokussierung auf Effekt Größe und Präzision (bitte melden Sie Standardfehler) Maschinenlernen würde wahrscheinlich befürworten schließlich Umzug in die prädiktive Modellierung und Bewertung. Predictive Macht ist einfach zu messen, obwohl es nicht immer, was Sozialwissenschaften Forscher suchen. Aber warte. Was dieses Editorial diktiert, ist nur eine halbe Revolution: es sagt, was es verbieten wird. Aber es bietet keine zusammenhängende Alternative jenseits einfacher Zusammenfassung Statistiken. Fokussierung auf Effektgröße ist groß, um Resultatmaterie zu bilden, aber, ohne Standardfehler oder Vertrauensintervalle zu berichten, wissen wir nichts über die Ungewißheit des Effektes. Das Verlassen jeglicher Metrik, auf die das Experiment repliziert wurde, ist gefährlich und irreführend. Erstens ist dies mehr eine philosophische Annahme als eine tatsächliche Re-Experimentierung. Zweitens, um zu testen, ob die in einer Stichprobe gefundenen Effekte zu einer Population von Interesse verallgemeinert werden, benötigen wir die Fähigkeit, die Ergebnisse zu replizieren. Standardfehler geben einige Hinweise darauf, wie reproduzierbar die Ergebnisse unter den gleichen Bedingungen sind.
Comments
Post a Comment