Modellierung - Data Mining (1025150)
Druck-Ansicht
- Dauer: 3 Tage
- Zielgruppe: Projektleiter, Manager (Manager )
- Vorkenntnisse: Grundlegende Kenntnisse des relationalen Modells
- Methode: Vortrag, Diskussion, Einzel- und Gruppenarbeit mit Übungen. Eigene Arbeiten und Projektfragen können in das Seminar eingebracht werden.
- Typ: Öffentliches Seminar / Inhouse
- Download:Anmeldeformular | AGB | Hotels & Anfahrt | Info-Broschüre
- Inhalt: Datamining übertrifft einfache Analysetechniken an Wirkungsweise, Ergebnissen und Methodik. Es unterstützt die Entwicklung und Gewinnung von wertvollem Unternehmenswissen anhand hochkomplexer Analyseverfahren. Dieses Seminar macht Sie mit den Konzepten von Datamining vertraut und hilft Ihnen bei der Entscheidung und Bewertung in Projekten, die Datamining einführen helfen.
- Dozent: Dr. Ralf Klinkenberg studierte Informatik an der Universität Dortmund, war dort von 1998 bis 2003 wissenschaftlicher Mitarbeiter und dann Doktorand am Lehrstuhl für Künstliche Intelligenz. 1994/95 studierte er mit einem Stipendium der deutsch-amerikanischen Fulbright-Kommission für ein Jahr an der University of Missouri-Rolla (UMR) in Rolla, Missouri, USA. 1996 schloss er dieses Auslandsstudium mit dem Master of Science in Computer Science ab. Seine Interessen liegen im Bereich des maschinellen Lernens, des Data Mining und der Wissensentdeckung (Knowledge Discovery). Speziell interessieren ihn maschinelle Lernverfahren zum adaptiven Informationsfiltern bei sich verändernden Konzepten aus zeitlich veränderlichen Datenströmen. Seit 2007 ist er für die Comelio GmbH im Bereich Statistik und Data Mining tätig. Im Bereich Beratung und Implementierung unterstützt er Kunden bei der Einführung des Open Source Data Mining-Systems Rapid Miner (vormals Yale).
Zu seinen zahlreichen wissenchaftlichen Veröffentlichungen gehören (1) Scholz, Martin and Klinkenberg, Ralf. Boosting Classifiers for Drifting Concepts. In Intelligent Data Analysis (IDA), Special Issue on Knowledge Discovery from Data Streams, Vol. 11, No. 1, Seiten 3--28, 2007, (2) Mierswa, Ingo and Wurst, Michael and Klinkenberg, Ralf and Scholz, Martin and Euler, Timm. YALE: Rapid Prototyping for Complex Data Mining Tasks. In Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2006), ACM Press, 2006 und (3) Scholz, Martin and Klinkenberg, Ralf. An Ensemble Classifier for Drifting Concepts. In Gama, J. and Aguilar-Ruiz, J. S. (editors), Proceedings of the Second International Workshop on Knowledge Discovery in Data Streams, Seiten 53--64, Porto, Portugal, 2005.
Inhalte
A. Datamining und Umfeld
Data Mining und maschinelles Lernen: Beschreibung strukturierter Muster - maschinelles Lernen - Anwendungen in der Praxis: Entscheidungen durch Beurteilungen - Bildanalyse - Lastabschätzung - Diagnose - Marketing und Verkauf - Maschinelles Lernen und Statistik - Generalisierung als Suche: Auflistung des Konzeptraums - Bias - Sprach-Bias - Such-Bias - Bias zur Vermeidung einer Überanpassung
B. Eingaben: Konzepte, Instanzen, Attribute
Was ist ein Konzept? - Was enthält ein Beispiel? - Was enthält ein Attribut? - Aufbereitung der Eingaben - Sammeln der Daten - Das ARFF-Format - Attributtypen - Fehlende Werte - Ungenaue Werte - Daten kennen lernen
C. Ausgabe: Wissensdarstellung
Entscheidungstabellen - Entscheidungsbäume - Klassifikationsregeln - Assoziationsregeln - Regeln mit Ausnahmen - Regeln mit Relationen - Bäume für numerische Vorhersagen - Instanzbasierte Darstellung - Cluster
D. Algorithmen: Die grundlegenden Methoden
Ableitung elementarer Regeln: Fehlende Werte und numerische Attribute - Diskussion - Statistische Modellierung: Fehlende Werte und numerische Attribute - Diskussion - Teile und Herrsche: Der Aufbau von Entscheidungsbäumen: Berechnung des Informationsmaßes - Attribute mit vielen Verzweigungen - Diskussion - Abdeckungs-Algorithmen: die Konstruktion von Regeln: Regeln oder Bäume? - Ein einfacher Abdeckungs-Algorithmus - Regeln oder Entscheidungslisten? - Erzeugen von Assoziationsregeln: Gegenstandsmengen - Assoziationsregeln - Regeln effizient generieren - Diskussion - Lineare Modelle: Numerische Vorhersagen - Klassifikation - Diskussion - Instanzbasiertes Lernen: Die Distanzfunktion - Diskussion
E. Glaubwürdigkeit: Auswertung des Gelernten
Trainieren und Testen - Leistungsvorhersage - Kreuzvalidierung - andere Schätzverfahren: Leave-one-out - Bootstrap - Data Mining-Verfahren im Vergleich - Vorhersage von Wahrscheinlichkeiten: Quadratische Verlustfunktion - informatorische Verlustfunktion - Diskussion - die Kosten - Steigerungsdiagramme - ROC-Kurven - Berücksichtung der Lernkosten - Diskussion - Auswertung numerischer Vorhersagen - das Prinzip der minimalen Beschreibungslänge - Anwendung des MDL-Prinzips auf das Clustering
F. Implementierungen: Maschinelles Lernen in der Praxis
Entscheidungsbäume: Numerische Attribute - Fehlende Werte - Pruning - Abschätzung der Fehlerrate - Komplexität der Entscheidungsbaum-Induktion - von Bäumen zu Regeln - C4.5: Auswahlmöglichkeiten und Optionen - Diskussion - Klassifikationsregeln: Kriterien für die Auswahl von Auswertungen - fehlende Werte, numerische Attribute - gute Regeln, schlechte Regeln - gute Regeln erzeugen - gute Entscheidungslisten erzeugen - Wahrscheinlichkeitswert zur Regelevaluation - Regeln mit einer Testmenge evaluieren - Regeln aus partiellen Bäumen entnehmen - Regeln mit Ausnahmen - Diskussion - Erweiterung der linearen Klassifikation: Support-Vektor-Maschinen - Die maximal diskriminierende Hyperebene - Nichtlineare Klassengrenzen - Diskussion - Instanzbasiertes Lernen: Zahl der Exemplare verringern - Verrauschte Exemplare beschneiden - Attribute gewichten - Exemplare generalisieren - Distanzfunktionen für generalisierte Exemplare - Generalisierte Distanzfunktionen - Numerische Vorhersage: Modellbäume - Den Baum aufbauen - Den Baum beschneiden - Nominale Attribute - Fehlende Werte - Pseudocode für die Modellbaum-Induktion - Lokal gewichtete lineare Regression - Diskussion - Clustering: Iteratives distanzbasiertes Clustering - Inkrementelles Clustering - Kategorienützlichkeit - Wahrscheinlichkeitsbasiertes Clustering - Der EM-Algorithmus - Das Mischungsmodell erweitern - Bayessches Clustering - Diskussion |
 |
Anmeldung
Wenn Sie sich für dieses Seminar interessieren, können Sie sich hier online Anmelden
Zur Seminar Anmeldung
|
Kontakt
PreiseWenn Sie mehrere Seminarplätze gleichzeitig buchen, erhalten Sie für jeden Teilnehmer einen Preisvorteil nach folgender Tabelle. Alle Preise zzgl. 19% MwSt. Enthalten: - Catering
- Mittagessen
- Literatur
| Ort |
TN1 | TN2 | TN3 |
Essen Berlin |
1450,00 € |
1377,50 € |
1305,00 € |
| Sonst |
1600.00 € |
1527.50 € |
1455.00 € |
Termine
Essen - 1. - 3.12.2008
- 5. - 7.1.2009
- 26. - 28.1.2009
- 9. - 11.2.2009
Berlin - 8. - 10.12.2008
- 12. - 14.1.2009
- 2. - 4.2.2009
- 16. - 18.2.2009
Hamburg - 24. - 26.11.2008
- 15. - 17.12.2008
- 19. - 21.1.2009
- 9. - 11.2.2009
- 23. - 25.2.2009
Frankfurt - 1. - 3.12.2008
- 26. - 28.1.2009
- 16. - 18.2.2009
- 2. - 4.3.2009
München - 8. - 10.12.2008
- 2. - 4.2.2009
- 23. - 25.2.2009
- 9. - 11.3.2009
Stuttgart - 15. - 17.12.2008
- 5. - 7.1.2009
- 9. - 11.2.2009
- 2. - 4.3.2009
- 16. - 18.3.2009
Wien - 24. - 26.11.2008
- 12. - 14.1.2009
- 16. - 18.2.2009
- 9. - 11.3.2009
- 23. - 25.3.2009
Zürich - 1. - 3.12.2008
- 19. - 21.1.2009
- 23. - 25.2.2009
- 16. - 18.3.2009
- 30. - 1.4.2009
9:00 - 16:30 Uhr | Weitere Termine auf Anfrage. Ähnliche Seminare |