- 1 Abschnitt
- 7 Lektionen
- Um den Kurs in deinem Profil zu hinterlegen klicke oben auf Starten
alles ausklappenalles einklappen
Lösungen
Aufgabe 1: Big Data Technologien
Frage 1: Apache Hadoop: Ein Open-Source-Framework zur verteilten Speicherung und Verarbeitung großer Datenmengen. Hauptkomponenten:
- HDFS (Hadoop Distributed File System): Speichert große Datenmengen verteilt über viele Knoten.
- MapReduce: Ein Programmiermodell zur parallelen Datenverarbeitung.
- YARN (Yet Another Resource Negotiator): Verwalten der Ressourcen in einem Hadoop-Cluster.
Frage 2: Apache Spark:
- Vorteile:
- In-Memory-Datenverarbeitung: Schneller als Hadoop, da es Daten im Speicher statt auf der Festplatte verarbeitet.
- Flexibilität: Unterstützt Batch-Verarbeitung, Echtzeit-Streaming, maschinelles Lernen und Graph-Verarbeitung.
Aufgabe 2: Datenanalyse-Tools und -Techniken
Frage 3: Pandas: Eine Python-Bibliothek für Datenanalyse und -manipulation.
- Beispiele:
- Daten filtern:
df[df['Umsatz'] > 1000] - Daten aggregieren:
df.groupby('Produkt').sum()
- Daten filtern:
Frage 4: SQL: Eine standardisierte Sprache zur Verwaltung und Abfrage relationaler Datenbanken.
- Grundfunktionen: SELECT, INSERT, UPDATE, DELETE
- Beispiel:
SELECT Produkt, SUM(Umsatz) FROM Verkäufe GROUP BY Produkt;
Aufgabe 3: Datenvisualisierung
Frage 5:
- Tableau:
- Vorteil: Intuitive Drag-and-Drop-Oberfläche.
- Power BI:
- Vorteil: Nahtlose Integration mit Microsoft-Diensten.
- D3.js:
- Vorteil: Hohe Flexibilität und Anpassbarkeit.
Frage 6: Liniendiagramm: Darstellung von Verkaufstrends über die Zeit, da es die Veränderungen und Muster über Zeiträume klar visualisiert.
Aufgabe 4: Best Practices für die Datenverarbeitung und -analyse
Frage 7: Datenbereinigung:
- Wichtigkeit: Vermeidung von Ungenauigkeiten und Inkonsistenzen, die die Analyseergebnisse verfälschen könnten.
- Beispiele:
- Entfernung von Duplikaten.
- Umgang mit fehlenden Werten.
Frage 8: Automatisierung:
- Vorteile: Erhöhte Effizienz und Genauigkeit, Zeitersparnis.
- Beispiel: Automatisierte Datenextraktion und -verarbeitung mit ETL-Pipelines.
Aufgabe 5: Anwendungsfall
Frage 9: Datenanalyse-Workflow:
- Datenextraktion: SQL-Abfragen zur Extraktion von Kundendaten.
- Datenbereinigung: Entfernung von Duplikaten, Korrektur von Datumsformaten.
- Datenanalyse: Segmentierung der Kunden nach Kaufverhalten.
- Datenvisualisierung: Erstellung eines Dashboards mit Tableau zur Darstellung von Kundenprofilen und Kaufmustern.
Frage 10: Dashboard-Erstellung:
- Visualisierungstechniken: Balkendiagramme für Vergleichsdaten, Liniendiagramme für Trends, Kreisdiagramme für Anteile.
- Tools: Tableau oder Power BI für interaktive und ansprechende Dashboards.
