Scatter Plot: Definition und Apps (2024)

Zurück zu den Artikeln
  • 1. Februar 2023

-

5

Minuten Lesezeit

-

  • Data Science
Scatter Plot: Definition und Apps (1)

Die Visualisierung von Daten in der Welt der Datenwissenschaft ist heutzutage das Herzstück der Machine-Learning-Pipeline. Die Datenvisualisierung ist somit einer der Schritte in der Datenwissenschaft, der direkt nach dem Sammeln, Bereinigen und Normalisieren der Daten stattfindet. Eine der am häufigsten verwendeten Grafiken ist heutzutage der Scatter-Plot. Mithilfe von Scatterplots können wir Daten analysieren und die Wechselwirkungen zwischen Variablen erkennen.

Was genau ist ein Scatter Plot?

Scatterplots, auch Scattergram, Scattergraph oder Scatterchart genannt, sind eine Art Punktwolkendiagramm, das darstellt, wie eine Variable von einer anderen beeinflusst wird. Die vertikale Achse oder Ordinatenachse wird verwendet, um eine der Variablen darzustellen, und eine horizontale Achse oder Abszissenachse für die andere Variable.

Im Gegensatz zu Pie-Charts, die eher für kategoriale Variablen geeignet sind, werden Scatter-Plots häufig verwendet, um eine Korrelation zwischen quantitativen Variablen darzustellen, die miteinander verbunden zu sein scheinen. Beispielsweise kann die Durchschnittstemperatur eines Tages die Anzahl der in einem Supermarkt verkauften Flaschen mit kaltem Wasser beeinflussen.

So kann man durch die Darstellung dieser Punkte ableiten, ob die Beziehung zwischen der Durchschnittstemperatur eines Tages und der Anzahl der verkauften Flaschen frischen Wassers eher linear oder nicht linear, stark oder schwach oder positiv oder negativ ist.

Welche Anwendungen gibt es für den Scatter Plot?

1. Analyse der Beziehungen zwischen Variablen

  • Starke / schwache Beziehung

Die Stärke eines Scatter-Plots wird anhand der Streuung seiner Punkte beurteilt. Wenn die Punkte sehr breit gestreut sind, ist der Zusammenhang zwischen den Variablen schwach. Wenn die Punkte um eine Gerade herum konzentriert sind, ist der Zusammenhang zwischen den Variablen stark.

  • Positive / negative Beziehung

Eine wichtige Komponente einer Punktwolke ist die Richtung der Beziehung zwischen den Variablen. Man spricht von einer positiven Korrelation, wenn die x- und y-Koordinaten gleichzeitig ansteigen. Wenn du dir das Alter eines Kindes und seine Körpergröße ansiehst, wirst du feststellen, dass das Kind mit zunehmendem Alter auch größer wird. Es handelt sich um eine positive Beziehung zwischen den Variablen.

Im umgekehrten Fall, wenn die Werte auf der x-Achse steigen und die Werte auf der y-Achse sinken (oder umgekehrt), dann kann man daraus schließen, dass die Beziehung negativ ist. Wenn du dir z. B. das Alter eines Autos und seinen Wert ansiehst, wirst du feststellen, dass das Auto mit zunehmendem Alter an Wert verliert. Es handelt sich hierbei um eine negative Korrelation.

  • Lineare / nichtlineare Beziehung

Die Form der Punktwolke lässt uns auf die Linearität der Daten schließen. Wenn die Punktwolke einer geraden Linie ähnelt, ist die Beziehung linear. Daraus lässt sich ableiten, dass eine Variable ungefähr gleich schnell ansteigt, wenn sich die andere Variable um eine Einheit ändert. Wenn das Scatterplot die Form einer Kurve oder einer anderen Form hat, wird die Beziehung zwischen den Variablen als nichtlinear bezeichnet.

Scatter Plot: Definition und Apps (2)

Entdecken Sie unsere Kurse in Data Science

2. Cluster und Ausreißer identifizieren

Lass uns zunächst Cluster und Outlier definieren.

  • Cluster

Ein Cluster in der Data Science ist eine Unterpopulation eines größeren Datensatzes, in dem jeder Datenpunkt näher an einem Zentroid (Zentrum eines Clusters) liegt als an den Zentroiden im Datensatz. Clustering ist nach wie vor eine der am häufigsten verwendeten Methoden des unüberwachten Lernens. Es kann für eine Vielzahl von Anwendungen eingesetzt werden, u. a. für die Segmentierung von Kunden, die Analyse sozialer Netzwerke oder Empfehlungssysteme.

  • Outlier

Ein Ausreißer in der Datenwissenschaft ist eine Beobachtung, die sich von anderen Beobachtungen unterscheidet. Bei der Erhebung von Daten kann es vorkommen, dass der Datensatz Extremwerte enthält, die außerhalb des erwarteten Datenbereichs liegen. Diese Werte werden als Ausreißer bezeichnet.

Im Gegensatz zu den Pie-Charts, die uns nicht erlauben, Cluster und Ausreißer zu identifizieren, erlauben uns die Scatter-Plots, unsere Daten besser zu analysieren, um das richtige Preprocessing zu starten und den am besten geeigneten Machine-Learning-Algorithmus für unser Problem auszuwählen.

3. Lineare Regression anwenden

Regressionsmodelle untersuchen die Beziehung zwischen einer abhängigen Variablen (Ziel) und einer oder mehreren unabhängigen Variablen (Prädiktor). Hier sind einige der häufigsten Regressionsmodelle:

  • Lineare Regression: Die lineare Regression hat die Form einer geraden Linie und stellt eine lineare Beziehung zwischen dem Ziel (Y) und dem Prädiktor (X) her.
  • Polynomiale Regression: Die polynomiale Regression hat die Form einer Kurve und stellt eine nichtlineare Beziehung zwischen dem Ziel (Y) und dem Prädiktor (X) her.

Trotz ihrer Einfachheit ist die lineare Regression ein unglaublich mächtiges Werkzeug zur Analyse von Daten, die eine lineare Form haben. Dieser Algorithmus gehört zur Familie der überwachten Machine-Learning-Algorithmen.

Eine lineare Regression hat die Gleichung y = mx+b. Die Variable x wird als unabhängige oder erklärende Variable bezeichnet. Die Variable y wird als die abhängige oder zu erklärende Variable bezeichnet.

Die Scatter-Plots können leicht durch eine einfache lineare Regression ergänzt werden, indem unsere Parameter m und b berechnet werden, um eine Regressionsgerade durch unsere Daten zu legen. Diese Berechnung der Parameter erfolgt über die folgenden Beziehungen:

Scatter Plot: Definition und Apps (3)

Die Gleichung für die lineare Regression stellt sicher, dass der Abstand zwischen jedem Datenpunkt und der Regressionsgeraden minimiert wird. Allerdings musst du die folgenden Punkte überprüfen:

  • Die Beziehung zwischen den Daten sollte linear sein: Die Punktwolke sollte eine gerade Linie bilden, anstatt einer Kurve oder einer anderen Form.
  • Die Additivitätshypothese muss überprüft werden. Das bedeutet, dass die Änderung in einem Merkmal der Zielvariable nicht von den Werten der anderen Merkmale abhängt. Nehmen wir als Beispiel ein Modell zur Prognose des Umsatzes eines Unternehmens mit zwei Merkmalen: die Anzahl der verkauften Stifte und die Anzahl der verkauften Hefte. Wenn das Unternehmen mehr Stifte verkauft, steigt der Umsatz mit Stiften, und das ist unabhängig von der Anzahl der verkauften Hefte. Wenn die Kunden, die Stifte kaufen, jedoch keine Hefte mehr kaufen, ist die Additivitätshypothese nicht mehr erfüllt, da in diesem Fall der mit den Heften erzielte Umsatz vom Kauf der Stifte abhängt.
  • Die Features dürfen nicht korreliert sein. Das heißt, dass die Beobachtungen der Zielvariable nicht mit den vorherigen Beobachtungen zusammenhängen und die folgenden nicht beeinflussen.

Fehler sind unabhängig und identisch nach der Normalverteilung verteilt.

Welche Probleme gibt es mit Scatter Plots?

1. Unkorrelierte Daten

In dem Fall, dass wir keine Korrelationen oder Verbindungen zwischen unseren Daten haben, sind die Datenpunkte überall verstreut und es kann keine Interpretation abgeleitet werden. Mit anderen Worten: Die Tatsache, dass wir den Wert einer Variablen kennen, gibt uns keine Vorstellung davon, was der Wert der anderen Variablen sein könnte. Wenn wir einen Scatterplot von zwei Variablen haben, deren Korrelation null ist, wird das Diagramm keinen klaren Trend aufweisen. Zum Beispiel ist die Korrelation zwischen der Menge an Kaffee, die eine Person konsumiert, und ihrem IQ-Wert gleich null. Mit anderen Worten: Die Tatsache, dass wir wissen, wie viel Kaffee eine Person trinkt, sagt nichts über ihren IQ-Wert aus.

2. Große Datenmenge

Bei großen Datensätzen können sich die Punkte des Scatterplots überlappen und sich gegenseitig verdecken. Dies wird als Overplotting bezeichnet und verdeckt die Trends und Beziehungen zwischen unseren beiden Variablen, was die Analyse erschwert. Es gibt also verschiedene Lösungen für dieses Problem:

  • Wenn du die Füllfarbe der Punkte, die unsere Daten repräsentieren, entfernst oder ihre Größe reduzierst, lässt sich der Plot leichter analysieren und zeigt, wie sich die Punkte überlappen.
  • Eine andere einfache Technik, die sich oft als nützlich erweist, besteht darin, die Form von Datenpunkten, die genug Platz einnehmen, wie z. B. Kreise oder Quadrate, in eine Form zu ändern, die nicht so viel Platz einnimmt, wie z. B. Kreuze.
  • Die Anzahl der Beobachtungen zu reduzieren, wird ebenfalls oft verwendet. Hierfür gibt es zwei Methoden:
    • Daten filtern: Hier geht es darum, nicht benötigte Daten zu löschen, um die Anzahl der Daten zu reduzieren und die Lesbarkeit zu verbessern.
    • Die Daten auf mehrere Graphen zu verteilen, kann auch eine gute Lösung sein, wenn du keine Informationen verlieren willst.

Abschließend lässt sich sagen, dass Pie-Charts eine hervorragende Alternative im Fall von kategorialen Variablen sein können. So gibt es verschiedene Bibliotheken für die Analyse und Visualisierung von Daten mit Python, z. B. Matplotlib, Seaborn oder auch Plotly !

Bist du bereit, deinen Scatter Plot zu zeichnen? Erfahre mehr über die Analyse und Visualisierung von Scatter Plots sowie weitere Grafiken zur Datenvisualisierung auf DataScientest.

Erfahren Sie mehr über unsere Schulungen in Data Science

Scatter Plot: Definition und Apps (4)

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Weiterlesen

Eingebettete Systeme: Was ist das und wie funktionieren sie?

DanielJuli 5, 2024

Pentest: Was ist das und wie funktioniert er?

DanielJuli 4, 2024

Die forensische Analyse: Was ist das und wie funktioniert sie?

DanielJuli 3, 2024

Expertensystem: Alles über diese Art von KI, die menschliches Denken imitiert

DanielJuli 3, 2024

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!

Scatter Plot: Definition und Apps (9)

Scatter Plot: Definition und Apps (2024)

FAQs

What is the definition of a scatter plot? ›

What is a scatter plot? A scatter plot (aka scatter chart, scatter graph) uses dots to represent values for two different numeric variables. The position of each dot on the horizontal and vertical axis indicates values for an individual data point. Scatter plots are used to observe relationships between variables.

What is a scatter plot with means? ›

A mean-mean scatter plot shows a 2-dimensional representation of the differences between many means. The mean-mean scatter plot shows the mean of a group on the horizontal axis against the mean of the other group on the vertical axis with a dot at the intersection.

What is a scatter plot in Quizlet? ›

scatter plot. a graph with points plotted to show a possible relationship between two sets of data. correlation. connection between facts or events.

What is an example of a scatter plot? ›

The collected data of the temperature and humidity can be presented in the form of a scatter plot. Temperature is marked on the x-axis and humidity is on the y-axis.

What is a better definition of scatterplot? ›

Scatter plots are the graphs that present the relationship between two variables in a data-set. It represents data points on a two-dimensional plane or on a Cartesian system. The independent variable or attribute is plotted on the X-axis, while the dependent variable is plotted on the Y-axis.

What is a scatter plot kids definition? ›

scatter diagram, scatter plot. • a scatter plot is a diagram where points. are plotted to show the relationship (correlation) between two variables.

What is the main purpose of a scatter plot? ›

A scatter plot identifies a possible relationship between changes observed in two different sets of variables. It provides a visual and statistical means to test the strength of a relationship between two variables.

How to explain scatter plot results? ›

You interpret a scatterplot by looking for trends in the data as you go from left to right: If the data show an uphill pattern as you move from left to right, this indicates a positive relationship between X and Y. As the X-values increase (move right), the Y-values tend to increase (move up).

How do you describe a scatter plot of data? ›

A scatterplot displays the strength, direction, and form of the relationship between two quantitative variables. A correlation coefficient measures the strength of that relationship. Calculating a Pearson correlation coefficient requires the assumption that the relationship between the two variables is linear.

Why is it called a scatter plot? ›

A scatter plot is a type of data visualization that shows the relationship between different variables. This data is shown by placing various data points between the x- and y-axis. Essentially, each of these data points looks “scattered” around the graph, giving this type of data visualization its name.

What scatter plot implies? ›

A scatter plot can suggest various kinds of correlations between variables with a certain confidence interval. For example, weight and height would be on the y-axis, and height would be on the x-axis. Correlations may be positive (rising), negative (falling), or null (uncorrelated).

What is the difference between plot and scatter plot? ›

Yes, plot connects points in the order in which they appear in the input sequence; scatter does not connect, and has additional capabilities for varying the symbol, size, and color.

What is the use of scatter plot in real life? ›

The most common use of the scatter plot is to display the relationship between two variables and observe the nature of the relationship. The relationships observed can either be positive or negative, non-linear or linear, and/or, strong or weak.

What is a scatter graph simple? ›

The scatter diagram graphs pairs of numerical data, with one variable on each axis, to look for a relationship between them. If the variables are correlated, the points will fall along a line or curve. The better the correlation, the tighter the points will hug the line.

What is the definition of plot in math? ›

A plot is a graphical technique for representing a data set, usually as a graph showing the relationship between two or more variables.

What is the scientific definition of scatter? ›

In physics, scattering is a wide range of physical processes where moving particles or radiation of some form, such as light or sound, are forced to deviate from a straight trajectory by localized non-uniformities (including particles and radiation) in the medium through which they pass.

References

Top Articles
School Safety, Dyslexia Awareness Key Topics At Warsaw School Board Meeting
[PDF] Sunday, July 24, 2011 Volume 83, Number 3. Daily Bulletin - Free Download PDF
Milkhater05 Of
Mâcon: Stadtplan, Tipps & Infos | ADAC Maps
Craigslist Lititz
Can ETH reach 10k in 2024?
Lifestyle | Stewartstown-Fawn Grove Daily Voice
Antonym For Proton
Erste Schritte für deine Flipboard Magazine — Ein Blogger-Guide -
Craigslist Carpet Installers
Cold War Brainpop Answers
St Vrain Chain Gang
24/7 Walmarts Near Me
Magma Lozenge Location
Tamara Lapman
S10 Mpg
Unterschied zwischen ebay und ebay Kleinanzeigen: Tipps, Vor- und Nachteile
Weather Radar Los Angeles Noaa
Hannah Nichole Kast Twitter
Jinx Bl Chapter 26
14 Must-Know 9GAG Statistics: How Is It Doing in 2023?
Gsa Elibary
Winnie The Pooh Sewing Meme
Mapa i lokalizacja NPC w Graveyard Keeper - Graveyard Keeper - poradnik do gry | GRYOnline.pl
Union Supply Direct Wisconsin
Rooftop Snipers Unblocked Games Premium
Horoscope Daily Yahoo
Reisen in der Business Class | Air Europa Deutschland
Leccion 4 Lesson Test
Amarillos (FRIED SWEET PLANTAINS) Recipe – Taste Of Cochin
Did Taylor Swift Date Greg Gutfeld
Craigslist In Visalia California
Walmart Tune Up Near Me
Stony Brook Citrix Login
Dimmitt Range Rover
Optum Director Salary
Sam's Club Gas Price Mechanicsburg Pa
450 Miles Away From Me
Baroque Violin Shop Cincinnati Oh
Webworx Call Management
Antonin Balthazar Lévy
What to Know About Ophidiophobia (Fear of Snakes)
Flow Free 9X9 Level 4
Sparkle Nails Phillipsburg
Lbl A-Z
Lompoc Record Arrest Log
Family Court Forms | Maricopa County Superior Court
new hampshire real estate - craigslist
Dominos Nijmegen Daalseweg
Jimmy.johns Order Online
Platform Overview - Aria Systems
Latest Posts
Article information

Author: Aracelis Kilback

Last Updated:

Views: 5924

Rating: 4.3 / 5 (44 voted)

Reviews: 83% of readers found this page helpful

Author information

Name: Aracelis Kilback

Birthday: 1994-11-22

Address: Apt. 895 30151 Green Plain, Lake Mariela, RI 98141

Phone: +5992291857476

Job: Legal Officer

Hobby: LARPing, role-playing games, Slacklining, Reading, Inline skating, Brazilian jiu-jitsu, Dance

Introduction: My name is Aracelis Kilback, I am a nice, gentle, agreeable, joyous, attractive, combative, gifted person who loves writing and wants to share my knowledge and understanding with you.