Die Programmiersprachen in Data Science – Teil 2

Willkommen zurück zum zweiten Teil des Blogs “Die Programmiersprachen in Data Science”. Ich werde einfach direkt dort weitermachen, wo ich aufgehört habe.

SQL

“Die Abkürzung SQL steht für „Structured Query Language“ und ist eine Datenbanksprache zur Erstellung von Datenbankstrukturen in relationalen Datenbanken sowie zum Bearbeiten und Abfragen der darauf basierenden Datenbeständen.

Die Datenbanksprache SQL basiert auf der relationalen Algebra. Ihre Syntax ist recht einfach aufgebaut und semantisch an die englische Umgangssprache angelehnt.

In der Bezeichnung SQL ist das englische Wort “query” (Abfrage) enthalten. Mit Abfragen werden Daten in der Datenbank abgerufen und dem Benutzer mittels einer Anwendersoftware bereitgestellt.

SQL ist heute der gängige Standard, um Abfragen auf relationalen Datenbanken auszuführen. Im Gegensatz zu SQL steht die Sprache MDX. Sie wird in multidimensionalen Datenbanken verwendet.[1]

Aber was genau ist eine Datenbank?

“Eine Datenbank ist ein elektronisches Verwaltungssystem, das besonders mit großen Datenmengen effizient, widerspruchsfrei, dauerhaft umgehen muss und logische Zusammenhänge digital abbilden kann.

Es können Datenbestände aus verschiedenen Teilmengen zusammengestellt und bedarfsgerecht für Anwendungsprogramme  und deren Benutzern angezeigt werden.

Heutzutage kann eine Datenbank viele Informationen beinhalten. Komplexe Datenbanken werden oft in Warenwirtschaftssystemen (abgekürzt WWS oder WaWi) verwendet.

Datenbanken bilden damit den kompletten Prozessablauf vom Einkauf von Rohstoffen, über die Lagerhaltung von Zwischenerzeugnissen, bis hin zum Verkauf von fertigen Produkten, ab. Zum Beispiel kann ein Benutzer einer Datenbank, neben der Verwaltung von Lieferscheinen, auch Kundendaten oder Rechnungsdaten für den Verkauf erstellen, bearbeiten oder entfernen.”

Ein Datenbanksystem besteht aus zwei wichtigen Komponenten :

  1. Dem Datenbankmanagementsystem(DBMS), welches für die Verwaltung der Datenbank zuständig ist
  2. Die Datenbank an sich, welches die Informationen in Form von einzelnen Datensätzen abspeichert.[2]

SQL an sich besteht aus 4 prinzipiellen Subsprachen :

  1. DDL (Data Definition Language) wird benutzt um Datenstrukturen, die in der Datenbank gespeichert sind, zu definieren. DDL Statements ermöglichen das Erstellen, Verändern oder Löschen von individuellen Datenbankobjekten.
  2. DML (Data Manipulation Language) wird benutzt um Daten abzufragen und dann zu ändern. DML Statements ermöglichen das Auswählen, Einfügen, Updaten und löschen von Daten in den Tabellen.
  3. DCL (Data Control Language) wird benutzt um den Zugriff auf gespeicherte Daten in der Datenbank zu kontrollieren.
  4. TCL (Transaction Control Language) wird benutzt um die Verarbeitung von Transaktionen in der Datenbank zu kontrollieren.[3]

Warum SQL für Data Science?

Data Scientists arbeiten nun mal mit Daten. Es ist also nur von Vorteil, wenn sie wissen, wie man mit Datenbanken umgeht und wie man effektiv Daten extrahieren oder manipulieren kann, die sie dann für ihre weiteren Ziele benutzen werden.

 

Java

Java ist  “general-purpose, concurrent, object-oriented and class based.”[4]
“General-purpose” bedeutet, dass die Programmiersprache in vielen verschiedenen Anwendungsbereichen benutzt wird. [5]
“Concurrent” ist nebenläufige Programmierung. “Das Ziel der Nebenläufigen Programmierung ist es, Softwaresysteme mit mehreren voneinander unabhängig ausführbaren Kontrollflüssen zu realisieren. Die Petrinetze berücksichtigen in ihrer Methodik der Modellierung die Funktionalität der Nebenläufigkeit grundlegend. Für die Verwendung von Nebenläufigkeit sind u.a. Echtzeitanforderungen von Bedeutung.” [6]
objektoriente Programmierung hab ich schon bei Python erklärt und “class based” ist ein Stil der Objektorientierten Programmierung. Es gibt Klassen in Java, wovon man dann Objekte ableiten kann. Klassen können von anderen Klassen erben und somit deren Attribute oder Methoden erben.

Vergleich von den 4 Programmiersprachen

 

Java ist laut Statistik jetzt nicht unbedingt eine Programmiersprache, die unbedingt erlernt werden muss. Trotzdem ist sie noch gut dabei mit 21%. Dieses Diagramm ist das Ergebnis eines “Surveys” von Kaggle. Es wurden 23,859 Data Professionals in Oktober 2018 gefragt und 18,827 haben geantwortet. Die 3 wichtigsten Programmiersprachen laut denen sind Python, SQL und R. Von diesen Data Professionals gab es noch welche , die sich als Data Scientists identifizieren. Von diesen Data Scientists benutzten 93% Python, 54% SQL und 46% R.
Diese Testgruppe wurde auch befragt, welche Programmiersprache sie empfehlen würden für jemanden, der als Data Scientist anfangen möchte.
Die Ergebnisse zeigten, dass 3 von 4 Data Professionals Python empfohlen haben.[7]

Somit wird halt deutlich, welche Programmiersprachen für Data Science bevorzugt werden.

Quellen

[1] http://www.datenbanken-verstehen.de/sql-tutorial/sql-einfuehrung/
[2] http://www.datenbanken-verstehen.de/datenbank-grundlagen/datenbank/
[3] http://progopedia.com/language/sql/
[4] https://www.edureka.co/blog/what-is-java/
[5] https://www.technotification.com/2018/11/general-special-programming.html
[6] https://www.itwissen.info/Nebenlaeufige-Programmierung-concurrent-programming.html
[7] https://businessoverbroadway.com/2019/01/13/programming-languages-most-used-and-recommended-by-data-scientists/

Bildquellen

http://businessoverbroadway.com/wp-content/uploads/2019/01/programming_languages_used.png

http://businessoverbroadway.com/wp-content/uploads/2019/01/programming_languages_recommended.png

Print Friendly, PDF & Email

Bildquellen

  • programming_languages_recommended: http://businessoverbroadway.com/wp-content/uploads/2019/01/programming_languages_recommended.png

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.