R substring(): So extrahieren Sie Informationen aus Strings
R substring() eignet sich zur Datenvorbereitung für Analysen, zum Beispiel wenn Sie Textdaten in besser strukturierte Formate umwandeln müssen.
Was genau ist R substring()?
In R ist substring() eine eingebaute Funktion, die Teilzeichenketten aus einem bestehenden String auswählt. Sie ermöglicht, den Start- und Endindex präzise zu definieren, um den gewünschten Teil der Zeichenkette zu isolieren. R substring() findet vielfältige Anwendungen, von der Datenbereinigung bis zur Extraktion spezifischer Informationen aus unstrukturierten Textdaten. Sie können die Methode beispielsweise verwenden, um Postleitzahlen aus Adressen zu bestimmen oder Datumskomponenten aus Zeitstempeln zu extrahieren.
Die substring()-Funktion in R ist flexibel in Situationen, in denen eine feine Kontrolle über die Position und Länge der selektieren Teilzeichenkette erforderlich ist. Außerdem wird die Methode häufig in Datenanalysen und zur Vorbereitung von Textdaten für weiterführende Verarbeitungsschritte eingesetzt, um die Daten zu strukturieren.
Die Syntax der substring()-Funktion in R
Die R substring()-Funktion gibt eine extrahierte Teilzeichenkette zurück. Sie akzeptiert folgende Parameter:
substring(x, first, last)
Rx
: Dies ist die Zeichenkette, aus der die Teilzeichenkette extrahiert werden soll.first
: Hierbei handelt es sich um den Index des ersten Zeichens in dem zu extrahierenden String.last
: Das ist der Index des letzten Zeichens in der zu extrahierenden Teilzeichenkette.
Hier ist ein konkretes Beispiel:
original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
RWir selektieren den Teilstring von Index 1 bis Index 4 in der Zeichenkette "data analysis"
und speichern ihn in der Variablen result
. Die Ausgabe lautet "data"
.
Praktische Anwendung von R substring()
Bei der Bearbeitung von Datensätzen müssen Sie häufig bestimmte Teile von Zeichenketten auswählen, manipulieren oder entfernen. Dies können Sie mit der substring()-Funktion in R auf unterschiedliche Weise tun.
Zeichen mit substring() extrahieren
Sie dürfen die Indizes in Variablen speichern und als Parameter an R substring() übergeben.
# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
RDieses Beispiel demonstriert die Funktion von substring() in R. In der Originalzeichenkette "Data Science"
wird ein Teilstring ab der Position 6 bis 12 selektiert. Dabei legen wir die Variablen start_index
als den Startindex und end_index
als den Endindex für die Extraktion fest. Die Ausgabe des Programms zeigt die extrahierte Teilzeichenkette, die in diesem Fall "Science"
ist. Der Endindex-Wert von 12 ist inklusiv, daher ist das Zeichen an der Position 12 in dem Teilstring enthalten.
Strings mit der substring()-Funktion in R manipulieren
Wir erstellen einen Datenrahmen df
, der die IDs, das Alter und den Beruf enthält. Die substring()-Funktion verwenden wir, um in der Spalte "ID"
an der zweiten Position jeder Zeichenkette ein Leerzeichen einzufügen.
# Creating a sample data frame
df <- data.frame(
ID = c("01235", "02345", "04531"),
Age = c(25, 30, 22),
Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space at the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
RHier dient die R-substring()-Funktion dazu, die erste Ziffer jeder Nummer (substring(df$ID, 1, 1
) und den Rest der Nummernfolge an der zweiten Position (substring(df$ID, 2)
) zu extrahieren. Das Leerzeichen wird dann mit R paste zwischen diesen beiden Teilen eingefügt. Das Ergebnis erscheint in der ID
-Spalte des Datenrahmens.
Die Ausgabe zeigt:
Modified Data Frame:
ID Age Occupation
1 0 1235 25 Engineer
2 0 2345 30 Doctor
3 0 4531 22 Teacher
RFür das Arbeiten mit Strings in R empfehlen wir Ihnen außerdem das Tutorial zu R gsub und sub aus unserem Ratgeber.
- Flexibel: Hosting, das jedem Website-Traffic standhält
- Verlässlich: Inklusive 24/7-Support und persönlicher Beratung
- Sicher: Kostenloses SSL-Zertifikat, DDoS-Schutz und Backups