Packages laden
list.of.packages <- c("plyr", "tidyr", "tidyverse","ggplot2", "ggthemes", "haven", "data.table", "readxl", "legislatoR", "dplyr", "RColorBrewer")
new.packages <- list.of.packages[!(list.of.packages %in% installed.packages()[,"Package"])]
if(length(new.packages)) install.packages(new.packages)
lapply(list.of.packages, require, character.only = TRUE)
Daten einlesen
path <- "abstimmungen_bt/abstimmungen.csv"
DATASET_FILE_1 <- "abstimmungen.RData"
if(!file.exists(DATASET_FILE_1)){
abstimmungen <- read_csv("data/abstimmungen.csv", locale = locale(encoding = "UTF-8"))
save(file=DATASET_FILE_1, abstimmungen)
}else{
load(DATASET_FILE_1)
}
filenames <- list.files(path = "~/Desktop/abstimmungen_bt/data_bt", pattern = ".csv", full.names = T)
read_csv_filename <- function(filename){
ret <- read.csv(filename, fileEncoding="UTF-8")
ret$Source <- filename #EDIT
ret
}
import.list <- ldply(filenames, read_csv_filename)
unique(import.list$Source)
data<-import.list %>%
mutate(filenames= sub("~/Desktop/abstimmungen_bt/data_bt/","", Source))
data$filenames
abstimmungen$filenames
data$filenames <- gsub(pattern="/Users/liviahofmann 1/Desktop/abstimmungen_bt/data_bt/", replacement = "", data$filenames)
Datensätze mergen
dataset_abstimmungen <- merge(abstimmungen, data, by = "filenames")
head(dataset_abstimmungen)
Datensatz bereinigen
names(dataset_abstimmungen)[names(dataset_abstimmungen)=="Name"] <- "Nachname"
names(dataset_abstimmungen)[names(dataset_abstimmungen)=="Bezeichnung"] <- "name"
dataset_abstimmungen[ , c("Titel", "Bemerkung")] <- list(NULL)
dataset_abstimmungen$name <- gsub(pattern="Dr. ", replacement = "", dataset_abstimmungen$name)
dataset_abstimmungen$name <- gsub(pattern="Frhr. Von ", replacement = "", dataset_abstimmungen$name)
dataset_abstimmungen$name <- gsub(pattern="h.c. ", replacement = "", dataset_abstimmungen$name)
dataset_abstimmungen$name <- gsub(pattern="\\s*\\([^\\)]+\\)", replacement = "", dataset_abstimmungen$name)
dataset_abstimmungen$name <- gsub(pattern="[A-Z]{1}[.]",replacement = "", dataset_abstimmungen$name)
LegislatoR Datensatz einlesen und mit Abstimmungen-Datensatz mergen
devtools::install_github("saschagobel/legislatoR")
library(legislatoR)
library(dplyr)
# Deutschland
deu_politicians <- get_core(legislature = "deu")
# welche Periode? Sessions 18-19 (2013-2021)
deu_politicians_sessions <- get_political(legislature = "deu")
head(deu_politicians)
# assign birthdate for members of the political parties into the environment
deu_birthdates_SPD <- semi_join(x = select(get_core(legislature = "deu"), pageid, birth),
y = filter(get_political(legislature = "deu"), party == "SPD"),
by = "pageid")$birth
deu_birthdates_CDU <- semi_join(x = select(get_core(legislature = "deu"), pageid, birth),
y = filter(get_political(legislature = "deu"), party == "CDU"),
by = "pageid")$birth
deu_birthdates_CSU <- semi_join(x = select(get_core(legislature = "deu"), pageid, birth),
y = filter(get_political(legislature = "deu"), party == "CSU"),
by = "pageid")$birth
deu_birthdates_AfD <- semi_join(x = select(get_core(legislature = "deu"), pageid, birth),
y = filter(get_political(legislature = "deu"), party == "AfD"),
by = "pageid")$birth
deu_birthdates_FDP <- semi_join(x = select(get_core(legislature = "deu"), pageid, birth),
y = filter(get_political(legislature = "deu"), party == "FDP"),
by = "pageid")$birth
deu_birthdates_Linke <- semi_join(x = select(get_core(legislature = "deu"), pageid, birth),
y = filter(get_political(legislature = "deu"), party == "DIE LINKE"),
by = "pageid")$birth
deu_birthdates_Grünen <- semi_join(x = select(get_core(legislature = "deu"), pageid, birth),
y = filter(get_political(legislature = "deu"), party == "BÜNDNIS 90/DIE GRÜNEN"),
by = "pageid")$birth
deu_birthdates_FDP <- semi_join(x = select(get_core(legislature = "deu"), pageid, birth),
y = filter(get_political(legislature = "deu"), party == "Fraktionslos"),
by = "pageid")$birth
# assign data for the 18th & 19th legislative session into the environment
deu_politicians_subset <- semi_join(x = get_core(legislature = "deu"),
y = filter(get_political(legislature = "deu"), session >= 18),
by = "pageid")
cld_content(legislature = NULL)
dataset_abstimmungen_bt_2013_2021 <- merge(deu_politicians_subset, dataset_abstimmungen, by = "name")
neues Datenset bereinigen
dataset_abstimmungen_bt_2013_2021[ , c("ethnicity", "religion", "country", "pageid", "wikidataid", "wikititle", "death", "birthplace", "deathplace", "Source", "AbgNr")] <- list(NULL)
names(dataset_abstimmungen_bt_2013_2021)[names(dataset_abstimmungen_bt_2013_2021)=="sex"] <- "Geschlecht"
dataset_abstimmungen_bt_2013_2021$Alter = as.numeric(difftime(Sys.Date(),dataset_abstimmungen_bt_2013_2021$birth, units = "weeks"))/52.25
dataset_abstimmungen_bt_2013_2021$Alter <- as.integer(dataset_abstimmungen_bt_2013_2021$Alter)
names(dataset_abstimmungen_bt_2013_2021)[names(dataset_abstimmungen_bt_2013_2021)=="name"] <- "Name"
names(dataset_abstimmungen_bt_2013_2021)[names(dataset_abstimmungen_bt_2013_2021)=="Fraktion.Gruppe"] <- "Partei"
dataset_abstimmungen_bt_2013_2021$Partei[dataset_abstimmungen_bt_2013_2021$Partei =="DIE LINKE."] <- "DIE LINKE"
dataset_abstimmungen_bt_2013_2021$Partei[dataset_abstimmungen_bt_2013_2021$Partei=="BÜNDNIS`90/DIE GRÜNEN"] <- "BÜ90/GR"
names(dataset_abstimmungen_bt_2013_2021)[names(dataset_abstimmungen_bt_2013_2021)=="birth"] <- "Geburtsdatum"
dataset_abstimmungen_bt_2013_2021$Geschlecht[ dataset_abstimmungen_bt_2013_2021$Geschlecht == "female" ] <- "1"
dataset_abstimmungen_bt_2013_2021$Geschlecht[ dataset_abstimmungen_bt_2013_2021$Geschlecht == "male" ] <- "0"
dataset_abstimmungen_bt_2013_2021 %>% mutate(Partei=ifelse(Partei=="CDU","CDU/CSU", Partei))
dataset_abstimmungen_bt_2013_2021 %>% mutate(Partei=ifelse(Partei=="CSU","CDU/CSU", Partei))
Datenanalyse
dataset_abstimmungen_bt_2013_2021$Abstimmungsverhalten <- ifelse(dataset_abstimmungen_bt_2013_2021$ja == 1 & dataset_abstimmungen_bt_2013_2021$nein == 0 & dataset_abstimmungen_bt_2013_2021$Enthaltung == 0 & dataset_abstimmungen_bt_2013_2021$ungültig == 0 & dataset_abstimmungen_bt_2013_2021$nichtabgegeben == 0 , "ja", "")
dataset_abstimmungen_bt_2013_2021$Abstimmungsverhalten <- ifelse(dataset_abstimmungen_bt_2013_2021$ja == 0 & dataset_abstimmungen_bt_2013_2021$nein == 1 & dataset_abstimmungen_bt_2013_2021$Enthaltung == 0 & dataset_abstimmungen_bt_2013_2021$ungültig == 0 & dataset_abstimmungen_bt_2013_2021$nichtabgegeben == 0 , "nein" , dataset_abstimmungen_bt_2013_2021$Abstimmungsverhalten)
dataset_abstimmungen_bt_2013_2021$Abstimmungsverhalten <- ifelse(dataset_abstimmungen_bt_2013_2021$ja == 0 & dataset_abstimmungen_bt_2013_2021$nein == 0 & dataset_abstimmungen_bt_2013_2021$Enthaltung == 1 & dataset_abstimmungen_bt_2013_2021$ungültig == 0 & dataset_abstimmungen_bt_2013_2021$nichtabgegeben == 0 , "Enthaltung" , dataset_abstimmungen_bt_2013_2021$Abstimmungsverhalten)
dataset_abstimmungen_bt_2013_2021$Abstimmungsverhalten <- ifelse(dataset_abstimmungen_bt_2013_2021$ja == 0 & dataset_abstimmungen_bt_2013_2021$nein == 0 & dataset_abstimmungen_bt_2013_2021$Enthaltung == 0 & dataset_abstimmungen_bt_2013_2021$ungültig == 1 & dataset_abstimmungen_bt_2013_2021$nichtabgegeben == 0 , "ungültig" , dataset_abstimmungen_bt_2013_2021$Abstimmungsverhalten)
dataset_abstimmungen_bt_2013_2021$Abstimmungsverhalten <- ifelse(dataset_abstimmungen_bt_2013_2021$ja == 0 & dataset_abstimmungen_bt_2013_2021$nein == 0 & dataset_abstimmungen_bt_2013_2021$Enthaltung == 0 & dataset_abstimmungen_bt_2013_2021$ungültig == 0 & dataset_abstimmungen_bt_2013_2021$nichtabgegeben == 1 , "nichtabgegeben" , dataset_abstimmungen_bt_2013_2021$Abstimmungsverhalten)
## Nur "ja" und "nein"-Stimmen behalten, "Fraktionslose" werden herausgefiltert
dataset_abstimmungen_bt_2013_2021 <- dataset_abstimmungen_bt_2013_2021[dataset_abstimmungen_bt_2013_2021$Abstimmungsverhalten %in% c("ja","nein"),]
dataset_abstimmungen_bt_2013_2021 <- dataset_abstimmungen_bt_2013_2021[dataset_abstimmungen_bt_2013_2021$Partei %in% c("SPD", "FDP", "CDU/CSU", "BÜ90/GR", "AfD", "DIE LINKE"),]
Plot: Wie stimmen Frauen im Vergleich zu Männern innerhalb der eigenen Partei ab?
percentages_women <- dataset_abstimmungen_bt_2013_2021 %>%
select(Partei, Geschlecht ) %>%
mutate(Geschlecht = case_when(Geschlecht == 0 ~ "männlich", Geschlecht == 1 ~ "weiblich")) %>%
group_by(Partei, Geschlecht) %>%
summarise(n = n()) %>%
group_by(Partei) %>%
mutate(perc=n/sum(n)*100)
percentages_women
percentages_women$Partei = factor(percentages_women$Partei, levels=c("DIE LINKE", "BÜ90/GR", "SPD", "FDP", "CDU/CSU", "AfD"))
gendergap_party <- ggplot(data = percentages_women) + aes(x = Geschlecht, fill = Geschlecht, y = perc)
gender_party <- gendergap_party + geom_col(position = "dodge") +
geom_text(aes(Geschlecht, label = sprintf("%.0f%%", perc)), position = position_dodge(0.9), vjust=-0.5, hjust = "center", size = 2) +
labs(title = "Der Gender Gap ist in konservativen Parteien größer als in liberalen Parteien", subtitle = "(Anteil Frauen und Männer im Deutschen Bundestag nach Parteien, in Prozent)", x = "Geschlecht", y = "Prozent") + facet_grid(~Partei)+
scale_x_discrete(labels=c("männlich" = "m", "weiblich" = "w")) + scale_y_continuous(labels = scales::label_percent(scale=1), limits = c(0,100)) +
theme_light() + theme(plot.title = element_text(face = "bold"), strip.background = element_blank(), strip.text = element_text(color = "black", face = "italic"), legend.position = "right", legend.title = element_blank()) + scale_fill_manual(values = c("lightblue3","indianred3"))
gender_party
Plot: Wie stimmen Frauen im Vergleich zu Männern innerhalb der eigenen Partei aufgrund ihres Alters ab?
percentages_age <- dataset_abstimmungen_bt_2013_2021 %>%
select( Geschlecht, Alter ) %>%
mutate(Geschlecht = case_when(Geschlecht == 0 ~ "männlich", Geschlecht == 1 ~ "weiblich")) %>%
mutate(age_group = case_when(Alter %in% seq(18,34) ~ "18-34", Alter %in% seq(35,50) ~ "35-50", Alter %in% seq(51,65) ~ "51-65", Alter %in% seq(66,100) ~ "66+")) %>%
group_by(Geschlecht, age_group) %>%
summarise(n = n()) %>%
group_by(age_group) %>%
mutate(perc=n/sum(n)*100)
percentages_age
gendergap_age <- ggplot(data = percentages_age) + aes(x = Geschlecht, fill = Geschlecht, y = perc) + geom_bar(stat = "identity",position = "dodge") +
geom_text(aes(Geschlecht, label = sprintf("%.0f%%", perc)), position = position_dodge(width = 1), vjust=-0.5)+
facet_wrap(~ age_group)+
labs(title = "Der Gender Gap ist über alle Altersgruppen hinweg sehr groß", subtitle = "(Anteil Frauen und Männer im Deutschen Bundestag nach Altersgruppen, in Prozent)", x = "Geschlecht", y = "Prozent") + scale_x_discrete(labels=c("männlich" = "m", "weiblich" = "w")) + scale_y_continuous(labels = scales::label_percent(scale=1), limits = c(0,100)) +
theme_light() +
theme(plot.title = element_text(face = "bold"), strip.background = element_blank(), strip.text = element_text(color = "black", face = "italic"), legend.position = "right", legend.title = element_blank()) + scale_fill_manual(values = c("lightblue3","indianred3"))
gendergap_age
Plot: Gibt es einen Unterschied zwischen den Parteien?
percentages_age_group <- dataset_abstimmungen_bt_2013_2021 %>%
select(Partei, Geschlecht, Alter ) %>%
mutate(Geschlecht = case_when(Geschlecht == 0 ~ "männlich", Geschlecht == 1 ~ "weiblich")) %>%
mutate(age_group = case_when(Alter %in% seq(18,34) ~ "18-34", Alter %in% seq(35,50) ~ "35-50", Alter %in% seq(51,65) ~ "51-65", Alter %in% seq(66,100) ~ "66+")) %>%
group_by(Partei, Geschlecht, age_group) %>%
summarise(n = n()) %>%
group_by(Partei) %>%
mutate(perc=n/sum(n)*100)
percentages_age_group
percentages_age_group$Partei = factor(percentages_age_group$Partei, levels=c("DIE LINKE", "BÜ90/GR", "SPD", "FDP", "CDU/CSU", "AfD"))
gendergap_age_group <- ggplot(data = percentages_age_group) + aes(x = age_group, fill = Geschlecht, y = perc)
gender_age_group <- gendergap_age_group + geom_col(position = "dodge") +
geom_text(aes(age_group, label = sprintf("%.0f%%", perc)), position = position_dodge(width = 1.5), vjust=-0.5, hjust = "center", size = 2) +
labs(title = "Der Gender Gap ist im mittleren Alter in konservativen Parteien am größten,\nwährend er sich in liberalen Parteien umdreht", subtitle = "(Anteil Frauen und Männer im Deutschen Bundestag nach Parteien, in Prozent)", x = "Altersgruppen", y = "Prozent") + facet_grid(~Partei) + scale_y_continuous(labels = scales::label_percent(scale=1), limits = c(0,50)) +
theme_light() + theme(plot.title = element_text(face = "bold"), axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1), strip.background = element_blank(), strip.text = element_text(color = "black", face = "italic"), legend.position = "right", legend.title = element_blank()) + scale_fill_manual(values = c("lightblue3","indianred3"))
gender_age_group