{"id":15189,"date":"2018-05-28T07:26:09","date_gmt":"2018-05-28T05:26:09","guid":{"rendered":"http:\/\/pwiweb.uzh.ch\/wordpress\/?p=15189"},"modified":"2018-07-10T16:21:09","modified_gmt":"2018-07-10T14:21:09","slug":"textanalyse-von-urteilen-ein-erster-versuch","status":"publish","type":"post","link":"https:\/\/pwiweb.uzh.ch\/wordpress\/blog\/2018\/05\/28\/textanalyse-von-urteilen-ein-erster-versuch\/","title":{"rendered":"Textanalyse von Urteilen &#8211; ein erster Versuch"},"content":{"rendered":"<h2>K\u00f6nnen Urteile von Asylverfahren inhaltlich zusammengefasst werden und gibt es Inhalte die spezifisch mit L\u00e4nder korrelieren?<\/h2>\n<h3><strong>Mittels\u00a0<em>machen-learning<\/em> k\u00f6nnen grosse Korpora inhaltlich analysiert werden. Die Analyse von 15&#8217;537 deutschsprachigen Urteilen des Bundesverwaltungsgericht in punkto Asyl zeigen, dass sich regionale Konflikte in Form der Topics offenbaren.<\/strong><\/h3><p><strong>&#8222;Zu viel des Guten&#8220;<\/strong><\/p><p>Im Englischen wird das Akronym \u00abTMI\u00bb daf\u00fcr verwendet, wenn jemand zu viele Details erz\u00e4hlt, weil es einfach \u00abto much information\u00bb ist. Ebenso geht es einem, wenn man sich den Korpus betrachtet, den <a href=\"https:\/\/www.weblaw.ch\">weblaw.ch<\/a> f\u00fcr diesen Artikel freundlicherweise zur Verf\u00fcgung gestellt hat.\u00a0Nicht weil er zu viele Details beinhaltet, aber weil er schlicht riesig ist: 24&#8217;995 Urteile (seit 2006) des Bundesverwaltungsgerichts bez\u00fcglich Asylverfahren.\u00a0Die einzig M\u00f6glichkeit, gegen einen negativen Asyl- oder ein Nichteintretens-Entscheid des <a href=\"https:\/\/www.sem.admin.ch\/sem\/de\/home.html\">Staatssekretariats f\u00fcr Migration<\/a> vorzugehen ist die Beschwerde beim <a href=\"https:\/\/www.bvger.ch\/bvger\/de\/home\/das-bundesverwaltungsgericht\/organisation\/abteilungen\/abteilung-iv.html\">Bundesverwaltungsgericht<\/a>. Dieses entscheidet als letzte Instanz und dessen Urteile werden im folgenden Analysiert. Das Interesse liegt allerdings nicht auf einer Zusammenstellung relevanter Gesetzesartikel, sondern darauf, ob die Entscheide inhaltlich zusammengefasst werden k\u00f6nnen.<\/p><p><strong>Das Structural Topic Model<\/strong><\/p><p>Wenn mit einem derart grossen Korpus gearbeitet wird, ergeben sich durch die Hilfe von Computern neue M\u00f6glichkeiten. In diesem Fall, das Errechnen eines &#8222;Structural Topic Model&#8220; (STM).\u00a0Die Idee hinter einem STM<i>\u00a0<\/i>ist, dass verschiedene Topics den Inhalt von einem Dokument \u201eerzeugen\u201c. Das Topic ist dabei eine definierte Verteilung \u00fcber ein Vokabular von Worten.\u00a0Weiter wird angenommen, dass eine Kollektion von Dokumenten durch verschiedene Topics erzeugt wird. Dabei werden die Dokumente zu unterschiedlicher Wahrscheinlichkeit von den Topics generiert. Als Beispiel kann man sich eine Krimi-Abteilung in der Bibliothek vorstellen: alle B\u00fccher werden sich wohl um Kriminalit\u00e4t, T\u00e4ter, Opfer und Polizei drehen und entsprechend kommen W\u00f6rter assoziiert mit diesem Topic mit einer h\u00f6heren Wahrscheinlichkeit vor. Aber spielen einige B\u00fccher vielleicht in einer anderen Zeit, an einem anderen Ort oder befassen sich Inhaltlich mit einem spezifischen Thema was wiederum andere W\u00f6rter h\u00e4ufiger erscheinen l\u00e4sst im Buch A im vergleich zum Buch B. Also ist das einzelne Buch eine Mischung aus diesen verschiedenen Topics.<span class=\"Apple-converted-space\">\u00a0<\/span><\/p><p>Wie viele Topics gesch\u00e4tzt werden, wird in einem itterativen Prozess bestimmt. Dabei werden Modelle mit unterschiedlicher Anzahl Topics gesch\u00e4tzt und Modellparameter verglichen. In dieser Analyse wird ein Modell mit 6 Topics gesch\u00e4tzt.<span class=\"Apple-converted-space\">\u00a0<\/span><\/p><p>Wer sich mit der Methodik auseinandersetzen will, der findet auf <a href=\"https:\/\/www.structuraltopicmodel.com\">dieser Seite<\/a>\u00a0Links zu methodischen Papers, Packages und weitere Anwendungsbeispielen. Eine eher mathematische Einf\u00fchrung ist <a href=\"http:\/\/www.cs.columbia.edu\/~blei\/papers\/BleiLafferty2009.pdf\">hier<\/a> zu finden.<\/p><p><strong>Vom Urteil zu Daten<\/strong><\/p><p>Um Texte als Daten zu verwenden, m\u00fcssen sie zuerst pr\u00e4pariert werden: Zahlen und Satzzeichen werden entfernt und alles in Kleinbuchstaben umgewandelt. Weiter werden &#8222;Stoppworte&#8220; entfernt. Diese sind in der Regel inhaltslos (Pronomen oder &#8222;dass&#8220;). Im Fall von Urteilen sind dies aber auch Worte die Grunds\u00e4tzlich vorkommen und in dieser Analyse nicht von Interesse sind:\u00a0beispielsweise &#8222;Art.&#8220; oder &#8222;Ziff&#8220;.<\/p><p>Nebst dem Text gibt es noch die Metadaten. Diese kennt man beispielsweise als Autorschaft oder Speicherdatum. Im Fall von den Urteilen waren keine vorhanden. Sie sind allerdings f\u00fcr die Analyse von enormer Bedeutung: anhand dieser k\u00f6nnen die Dokumente in Gruppen aufgeteilt werden. F\u00fcr die Urteile wurden verschiedene Metadaten generiert. In dieser Analyse wird nur das Herkunftsland der beschwerdestellenden Person f\u00fcr die Gruppierung verwenden. Es musste die Annahme getroffen werden, dass das Herkunftsland der erstgenannten Person (falls mehrer beschwerdef\u00fchrende Personenen aufgef\u00fchrt sind) f\u00fcr die Klassifizierung des Dokuments gilt.<\/p><p>Um die Interpretation zu gew\u00e4hrleisten wurden nur in deutsch verfasste Dokumente f\u00fcr die Analyse verwendet. Dies sind allerdings immer noch 15&#8217;537 Urteile.<\/p><p><strong>Von den\u00a0Daten zu den Topics<\/strong><\/p><p>Nach dem die Vorbereitungen abgeschlossen wurden, konnte das eigentliche STM gerechnet werden. Die folgende Darstellung zeigt die 10 Worte, welche die h\u00f6chste Wahrscheinlichkeit besitzen von der jeweiligen Topic generiert zu werden.<\/p>\n<h1><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-16032\" src=\"http:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/probability_Word_topic-300x173.jpeg\" alt=\"\" width=\"838\" height=\"483\" srcset=\"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/probability_Word_topic-300x173.jpeg 300w, https:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/probability_Word_topic-768x444.jpeg 768w, https:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/probability_Word_topic.jpeg 987w\" sizes=\"auto, (max-width: 838px) 100vw, 838px\" \/><\/h1>\n<p style=\"text-align: right\">Daten: weblaw.ch ; eigene Berechnungen<\/p><p>Bestimmte W\u00f6rter \u2013 weil sie zwangsl\u00e4ufig h\u00e4ufig vorkommen \u2013 werden bei verschiedenen Topics relativ hoch eingestuft. \u00a0Nebst dem, dass W\u00f6rter mit hoher Auftretenswahrscheinlichkeit analysiert werden, kann dies auch f\u00fcr jene W\u00f6rter gemacht werden, welche am \u00abexklusivsten\u00bb sind f\u00fcr eine bestimmte Topic:<\/p><p>\u00abFREX\u00bb gewichtet\u00a0W\u00f6rter nach H\u00e4ufigkeit im ganzen Korpus und wie exklusiv sie f\u00fcr ein Topics sind. \u00a0 \u00a0 \u00a0 \u00a0\u00abLIFT\u00bb gewichtet W\u00f6rter in dem die H\u00e4ufigkeit durch die H\u00e4ufigkeit in anderen Topics geteilt wurde.<\/p><p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-16034\" src=\"http:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Screen-Shot-2018-06-24-at-13.47.02-300x283.png\" alt=\"\" width=\"1022\" height=\"964\" srcset=\"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Screen-Shot-2018-06-24-at-13.47.02-300x283.png 300w, https:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Screen-Shot-2018-06-24-at-13.47.02.png 556w\" sizes=\"auto, (max-width: 1022px) 100vw, 1022px\" \/><\/p>\n<p style=\"text-align: right\">Daten: weblaw.ch ; eigene Berechnungen<\/p><p><strong>Korrelation und Interpretation<\/strong><\/p><p>Was nun interessiert, ist, ob bestimmte Topics mit bestimmten Herkunftsl\u00e4ndern korrelieren. Da die vom Programm erstellten Grafiken allerdings sehr un\u00fcbersichtlich sind, k\u00f6nnen sie hier eingesehen werden: <a href=\"http:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Covariate_01.png\">Topic1;\u00a0<\/a><a href=\"http:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Covariate_02.png\">\u00a0Topic2<\/a>; <a href=\"http:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Covariate_03.png\">Topic3<\/a>; <a href=\"http:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Covariate_04.png\">Topic4<\/a>; <a href=\"http:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Covariate_05.png\">Topic5<\/a>, <a href=\"http:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Covariate_06.png\">Topic6<\/a>.<\/p><p>Eine Liste scheint hier aufschlussreicher. Allerdings werden einfachheitshalber nur die L\u00e4nder aufgef\u00fchrt, deren Korrelation (Mittelwert) ca. um die Werte 0.4 und 0.5 liegen:<br \/>\n<img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-16055\" src=\"http:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Screen-Shot-2018-06-24-at-16.15.40-234x300.png\" alt=\"\" width=\"883\" height=\"1132\" srcset=\"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Screen-Shot-2018-06-24-at-16.15.40-234x300.png 234w, https:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Screen-Shot-2018-06-24-at-16.15.40.png 555w\" sizes=\"auto, (max-width: 883px) 100vw, 883px\" \/><\/p>\n<p style=\"text-align: right\">Daten: weblaw.ch ; eigene Berechnungen<\/p><p>Zu erkennen \u00fcber die verschiedenen Topics ist, dass verschiedene Organisationen (beispielsweise die linksextremistische DHKP-C aus der T\u00fcrkei, die t\u00fcrkische Kurden-Partei HADEP sp\u00e4ter DEHAP- Topic 2; die FARC in Kolumbien, die syrische Partei der Demokratischen Union PYD &#8211; Topic 5) in den FREX-Worten auftauchen. Sie weisen auf die Fluchtgr\u00fcnde hin. Einerseits sind diese Organisationen in den Konflikten beteiligt gewesen und k\u00f6nnen Ausl\u00f6ser f\u00fcr die Flucht von Zivilbev\u00f6lkerung gewesen sein. Aber kann auch die Mitgliedschaft in einer Organisation den Fluchtgrund darstellen, wenn diese politisch verfolgt und beispielsweise eingesperrt werden. Diese Unterscheidung ist allerdings erst durch das lesen der Dokumente m\u00f6glich.<\/p><p>Es zeigt sich weiter, dass in den Topics regionale Konflikte zu erkennen sind, so beispielsweise in Topic \u00a06 die milit\u00e4rische Besetzung des Nordens von Sri Lanka. Der Konflikt (1983 bis 2009) war ein B\u00fcrgerkrieg zwischen den Liberation Tigers of Tamil Elam und den Regierungstruppen. \u00c4hnlich in Topic 4, mit dem das alte Jugoslawien als Herkunftsland korreliert. Hier werden auch die L\u00e4ndernamen Bosnien und Kosovo genannt, welche im Zuge der Aufl\u00f6sung Jugoslawiens in den 90er Jahren Kriege erlebten. In Topic 3 entspricht die Besatzung des Tibets durch China einem solchen regionalen Konflikt.<span style=\"color: #333333\"> Ebenso sind regionale Konflikte das Thema in Topic 2. Einerseits widerspiegelt sich die Situation der Kurden in der T\u00fcrkei durch das Auftreten der Worte: HADEP oder PKK &#8211; die kurdische Arbeiterpartei in der T\u00fcrkei. Andererseits\u00a0die Konflikte auf der arabischen Halbinsel &#8211; Syrien angezeigt durch die PYD, oder Iran und Jemen durch die hohe Korrelation mit der Topic.\u00a0<\/span>Als letztes, wenn auch nicht mehr so deutlich zeigt sich der regionale Bezug in Topic 1 zu afrikanischen L\u00e4ndern in den positiven Korrelationen.<\/p><p>In Topic 4 sind auch Worte wie Asylwiderwider, Wiedererw\u00e4gung oder Revision deutlich vertreten. Dies k\u00f6nnte ein Hinweis darauf sein, dass Staaten mit denen dieses Topic korreliert, heute als &#8222;Safe-Countries&#8220; angesehen werden und dies sich auch auf den Asylstatus auswirkt.<\/p><p>Wer sich vertieft f\u00fcr die Ergebnisse interessiert, kann sich <a href=\"https:\/\/tobiasackermann.shinyapps.io\/urteile\/\">hier<\/a> austoben. Man kann die wahrscheinlichsten Worte nach Topics detaillierter inspizieren oder welche L\u00e4ndernamen von welchem Topic \u00a0am\u00a0wahrscheinlichsten generiert werden.<\/p><p><strong>Fazit<\/strong><\/p><p>Die computerunterst\u00fctzte Textanalyse erm\u00f6glicht, dass grosse Korpora auf einmal verarbeitet werden k\u00f6nnen, aber die Interpretation der Resultate ist keine einfache Sache. Diese kann nicht dem Computer \u00fcberlassen werden. Die Topics korrelieren mit den Herkunftsl\u00e4ndern, aber die generierten Wortlisten m\u00fcssen detaillierter Betrachtet werden, als dies hier m\u00f6glich ist. Es zeigen sich aber bereits dass, die Dokumente inhaltlich zusammenfallen und eine substanzielle Interpretation der Topics m\u00f6glich ist.\u00a0Eine interdisziplin\u00e4re Analyse der Ergebnisse &#8211; beispielsweise mit einem\/einer HistorikerInnen oder ExpertInnen in puncto Asylrecht &#8211; k\u00f6nnte\u00a0dies\u00a0einen vertieften Einblick ergeben. Weiter ist die Bearbeitung der Daten hier noch nicht am Ende. Es gibt noch weitere Metadaten, welche auf ihre Auswertung warten.<\/p><p>&nbsp;<\/p><p><strong>Anmerkungen zum Blogbeitrag<\/strong><br \/>\nTitel:\u00a0Die Textanalyse von Urteilen &#8211; ein erster Versuch<br \/>\nTobias Ackermann (tobias.ackermann@uzh.ch)<br \/>\nMatrikelnummer: 10-528-784<br \/>\nPolitischer Datenjournalismus (Fr\u00fchlingssemester 2017)<br \/>\nDozierende: Dr. Bruno W\u00fcest, Alexandra Kohler \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0Abgabedatum: 27.05.2018 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 Daten: zur Verf\u00fcgung gestellt von www.weblaw.ch<br \/>\nAnzahl W\u00f6rter: 1136 (exkl. Titel und Lead, Grafikbeschriftungen) \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 Feature Image:\u00a0https:\/\/pxhere.com\/ro\/photo\/1154972<br \/>\nR-Script:\u00a0<a href=\"http:\/\/pwiweb.uzh.ch\/wordpress\/wp-content\/uploads\/2018\/05\/Verbessertes-Script.txt\">Script<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>K\u00f6nnen Urteile von Asylverfahren inhaltlich zusammengefasst werden und gibt es Inhalte die spezifisch mit L\u00e4nder korrelieren? Mittels\u00a0machen-learning k\u00f6nnen grosse Korpora inhaltlich analysiert werden. Die Analyse von 15&#8217;537 deutschsprachigen Urteilen des Bundesverwaltungsgericht in punkto Asyl zeigen, dass sich regionale Konflikte in Form der Topics offenbaren.&#8222;Zu viel des Guten&#8220;Im Englischen wird das Akronym \u00abTMI\u00bb daf\u00fcr verwendet, wenn [&hellip;]<\/p>\n","protected":false},"author":69,"featured_media":16076,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[26,346,347],"class_list":["post-15189","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-allgemein","tag-asyl","tag-textanalyse","tag-urteile"],"_links":{"self":[{"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/posts\/15189","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/users\/69"}],"replies":[{"embeddable":true,"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/comments?post=15189"}],"version-history":[{"count":50,"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/posts\/15189\/revisions"}],"predecessor-version":[{"id":16085,"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/posts\/15189\/revisions\/16085"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/media\/16076"}],"wp:attachment":[{"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/media?parent=15189"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/categories?post=15189"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/pwiweb.uzh.ch\/wordpress\/wp-json\/wp\/v2\/tags?post=15189"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}