Dr. Andreas Beck & Prof. Dr. Julian Kölbel – Macht und Moral beim Investieren

Andreas Beck: Heute habe ich einen ganz prominenten Gast bei mir: Professor Dr. Julian Kölbel. Er hat die aufsehenerregendste Studie in der Fachwelt zum Thema Nachhaltigkeit geschrieben. Dabei hat er sich darauf konzentriert, zu untersuchen, warum die verschiedenen Ratingagenturen bei der Bewertung der Nachhaltigkeit von Wertpapieren zu so unterschiedlichen Ergebnissen kommen. Das ist wichtig, da die EU beschlossen hat nachhaltige Wertpapiere, nachhaltige Anlagelösungen in der Anlageberatung und im Risikomanagement bei institutionellen Investoren zu privilegieren. Insofern geht es hier darum, wer darf entscheiden, welche Unternehmen privilegiert mit Kapital versorgt werden? Seit August diesen Jahres müssen Anlageberater ihre Kunden nach ihren Präferenzen bei dem Thema Nachhaltigkeit befragen. Da niemand sagt, ihm ist es egal, wie es der Umwelt geht. Die EU und die Bankenaufsicht davon aus, dass in Zukunft fast nur noch nachhaltige Portfolios empfohlen werden. Also herzlich willkommen und vielleicht noch ein paar Worte zu dir.

Julian Kölbel: Ja, also ich freue mich sehr hier zu sein. Ich bin frisch gebackene Assistenzprofessor an der HSG in St. Gallen im Thema Estate Finance und die Frage, wie bewertet man Unternehmen bezüglich Nachhaltigkeit ist eine der großen Fragen in meinem Feld.

Andreas Beck: Folgendes Vorgehen haben wir uns gedacht: Erst erläutere ich kurz das Problem aus Sicht des Portfoliomanagements aus Sicht der Geldanleger, wenn man so will aus Sicht des direkt Entscheiders, die sich jetzt fragen in welche Richtung der Nachhaltigkeit sie gehen wollen, dann stellen wir ein paar grundsätzliche Probleme fest und da stellt sich die Frage, was dahinter steckt und da würde ich an Julian übergeben. Er wird dann die Kernpunkte seiner Studie darstellen. Die Studie ist 40.000-mal heruntergeladen worden, was eine Fachstudie ein fast unerreichbare Bestseller ist. Für die Frage worum geht es eigentlich, habe ich eine Folie vorbereitet von der OECD von 2020. Es geht darum, dass Unternehmen mit der Kapitalversorgung privilegiert werden, also günstiger und besser an Kapital kommen sollen, wenn die nachhaltig sind. Wer soll entscheiden, was nachhaltig ist? Das ist eine wahnsinnig komplexe Frage. Ratingagenturen haben sich daher auf den Weg gemacht, das zu entscheiden. Ratings sind skalierbare Geschäfte. Es kommt immer zu einem Oligopol. Wenige Player machen den Markt. Das haben wir auch hier schon. Jetzt würde man erwarten, wenn ich das in neutrale Hände gebe, dass das ähnlich funktioniert wie bei einem Kreditrating sprich, welches Nachhaltigkeitsrating ein Unternehmen bekommt, hängt vor allem von der Ratingagenturen ab und nicht vom Unternehmen. Die OECD hat eben herausgefunden, dass das nicht so ist und das anhand von zwei Grafiken illustriert. Links sehen wir verschiedene Unternehmen Amazon, Walmart und andere. Rechts sieht man das Kreditrating, das sie bekommen. Was man hier erkennen kann ist, dass die verschiedenen Ratingagenturen bei der Bewertung der Kreditwürdigkeit der Unternehmen zu ähnlichen Ergebnissen kommen. Anders formuliert: Welches Kreditrating ein Unternehmen bekommt, hängt offensichtlich vom Unternehmen ab. Auf der linken Seite sieht man jetzt die Nachhaltigkeitsrating, ESG Rating genannt, von fünf verschiedenen Ratingagenturen. Das sieht aus, als hätte jemand gewürfelt, so bunt ist es gemischt. Man sieht letztendlich nichts anderes, als zu welchem Nachhaltigkeitsrating ein Unternehmen kommt, hängt vor allem von der Ratingagentur ab und nicht vom Unternehmen. Das bedeutet konkret für mich als Portfoliomanager zum Beispiel, wenn ich mich Investoren anfragen ihr Portfolio umzubauen in Richtung Nachhaltigkeit und ich betrachte beispielsweise den HDAX, also die 110 größten börsennotierten deutschen Unternehmen, dann hängt das Ergebnis, welche Aktien ich auswählen darf vor allem davon ab, welche Nachhaltigkeit-Ratingagentur zum Zuge kommt. Ich illustriert das mal am Beispiel mit aktuellen Daten von drei Ratingagenturen, die alle drei über einen ETF, also über einen Index Fonds transparent investierbar sind. In der linken Spalte sieht man die deutschen Unternehmen, die von einem dieser drei Ratingagenturen als nachhaltig bewertet worden sind. Die das Qualitätsurteil gut bekommen haben und privilegiert mit Kapital versorgt werden. Von den 110 Unternehmen bleiben immerhin 35 übrig. Damit kann man als Portfoliomanager noch arbeiten. Damit kann man noch ein diversifiziertes Portfolio bauen. Aber schaut man sich die unterschiedlichen Ergebnisse an, dann stellt man überraschenderweise fest, dass die Schnittmenge der drei Ratingagenturen leer ist. Es gibt kein Unternehmen in Deutschland, welches in allen drei Nachhaltigkeitsindexfonds wäre. Das ist schon ein sehr überraschendes Ergebnis. Man hätte zumindest ein Unternehmen erwartet. Es gibt mehrere Gründe, die da einfließen. Manche Gründe sind auch technischer Natur. Aber im Großen und Ganzen liegt es schon daran, dass diese Ratingagenturen offensichtlich sehr unterschiedlich arbeiten. Für die Details ist jetzt der ideale Zeitpunkt an Julian zu übergeben. Er hat das erste Mal 2018 angefangen, mit einem Team, sich mal genauer anzuschauen, was diese Ratingagenturen machen und warum die Ergebnisse so unterschiedlich sind.

Julian Kölbel: Die Studie heißt “Aggregate Confusion: The Divergence of ESG Ratings” und wurde in Zusammenarbeit mit zwei Kollegen vom MIT Roberto Rigobon und Florian Berg erarbeitet. Die Idee ist zustande gekommen, als ich einen Forschungsaufenthalt am MIT gemacht habe. Wir haben auch mit ESG Ratings gearbeitet und festgestellt, dass je nachdem welches Rating man für die Analyse benutzt, kommen deutlich andere Dinge heraus. Man wundert sich dann, warum es einmal so und einmal so geratet wird. Da haben wir gedacht “Das ist doch etwas, den wir auf den Grund gehen müssen” und haben diese Ratings verglichen. Man muss einfach verstehen, warum das so ist. Wenn man nicht versteht, warum es so ist, dann ist es einfach, dann steckten man fest. Diese ersten Grafik, die wir gemacht haben, da haben wir diese schöne Wolke, wir nennen es den Konfetti-Plott, weil es so aussieht, als hätte jemand eine Konfettibombe losgelassen hätte und das zeigt das Verhältnis von den verschiedenen ESG Ratings zueinander. Das muss man natürlich ein bisschen aufarbeiten. Erstmal haben die verschiedenen Skalen. Manche raten von eins bis zehn, anderen eins bis 100, bei manchen sind die Skalen umgedreht. Das muss man alles etwas vergleichbar machen. Hier ist es so, dass eine durchschnittliche Firma eine Null bekommt und die Standardabweichung also wie weit es dann darum streut ist auf 1 normiert. Unten haben wir ein Rating als Benchmark verwendet, das ist das Sustainalytics, das ist eine von den sehr bekannten Ratingagenturen und dann alle anderen in jeweils verschiedenen Farben dazu geplottet. Wenn die perfekt übereinstimmen würden, würde man eine Diagonale sehen. Was man jetzt sieht ist es eben diese Konfettiwolke und ich denke, man sieht zwei Dinge. Einerseits sieht man schon, dass es streut, aber es ist schon eine Tendenz da. Ich glaube, die Aussage, dass ESG Ratings sich häufig komplett widersprechen, die kann man eigentlich nicht mit den Daten stützen. Es gibt selten den Fall, dass ein ESG Rater, sagt diese Firma ist top und der andere sagt, nein, die ist absolut katastrophal. Diese krasse Divergenz gibt es nicht. Wenn man links oben und rechts unten schaut, da gibt es wenig Punkte. Es gibt schon eine Tendenz, dass wenn das Analyticsrating besser ist, sind die anderen tendenziell auch besser. Trotz allem streut es weit. Wenn man sich jetzt zum Beispiel die Null auf der Vertikalen ansieht, also eine durchschnittliche Firma gemäß Austainalytics, sieht man gut, dass es da Firmen, die bei +2 und bei -2 sind. Das sind schon sehr gute und sehr schlechte Ratings. Zusammenfassend kann man sagen, dass es sehr schwierig ist, wenn man diese verschiedenen Ratings sich anschaut zu sagen, ob eine Firma im Durchschnitt ist oder besser. Da gibt es schon eine große Bandbreite. Wenn man nachher Listen erstellt und sortiert, welche reinkommen und welche nicht, dann können diese Unterschiede schon mal dazu führen, dass eine Firma hier auf der Liste landet und auf der andere nicht. Das so zum Einordnen. Wenn ich noch kurz den Vergleich mit Credit Ratings ansprechen kann. Der liegt natürlich nahe, weil die auch Ratings genannt werden. Ich denke, es gibt einen sehr wichtigen Unterschied. Bei Credit Ratings kommt irgendwann in der Zukunft ein Zeitpunkt, wo man sieht, ob sie richtig lagen. Also eine Firma, die permanent ein sehr gutes Credit Rating bekommt und dann irgendwann bankrott geht, da wird man dann Fragen stellen. Was haben die Credit Raters dort gemacht? Auf einen Analyst, der permanent daneben liegt, hört niemand mehr. Es gibt diese Realisierung, die machen eigentlich Vorhersagen. Die ESG Raters machen keine Vorhersagen. Es gibt nie den Punkt, wo man nicht eindeutig sagen kann, diese Firma ist offensichtlich in Wahrheit sehr gut oder sehr schlecht bezüglich ESG. ESG bleibt immer eine Einschätzung. Es gibt keinen Marktmechanismus, der das korrigiert über die Zeit. Das ist ein ganz wichtiger Fakt, um das zu vergleichen.

Andreas Beck: Aus Sicht des Portfoliomanagements ist der Vergleich trotzdem sehr sinnvoll, weil die Kreditratingagenturen eine unglaubliche gesellschaftliche Macht haben, da die darüber entscheiden, welche Kapitalkosten Unternehmen haben bei der Fremdfinanzierung. Die Nachhaltigkeitratingagenturen bekommen jetzt regulatorisch bedingt eine ähnliche Macht bei der Frage, welche Kapitalkosten Unternehmen haben. Deswegen ist das, was du sagst eher ein Alarmsignal, weil es gibt nicht mal mehr eine ex post Möglichkeit zu erkennen, wo Humbug betrieben wurde.

Julian Kölbel: Da gebe ich dir Recht. Das ESG Rating ist immer wichtiger geworden über die letzten Jahre. Am Anfang hat man das vielleicht auch so ein bisschen ignoriert. Jetzt sind sie plötzlich da und haben Relevanz. Firmen müssen sich überlegen, wie sie in diesen Ratings dastehen. Das hat durchaus auch Konsequenzen für die Kapitalversorgung. Wie groß die sind, ist, denke ich noch ein bisschen eine Forschungsaufgabe. Das Problem ist, dass es schwierig, ist definitiv zu sagen, ob jemand falsch lag. Das ist eine Zusatzsorge. Gleichzeitig erklärt das ein bisschen, warum die Divergenz so groß sein kann. Auf der nächsten Grafik kommen wir darauf zu sprechen, warum das so ist. Es gibt in unseren Augen drei wesentliche Dingen, die man anschauen muss, um überhaupt die Struktur von ESG Ratings zu verstehen und auch, warum sie unterschiedlich sind. In der Mitte haben wir eine Reihe von Attributen. ESG bedeutet ja Environment, Social und Governance. Das sind schon mal drei Bereiche und innerhalb dieser hat man auch wiederum Unteraspekte und letztlich konkrete Attribute. Bei E wie Environment ist natürlich eine offensichtliche Sache die CO2-Emissionen einer Firma. Also wie viel Tonnen CO2 Äquivalente emittiert eine Firma über ihren gesamten Geschäftsbereich pro Jahr. Das wäre dann so ein konkretes Attribut. Eine Zahl, die ich messen kann. ESG Ratings sind typischerweise aufgebaut aus hunderten, wenn nicht gar über tausenden solcher Zahlen konkreten Indikatoren, die ein bestimmtes Attribut messen sollen. Das sind diese weißen Kreise in der Mitte. Der erste Punkt ist, welche Attribute wähle ich aus als Grundlage von meinem Rating. Da gibt es eine große Anzahl von möglichen Attributen. CO2 Emissionen sind jetzt offensichtlich, aber es gibt andere Dinge wie zum Beispiel wie viel Steuern bezahlt eine Firma. Da kann man argumentieren, dass das ins ESG Rating gehört oder nicht. Dann gibt es natürlich im sozialen Bereich eine Reihe von Faktoren wie Arbeitsbedingungen, Behandlung von Frauen und Minderheiten. Es gibt eine große Reihe von Attributen, die man anschauen kann und jedes Rating trifft eine Auswahl. Diese Auswahl ist unterschiedlich. Manche schauen beispielsweise Steueraufkommen an als ein Indikator im Rating, andere schauen das nicht an. Da hat man schon den ersten Punkt, warum Ratings unterschiedlich sein können. Der zweite Punkt ist, welches Gewicht jedes Attribut im Rating hat. Man sieht hier das Erste hat ein blaues und ein rotes Rating und bei den Grünen ist ein Unterschied im scope, also was wurde ausgewählt. Das Zweite ist angenommen, es gibt nur rot und blau, dann haben sie die gleichen Attribute ausgewählt, dann bekommt jetzt jedes Attribut ein Drittel Gewicht, alle sind gleich gewichtet oder ist vielleicht eins 50 Prozent, die anderen je 25-mal. Man kann sich zum Beispiel fragen, ob Umwelt vielleicht 50 Prozent zählen soll, Sozial und Governance je 25. Da gibt es keine naturwissenschaftlich festgelegte Regel, wie das sein soll. Das ist eine Werteurteilung. Je nach Industrie wird es häufig variiert. Bei den Minen Firmen beispielsweise ist spielt Umwelt eine größere Rolle. Bei den Softwarefirmen ist vielleicht mehr der soziale Bereich. Logischerweise treffen hier auch verschiedene ESG Rater verschiedenen Entscheidungen und haben deswegen unterschiedliche Zahlen am Ende im Aggregat. Diese zwei Unterschiede sind valide Meinungsverschiedenheiten. Da kann man sicher trefflich darüber streiten, wie viel Prozent sollte jetzt Environment für ein Gewicht haben oder gehören Steuern rein oder nicht. Da gibt es wie keine wahr oder falsch. Es gibt aber noch einen dritten Grund und der liegt wirklich im Measurements. Das ist, dass man eigentlich wirklich das Gleiche messen möchte, aber aufgrund der angewendeten Methoden zu anderen Maßzahlen kommt. Ein gutes Beispiel dafür ist, dass vieles in der ESG Welt auf freiwillig offen gelegten Zahlen beruht. Momentan bieten zwar viele Firmen eine Zahl zum Beispiel für ihre scope 1 Emissionen an und schreiben das in ihrem Report, aber es ist grundsätzlich freiwillig. Es ist auch nicht so kritisch, wenn da ein Fehler unterläuft. Also kann erstens sein, dass kleine Fehler schon in dem Reporting sind, aber das größere Problem ist, dass es natürlich viele Firmen gibt, die diese Zahl nicht bieten. Dann muss der ESG Rater eine Schätzung machen oder sie entscheiden sich die Zahl aus der Bewertung zu lassen. Dann müssen sie eine Null einsetzen oder sie müssen das Gewicht davon reduzieren. Das ist jetzt ein gutes Beispiel, warum dann im konkreten Fall zum Beispiel zwei Schätzungen ganz anders sind. Dann sind wir bei den drei Punkten, warum das differieren kann. Das eine ist die Auswahl der Attribute, scope, das Zweite ist die Gewichtung und das Dritte ist die Messung selbst auf Ebene der einzelnen Indikatoren. In diesem Framework sind wir an die Daten gegangen und haben einfach sortiert. Das sind die abschließenden aggregierten Ratings und dann haben wir auch die ganzen zugrunde liegenden Daten angefragt. Die Ratingagenturen waren so freundlich uns das größtenteils zu liefern (bis zu einer relativ guten Aggregierungsebene). Wir hatten da pro Rata etwas zwischen ca. 40 und 250 Indikatoren, die wir natürlich sortieren mussten. Also 40 Verso 250, da muss man entscheiden, was mehr oder weniger äquivalent ist zu dem. Dann haben wir eine Taxonomie gebaut, die letztlich bei 64 issue rausgekommen ist. Diese Indikatoren haben wir dann sortiert und die Ratings synthetisch repliziert. Wir haben gesagt hier ist das Original, hier ist sind die gleichen Daten sortiert nach unserer Methode und jetzt replizieren wir die Ratings auf dieser Basis. Dann hatten wir das Framework zusammen, um zu sagen, wo die Unterschiede jetzt herkommen. Um das konkret zu machen, würde ich auf den nächsten Slide gehen. Da sieht man rechts und links zwei rote Balken. Das ist also das Original-Rating auf der linken Seite im Fall von refinitiv und auf der rechten Seite für KLD. Das ist ein Rating für barrick Gold eine Minen Firma und wie man sieht, ist da erst mal ein großer Unterschied. Links ist es plus 0,5, rechts ist es minus eins. Das ist auf der Skala ein starker Unterschied. Jetzt konnten wir das aufschlüsseln. Dieser erste kleine braune Balken daneben, das ist unser Fehler. Wir können dass nicht ganz mit dem Originalrating machen, sondern mit unserer synthetischen Version, die noch unser Framework reinpasst. Wir machen da jeweils einen kleinen Fehler, aber er ist nicht besonders groß. Dazwischen in den drei Farben sieht man in diesem Wasserfall Diagramm eben erst den scope also das sind Unterschiede, die wegen unterschiedlicher Auswahl der Attribute auftreten, zweitens das Measurement, unterschiedliche Messung für die gleiche Sache und drittens die Gewichtung in pink. Also blaues Measurement, pink ist weight. Wenn man da jetzt in der Mitte mal rausgreift ist, der größte Balken, ist Remuneration also ein Urteil der ESG Ratingagentur darüber, wie angemessen die Remuneration des Topmanagements ist. Da sieht man, hier hat KLD eine deutlich negativere Sicht darauf. In diesem konkreten Fall ist, das der eine Punkte den größten Unterschied macht. Es gibt auch noch andere Aspekte, die sich teilweise auch gegenüber aufheben und eine der interessanten Insights fand ich eigentlich in der Arbeit, wenn sich zwei ESG Ratings einig sind im Aggregat heißt das nicht unbedingt, dass sie sich hinten dran auch über alles einig sind. Es kann auch einfach gut sein, dass sich die unterschiedlichen Ansichten ausgleichen und dann beim gleichen Durchschnitt rauskommen. Ich hoffe was hängen geblieben ist, ist, dass es ist im Wesentlichen drei Gründe gibt. Das ist dieses scope Auswahl der Attribute, Gewichtung und Measurement. Letzteres verursacht die Hälfte der Unterschiede, die wir in unserem Sample beobachten. Das ist das größte Problem. Das ist problematisch, weil es auch das schwierigste Problem ist. Das bedeutet, das wirklich also die Basis von diesem Assesments sehr viel rauschen drin ist und da braucht es einfach noch Lösungen und viel Arbeit, um das auf eine Basis zu stellen, die so solide ist, das man eine europaweite Regulierung aufbauen kann, die wirklich konsequenten ist.

Andreas Beck: Das sieht jetzt der Leihe nicht, aber die Methode im Hintergrund so zu konstruieren, dass ihr das redesignen konntet, ist natürlich schon ein großer Wurf gewesen. Ich glaube, dass es auch einen Grund für den Erfolg der Arbeit, die ihr da geleistet habt. Eigentlich haben diese Ratingagenturen kein Interesse daran, so transparent vergleichbar zu werden, oder?

Julian Kölbel: Ja, das stimmt. Die sind kommerzielle Unternehmen, die wollen etwas verkaufen. Grundsätzlich leisten die einen wichtigen Dienst, der nachgefragt wird. Jetzt ist deren Wettbewerbssituation nicht darauf ausgelegt, das transparenteste Rating zu sein. Das ist, glaube ich, auch ein Marktversagen Stück weit. Es ist einfach so, wenn sie alles offenlegen würden, dann könnten die anderen einfach abkupfern. Das ist also etwas, was wir systemisch anschauen müssen, wie man das am besten löst.

Andreas Beck: Dazu ein paar Fragen: Hast du eine klare Meinung? Es muss nicht Daten gestützt sein. Sehr stark in der Diskussion ist immer wieder das Unternehmen Teslas, das jetzt von smp herausgeworfen wurde aus ihrem Nachhaltigkeitsindex und bei msci immer noch den Automobilmarkt bestimmt. Das einzige relevante Unternehmen, welches hoch gewichtet ist im Nachhaltigkeitsrating von MSI. Wie schätzt du das ein? Hat sich das überrascht, dass die rausgeflogen sind? Und glaubst du das MSI die auch bald hinauswerfen?

Julian Kölbel: Das hat mich schon auch erstmal überrascht. Das Erste, was ich sehr interessant fand, war, wie Elon Musk sich darüber geärgert hat. Das beweist, dass es doch eine gewisse Relevanz hat diese Ratings. Es ist ihm offensichtlich nicht egal. Wir haben gesehen, dass es Unterschiede gibt. Die gewinnt natürlich sind die der Pionier bei der Elektromobilität. Das hat auch der Umwelt Seite einfach Riesenvorteile in die Welt gebracht. Das kann keiner abstreiten. Die sind in dem absoluten Leader bei den Elektrovehikeln. Jetzt ist die Frage: Wie gewichtet man das? Sagt man, das ist sowieso das Wichtigste bei den Autofirmen oder sagt man soziale und Governance Aspekte sind auch sehr wichtig? Da denke ich, dass man bei Governance schon gewisse Bedenken haben bei Tesla. Ich kann die nicht im Detail beurteilen, aber es gab Medienberichtet, dass auch in den in den Fabriken nicht alles ideal läuft mit den Mitarbeitern. Ich denke, daran liegt hauptsächlich, dass s&b Global eben etwas höher gewichtet hat. Auch noch interessant zu wissen ist, dass sie, glaube ich, zehn Prozent von ihrem Universum in diesen Index aufnehmen bei s&p global. Ich weiß nicht genau, wie es bei MSCI ist, aber das ist natürlich auch noch, was man berücksichtigen muss. Ich glaube eigentlich nicht, dass MSI dort jetzt demnächst nach zieht. Das wäre wirklich überraschend. Ich denke, es liegt schon hauptsächlich an dieser Gewichtung Geschichte.

Andreas Beck: Es hätte auf jeden Fall viel Einfluss auf den Index, wenn MSCI nachziehen würde. Jetzt noch eine zweite ähnliche Frage. Was mich im Portfoliomanagement besonders überrascht, ist, das eine der großen Ratingagenturen ISS deutsche Staatsanleihen deutlich besser bewertet als amerikanische Staatsanleihen und MSI gibt aber amerikanischen Staatsanleihen ein deutlich besseres Rating als deutschen Staatsanleihen. Ist dir das mal aufgefallen?

Julian Kölbel: Nein, das war mir nicht bewusst. Ist interessant zu wissen, dass ISS aus Deutschland kommt und MSI eine us amerikanische Institution ist. Ob es jetzt damit zu tun hat, weiß ich nicht, aber ich denke das schon. Was man sieht ist, dass die Methoden über die Zeit gewachsen sind und so eine nationale Kultur kann schon abfärben, aber das müsste man jetzt noch mal ganz im Detail anschauen.

Du hast Fragen?

Dr. Andreas Beck & Prof. Dr. Julian Kölbel – Macht und Moral beim Investieren

Oder melde dich ganz einfach bei uns