[Technik] KI Eugen Goostman besteht Turing-Test

Eugen Goostman hat als erster Computer den Turing-Test bestanden.

Mehr als 33 Prozent der Jury-Mitglieder konnte die KI in einem Test der University of Reading davon überzeugen, es handele sich bei ihr um den 13jährigen Jungen Eugen Goostman. Zur diesjährigen Jury gehörten unter anderem Robert Llewellyn, der in der TV-serie Red Dwarf den Roboter Kryten spielte, sowie Lord Sharkey, der sich um die posthume Rehabilitation Alan Turings kümmerte. In einem vergleichbaren Test 2008, der ebenfalls von der University of Reading durchgeführt wurde scheiterten noch alle Rechner. Die bis dahin erfolgreichste Software konnte lediglich 25 Prozent der Jury-Mitglieder überzeugen.

In einer jeweils fünf minütigen Unterhaltung, die Mitglieder der Jury unter anderem mit Großrechnern führten, konnte Eugen Goostman mehr als ein Drittel davon überzeugen, dass er ein 13jähriger Junge sei. Laut , von der University of Reading in Großbritannien, sei dies das erste Mal, dass der wahre Turing-Test bestanden wurde. In bisherigen Tests seien die Fragen oder zumindest Themengebiete vorgegeben gewesen. Eugen habe im Gegensatz zu den bisherigen Tests beliebige Fragen beantworten können und damit als erster Rechner den wahren Turing-Test bestanden. Eugen Goostman wurde 2001 von dem Russen Vladimir Veselov und seinem Team entwickelt. Seit dem hätte man vor allem an der Persönlichkeit Eugens gearbeitet und das Konversationsmodul verbessert, sodass Gespräche mit ihm möglichst natürlich erscheinen.


Quelle: | 9. Juni 2014
 
Nur 33% reichen zum bestehen... so was einfach hätte ich es auch gerne in den Prüfungen gehabt ;).

Hier wird auch etwas Kritik über den Test geäußert:
 
Wenn die KI schlaue sein soll...warum gibt man ihr dann so einen dummen Namen?
 
Mehr als 33 Prozent der Jury-Mitglieder konnte die KI in einem Test der University of Reading davon überzeugen, es handele sich bei ihr um den 13jährigen Jungen Eugen Goostman.

In einem vergleichbaren Test 2008, [...] scheiterten noch alle Rechner. Die bis dahin erfolgreichste Software konnte lediglich 25 Prozent der Jury-Mitglieder überzeugen.

Wat?
25% = ist Doof.
Mehr als 33% aka 33,25462% oder so = ist Ok.
 
Wenn ich das richtig verstehe wären 50% ja bereits das Maximum. Denn wenn sich der Bot 1 zu 1 wie ein Mensch verhält, dann muss die Jury raten ob Mensch oder Bot. Mehr als 50% wären ja dann sowas wie ein über Mensch wobei noch menschlicher als ein Mensch wiederum nicht Menschlich ist oder?
Wobei ich mir schon par unterhaltungen mit Eugene im Internet gefunden habe und muss sagen: Wer das Ding für einen Menschen hält sollte erstmal sich selbst durchchecken lassen.
 
Auch ganz interessant zu der Sache: - die "30%" sind im turing test gar nicht definiert - die Jury bestand im vorliegenden Fall einfach aus 3 Personen, von denen eine überzeugt wurde (33,3333...%) - Aber allein der Hype um diese Meldung genügt wohl, um das unwichtig erscheinen zu lassen...

Zusatz: Diese ganze "ich bin ein 13 Jähriger Ukrainer mit Meerschwein" Story kann ich auch nicht so ganz als "genialen Trick" sehen... Warum nicht gleich "ich bin ein Blinder Mensch aus der mongolischen Tundra, ohne Arme und Beine." ? - Das hätte das ganze doch noch "einfacher" gemacht...
 
Also auf dem von Shadow3 verlinkten Heise Artikel wird ja nochmal weiterverlinkt auf eine Mitschrift der Konversation des Programms mit einem gewissen Doug Aamoth.
gelangt man direkt zur Mitschrift der Konversation.
Wie man gut nachlesen kann ist das Programm alles andere als atemberaubend um nicht sogar zu sagen recht langweilig.
Ich kenne mich ehrlich gesagt überhaupt nicht auf diesem Gebiet aus, aber mir als Laien erscheint diese Konversation alles andere als bahnbrechend oder sonstig in diese Richtung gehend.
 
Wenn man sich die Unterhaltungen durchliest merkt man auch, dass die Maschine oft gar keine Unterhaltung führen kann und dann irgendwelche belanglosen Fragen stellt (Alter, Wohnort usw.) um davon ausgehend dann irgendeinen allgemeingültigen Satz zu sagen.

Ray Kurzweil hat einen zu dieser Ankündigung geschrieben. Seiner Meinung nach wird es diesen einen Moment gar nicht geben in dem eine Maschine den Turing-Test besteht, schon deshalb weil man die Bedingungen für ein Bestehen ganz unterschiedlich definieren kann. Stattdessen wird es viele kleine Schritte geben, von denen aber viele (fälschlicherweise) als großer Durchbruch gefeiert werden (era of premature announcements).
 
  • Thread Starter Thread Starter
  • #9
Wat?
25% = ist Doof.
Mehr als 33% aka 33,25462% oder so = ist Ok.
Na das ist doch simpel, genau so, wie Kanser sagt:
Wenn man Mensch und Maschine nicht mehr auseinander halten kann, dann muss man raten und nach dem Gesetz der großen Zahlen sollte sich das dann bei ca 50% einpendeln. Daher sind 25% zu schwach, während 33% zumindest eine Tendenz angeben.

die Jury bestand im vorliegenden Fall einfach aus 3 Personen, von denen eine überzeugt wurde (33,3333...%)
Dass die Jury jedoch nur aus 3 Personen bestanden hat, was ich übrigens nicht wusste, als ich den Artikel eingeschickt hatte, macht den Test mMn natürlich in so fern unglaubwürdig, als dass man nicht von einer repräsentativen Stichprobe sprechen kann.
Prinzipiell kann man 33% aber durchaus als "bestanden" definieren, wenn auch nicht bei einer signifikanten Stichprobe!

100% sind nicht möglich. Auf 100% "bestanden" kannst du nur kommen, wenn du alle möglichen Ereignisse aufaddierst:
  • Mensch wird korrekt als Mensch erkannt
  • Mensch wird falsch als Maschine klassifiziert
  • Maschine wird korrekt als Maschine erkannt
  • Maschine wird falsch als Mensch klassifiziert
Im Fall, dass man blind raten würde, würden auf jeden Fall etwa 25% fallen.
Testen wir eine Maschine, dann beschränken wir uns jedoch auf den dritten und vierten Fall, also:

  • Maschine wird korrekt als Maschine erkannt
  • Maschine wird falsch als Mensch klassifiziert

Zusammen können diese aber maximal auf 50% kommen. Blindes Raten würde also wieder 25% für Maschine korrekt als Maschine bzw Maschine falsch als Mensch. Halten jedoch 33% die Maschine fälschlicher Weise für einen Menschen, so kann man sagen, dass eine signifikante Teilmenge der Versuchsgruppe überzeugt wurde und der Turing Test als bestanden angenommen werden kann. Allerdings sind wie erwähnt, 3 Personen keine repräsentative Menge.

Wobei ich mir schon par unterhaltungen mit Eugene im Internet gefunden habe und muss sagen: Wer das Ding für einen Menschen hält sollte erstmal sich selbst durchchecken lassen.
Mit dem alten Eugen aus 2001 oder mit dem neuen? Das habe ich nicht erwähnt, aber es gibt tatsächlich die alte Version von Eugen online. Die neue scheinbar nicht.

Zusatz: Diese ganze "ich bin ein 13 Jähriger Ukrainer mit Meerschwein" Story kann ich auch nicht so ganz als "genialen Trick" sehen... Warum nicht gleich "ich bin ein Blinder Mensch aus der mongolischen Tundra, ohne Arme und Beine." ? - Das hätte das ganze doch noch "einfacher" gemacht...
Nun das erlebst du doch auch schon heute im Internet. Wenn du wissen willst, mit wem du hier redest, dann erwartest du, dass er dir glaubhaft Informationen geben kann. Dazu gehören bei einem Menschen gewöhnlich zumindest Alter, Geschlecht, Wohnort und so etwas wie ein Charakter. Dass man einen jüngeren Menschen genommen hat, mag eine Vereinfachung sein, schließlich erwartest du von einem Erwachsenen, dass er für äußerst komplexe Zusammenhänge ein Verständnis hat, während du dir von einem 13jährigen wohl kaum die Relativitätstheorie erklären lassen wirst. ;)
Ukraine wahrscheinlich, wegen dem räumlichen Bezug zu den Entwicklern. Für die ist/war es wohl einfacher eigene kulturelle Eigenarten in den Charakter Eugens einfließen zu lassen, als vorher noch typische kulturelle Eigenarten von amerikanischen Ureinwohnern zu studieren und Eugen dann zu dem zu machen. ;)

Ray Kurzweil hat einen zu dieser Ankündigung geschrieben. Seiner Meinung nach wird es diesen einen Moment gar nicht geben in dem eine Maschine den Turing-Test besteht, schon deshalb weil man die Bedingungen für ein Bestehen ganz unterschiedlich definieren kann. Stattdessen wird es viele kleine Schritte geben, von denen aber viele (fälschlicherweise) als großer Durchbruch gefeiert werden (era of premature announcements).
Der Turing-Test ist ja nicht erst seit dem umstritten. Ich schätze durchaus, dass man eine Maschine auf das Niveau eines Ausländers mit eingeschränktem Sprachverständnis für die vom Tester gesprochene Sprache bringen kann, denn unter diesen Bedingungen hätte die Maschine immerhin die Möglichkeit Fehler zu machen und sich simpel auszudrücken. Wie oben angedeutet, scheint es wohl schwer zu sein, eine Maschine auf dem Niveau eines Erwachsenen kommunizieren zu lassen. Leichter fällt es wohl, wenn man sie einschränkt, im Fall von Eugen eben durch das Alter.
 
Ich schätze durchaus, dass man eine Maschine auf das Niveau eines Ausländers mit eingeschränktem Sprachverständnis für die vom Tester gesprochene Sprache bringen kann, denn unter diesen Bedingungen hätte die Maschine immerhin die Möglichkeit Fehler zu machen und sich simpel auszudrücken.

Geht ja nicht darum, dass sie sich zu einfach ausdrückt oder die Sprache nicht spricht, sondern darum, dass eine Unterhaltung die über ein reines "Frage-Antwort-irgendeine passende Bemerkung" Spiel hinaus geht, nicht möglich zu sein scheint. Danach geht das ganze nämlich von vorne los. Wieder irgendeine einfache Frage, dann auf die Anwort warten und dann folgt die Maschine wieder ihrem script, macht eine Bemerkung und stellt die nächste (zusammenhanglose) Frage. Wenn die Maschine eine Frage nicht versteht kann sie nicht nochmal nachfragen, sondern es kommt wieder nur eine nichtssagende Bemerkung und dann die nächste Frage. Das ist ein kleiner Schritt, aber von einer Unterhaltung wie sie Menschen (auch Teenager) miteinander führen mMn noch ein ganzes Stück entfernt.
 
Zurück
Oben