Ich hab 3 Alexas für meine Hausautomatisierung und bei der ersten damals alles mit meiner Sophos mitgeschnitten. Bei mir wurden keine Daten übertragen bis zum Buzzword. Das einzige was immer statt fand/statt findet, war ein KeepAlive zu den Amazonservern. Werden die nicht freigegeben, funktioniert das gute Stück auch nicht. Das liegt aber nicht daran, dass das Buzzword oder Gespräche zu Amazon geschickt werden, sondern daran dass das Gerät sich, bis wieder eine Verbindung besteht, in den Offlinemodus versetzt.
Danke für diese Info. Hast du die Teile über einen längeren Zeitraum beobachtet? Machen die, außer dem Keepalive, irgendwas wenn sie länger ungenutzt herumstehen? Wie schnell reagieren sie auf phonetisch ähnliche Wörter? Ziehen sie sich selbst Updates, oder macht man das manuell?
Letzten Herbst wurde auf Heise berichtet, dass die
Ermittler in einem Mordfall in den USA auf die Aufzeichnungen einer Alexa (Echo) Zugriff bekommen haben. Amazon hat sich offenbar länger geweigert, aber dann nach Zustimmung des Besitzers die Aufnahmen herausgegeben. Im Heise Artikel heißt es dazu, dass zwar eigentlich erst nach den Buzzwords aufgezeichnet werden soll, aber oft auch versehentlich mitgeschnitten wird. In einem Nebensatz wird außerdem erwähnt, dass man auch den "intelligenten" Stromzähler ausgewertet hat, um Rückschlüsse auf die Tat zu ziehen.
Wenn man sich Googles Tensor Flow oder ähnliche AI Libraries anschaut, ist man nach den ersten paar Tutorials schon in der Lage, kleine KIs zu Trainieren, die z. B. Objekte in Fotos erkennen können, ganz ohne Cloud. Ich gehe also davon aus, dass für die Erkennung des Buzzwords keine Datenübertragung notwendig ist, weder bei Alexa, noch bei Siri oder OK Google. Es sollte problemlos möglich sein, eine KI mit diesen paar Worten zu trainieren, dass sie diese zuverlässig ohne große Rechenpower aus der Cloud erkennt.
Die Erkennung des restlichen Texts passiert dann natürlich zentral, wo man viel Rechenpower hat und außerdem Herr über die gesammelten Daten (sprich. die trainierte KI) ist. Für die Unternehmen ist die Cloud natürlich ein doppelter Gewinn, weil sie für kontinuierliche Versorgung mit Samples sorgt, die wiederum für Training der KI genutzt werden können.
Open Source Alternative zu Alexa:
https://mycroft.ai/
Braucht aber IIRC einiges an Training, bevor es dich zuverlässig erkennt.
Auf der Suche nach einer Alternative zu Alexa, die ohne Dauerverbindung in die Wolke auskommt und wo ich kontrolliere, was mit den Recordings passiert, bin ich vor einiger Zeit auch auf Mycroft gestoßen. Auch wenn es ein Open Source Projekt ist, setzen sie bis jetzt primär auf Googles Text to Speech (TTS) Engine, also landen die Recordings und Metadaten am Ende doch wieder irgendwie bei Google. Außerdem ist ein Account in der Mycroft Cloud notwendig, dazu heißt es in den Docs:
Each of your Mycroft Device(s) must be Paired with your home.mycroft.ai account.
Pairing makes information available to your Device to personalise your experience, such as which units of measurement you prefer, and your general location.
Pairing is also used for services that require API authentication, such as
Wolfram Alpha
Google Speech to Text
Weather Skill API and OpenWeather
Im Mycroft Blog wird dazu erklärt, dass sich die Leute für den Service von Google entschieden haben, weil er über 90 % Genauigkeit schafft, was weit über vergleichbaren Systemen liegen soll. Es klingt aber so, als ob sie das Thema Datenschutz ernst nehmen. Es gibt inzwischen auch eine Kooperation mit
Mozillas DeepSpeech Projekt, eine Open Source Speech-To-Text Engine, die als alternative STT Engine verwendet werden kann. Was das so interessant macht, ist, dass DeepSpeech selbst gehostet werden kann. DeepSpeech verwendet wiederum Googles TensorFlow Projekt (eine AI) für das Lernen von Texten. TensorFlow ist jedoch von keinen Cloud Services abhängig.
Ich glaub fest daran, dass Sprachsteuerung eine Selbstverständlichkeit wird. Und vielleicht, wenn die Zeit reif ist, auch Gestensteuerung (alla Kinect) salonfähig wird. Es würd mir sicher nicht in den Sinn kommen, eines der aktuell gängigen Geräte in meine Wohnung zu stellen, aber ich freu mich eigentlich schon drauf, wenn eine selbst gehostete Variante, die auch ohne Datenkrake auskommt, gut funktioniert.