Selbsttests des Gesamtsystems / System selftests

Einleitung

Da die angebotenen Dienste immer intensiver genutzt werden, wollen wir sie auch ordentlich überwachen. Wir überprüfen ab sofort dauerhaft, ob von bestimmten Referenzdatenquellen regelmäßig Meßwerte geliefert, ordentlich abgespeichert und wieder ausgegeben werden können. Dabei wird also die komplette Telemetriekette vom Sensorknoten bis zur Datenerfassungsmaschinerie im Backend berücksichtigt.

Sensoren

Um die Funktionsfähigkeit unserer Systeme zu prüfen, haben wir als Referenzdatenquellen zwei besonders zuverlässige Übermittler ausgewählt. Das sind:

Außerdem überwachen wir nun noch indirekt die Zuverlässigkeit externer Systeme, von denen wir Daten beziehen. Das sind:

Technik

Für die Überwachung der Datenquellen verwenden wir einen flexiblen “data loss” Sensor, der in unser Monitoringsystem Icinga2 eingebunden ist. Wer sich an dieser Stelle für weitere Details interessiert, kann gerne unter Monitoring in-flight data and the whole database for freshness weiterlesen.

Ausblick

Als Nebeneffekt können wir damit nun auch sehr leicht weitere individuelle Datenkanäle überwachen. Wenn Ihr also wissen wollt, ob es Euren Sensorknoten gut geht, schalten wir Euch gerne einen entsprechenden Sensor auf Euren Datenkanal auf.

Erst einmal Danke für “zuverlässige Übermittler”. :-) Naja, eigentlich sollte es nur ein temporäres System sein, das die Batterie-Lebensdauer eines ESP8266 auszutestet …

Und da hat unser neues Selbsttest-System jetzt gute Dienste geleistet. Probleme, sprich ausbleibende Datenpakete werden per E-Mail gemeldet (im subject “Problem”). Aber auch wenn der Datenfluss wieder startet bekommt man eine Mail mit “Recovery” im Titel.

Es gab Anfang April mal einen Aussetzer, da fehlte eine Messung, ggf. war der WLAN-AP nicht verfügbar oder im Netz gabe es eine Störung. Dann ab 25.04. kam es immer wieder zu Ausfällen, d.h. ca. 1 Stunde nach dem letzten Datenpaket kam kein neues an und damit wird die Warn-Mail getriggert. Wenn der Datenfluss wieder einsetzt gibt es eine Recovery-Meldung.

Am Anfang sind es nur einzelne Datenpakete, die nicht gesendet werden. Dann mit weiter sinkender Spannung fehlt immer mehr.

Auch in den Daten sieht man, dass es mit dem Strom zu Ende geht. Der DHT setzt ab einer zu geringen Spannung aus, naja und WLAN ist dann auch schwierig, wie man an den fehlenden Datenpaketen sieht.

2018/04/23 21:54:42,   8.145, 18.4,  9.5, 3.73
2018/04/23 22:51:47,   8.152, 17.7, 11.9, 3.52
2018/04/23 23:48:56,   8.150, 16.6, 17.1, 3.74
2018/04/24 00:46:12,   8.153, 16.2, 17.8, 3.71
2018/04/24 01:43:27,   8.148, 15.9, 22.0, 3.73
2018/04/24 02:40:53,   8.143, 15.4, 26.5, 3.66
2018/04/24 03:38:24,   8.156, 14.7, 33.1, 3.66
2018/04/24 04:35:37,   8.151, 14.1, 44.3, 3.69
2018/04/24 05:32:57,   8.154, 13.4, 60.4, 3.69
2018/04/24 06:30:22,   8.155, 12.7, 83.7, 3.67
2018/04/24 07:27:27,   8.158, 12.2, 93.0, 3.62
2018/04/24 08:25:07,   8.153,,, 3.63
2018/04/24 09:22:38,   8.172,,, 3.59
2018/04/24 10:20:24,   8.144, 16.5, 22.5, 3.72
2018/04/24 11:18:23,   8.124, 16.8,  1.9, 3.66
2018/04/24 12:15:45,   8.123, 17.0,  5.9, 3.67
2018/04/24 13:13:07,   8.138, 16.6, 12.7, 3.54
2018/04/24 14:10:16,   8.150, 16.9, 17.9, 3.36
2018/04/24 15:07:19,   8.149, 15.7, 26.6, 3.67
2018/04/24 16:04:15,   8.161, 14.7, 98.8, 3.68
2018/04/24 17:01:55,   8.208,,, 3.22
2018/04/24 17:58:38,   8.161, 15.2, 69.8, 3.29
2018/04/24 18:55:57,   8.150, 15.2, 64.2, 3.63
2018/04/24 19:53:14,   8.148, 15.2, 67.9, 3.43
2018/04/24 20:50:32,   8.158, 14.9, 70.9, 3.67
2018/04/24 21:47:56,   8.158, 14.6, 71.8, 3.66
2018/04/24 22:45:18,   8.164,,, 3.62
2018/04/24 23:42:22,   8.155,,, 3.32
2018/04/25 00:39:39,   8.184,,, 3.11
2018/04/25 01:36:18,   8.165, 12.8, 99.9, 3.67
2018/04/25 02:33:45,   8.187, 12.4, 99.9, 3.53
2018/04/25 03:31:02,   8.175,,, 3.54
2018/04/25 04:28:37,   8.187, 12.5, 99.9, 3.64
2018/04/25 05:26:07,   8.189, 12.5, 99.9, 3.43
2018/04/25 06:23:35,   8.184, 12.0, 99.9, 3.63
2018/04/25 07:21:09,   8.183, 12.5, 99.9, 3.37
2018/04/25 08:18:23,   8.192,,, 3.26
2018/04/25 09:15:33,   8.192, 13.0, 99.9, 3.32
2018/04/25 10:12:53,   8.173, 14.1, 99.9, 3.61
2018/04/25 11:10:37,   8.162,,, 3.44
2018/04/25 12:08:30,   8.188,,, 3.16
2018/04/25 13:05:24,   8.168, 16.8, 41.4, 3.27
2018/04/25 14:01:38,   8.205,,, 3.15
2018/04/25 14:58:21,   8.193,,, 3.42
2018/04/25 15:55:30,   8.198,,, 3.43
2018/04/25 16:52:14,   8.201,,, 3.30
2018/04/25 17:49:07,   8.179,,, 3.22
2018/04/25 18:45:49,   8.174, 15.3,  9.0, 3.27
2018/04/25 19:42:39,   8.170, 14.4, 13.3, 3.42
2018/04/25 20:39:48,   8.182,,, 3.46
2018/04/25 21:37:05,   8.180,,, 3.38
2018/04/25 22:34:25,   8.183, 12.2, 42.0, 3.53
2018/04/25 23:31:40,   8.181, 11.8, 55.5, 3.60
2018/04/26 00:29:06,   8.191, 11.4, 65.0, 3.59
2018/04/26 01:26:45,   8.184, 11.3, 73.0, 3.23
2018/04/26 02:24:07,   8.184, 10.3, 93.7, 3.42
2018/04/26 03:21:32,   8.185,,, 3.52
2018/04/26 04:19:08,   8.178,  9.5, 99.9, 3.54
2018/04/26 05:16:43,   8.175,  9.4, 99.9, 3.50
2018/04/26 06:14:13,   8.178,,, 3.37
2018/04/26 07:11:50,   8.175, 10.0, 99.9, 3.32
2018/04/26 08:09:16,   8.182, 10.0, 99.9, 3.53
2018/04/26 09:07:02,   8.182, 10.0, 99.9, 3.55
2018/04/26 10:04:36,   8.178, 11.7, 99.9, 3.29
2018/04/26 11:02:11,   8.203, 10.0, 99.9, 3.16
2018/04/26 11:59:23,   8.166,,, 3.11
2018/04/26 12:57:10,   8.200,,, 2.89
2018/04/26 13:54:45,   8.188, 12.2, 79.9, 3.39
2018/04/26 14:52:32,   8.179,,, 3.54
2018/04/26 15:49:59,   8.183, 13.3, 63.8, 3.40
2018/04/26 16:47:37,   8.204, 14.3, 25.4, 3.16
2018/04/26 17:44:22,   8.183,,, 3.10
2018/04/26 18:41:44,   8.187,,, 3.21
2018/04/26 19:39:11,   8.190, 11.0, 98.5, 3.43
2018/04/26 20:36:45,   8.172,,, 3.16
2018/04/26 21:34:07,   8.175,,, 3.03
2018/04/26 22:31:24,   8.165,  9.2, 99.9, 3.35
2018/04/26 23:29:00,   8.165,,, 3.16
2018/04/27 00:26:27,   8.168,,, 3.30
2018/04/27 01:23:47,   8.098,  8.3, 99.9, 3.47
2018/04/27 02:21:23,   8.148,  9.1, 99.9, 3.47
2018/04/27 03:19:01,   8.127,  8.1, 99.9, 3.47
1 Like

Bei

image

ist schon länger nichts mehr los, vermutlich wegen Temporärer Rückbau des Open Hive Teststands. Finden wir hier stabilere Datenquellen zur Selbstüberwachung?