Selbsttests des Gesamtsystems / System selftests

Einleitung

Da die angebotenen Dienste immer intensiver genutzt werden, wollen wir sie auch ordentlich überwachen. Wir überprüfen ab sofort dauerhaft, ob von bestimmten Referenzdatenquellen regelmäßig Meßwerte geliefert, ordentlich abgespeichert und wieder ausgegeben werden können. Dabei wird also die komplette Telemetriekette vom Sensorknoten bis zur Datenerfassungsmaschinerie im Backend berücksichtigt.

Sensoren

Um die Funktionsfähigkeit unserer Systeme zu prüfen, haben wir als Referenzdatenquellen zwei besonders zuverlässige Übermittler ausgewählt. Das sind:

Außerdem überwachen wir nun noch indirekt die Zuverlässigkeit externer Systeme, von denen wir Daten beziehen. Das sind:

Technik

Für die Überwachung der Datenquellen verwenden wir einen flexiblen “data loss” Sensor, der in unser Monitoringsystem Icinga2 eingebunden ist. Wer sich an dieser Stelle für weitere Details interessiert, kann gerne unter Monitoring in-flight data and the whole database for freshness weiterlesen.

Ausblick

Als Nebeneffekt können wir damit nun auch sehr leicht weitere individuelle Datenkanäle überwachen. Wenn Ihr also wissen wollt, ob es Euren Sensorknoten gut geht, schalten wir Euch gerne einen entsprechenden Sensor auf Euren Datenkanal auf.

Erst einmal Danke für “zuverlässige Übermittler”. :-) Naja, eigentlich sollte es nur ein temporäres System sein, das die Batterie-Lebensdauer eines ESP8266 auszutestet …

Und da hat unser neues Selbsttest-System jetzt gute Dienste geleistet. Probleme, sprich ausbleibende Datenpakete werden per E-Mail gemeldet (im subject “Problem”). Aber auch wenn der Datenfluss wieder startet bekommt man eine Mail mit “Recovery” im Titel.

Es gab Anfang April mal einen Aussetzer, da fehlte eine Messung, ggf. war der WLAN-AP nicht verfügbar oder im Netz gabe es eine Störung. Dann ab 25.04. kam es immer wieder zu Ausfällen, d.h. ca. 1 Stunde nach dem letzten Datenpaket kam kein neues an und damit wird die Warn-Mail getriggert. Wenn der Datenfluss wieder einsetzt gibt es eine Recovery-Meldung.

Am Anfang sind es nur einzelne Datenpakete, die nicht gesendet werden. Dann mit weiter sinkender Spannung fehlt immer mehr.

Auch in den Daten sieht man, dass es mit dem Strom zu Ende geht. Der DHT setzt ab einer zu geringen Spannung aus, naja und WLAN ist dann auch schwierig, wie man an den fehlenden Datenpaketen sieht.

2018/04/23 21:54:42,   8.145, 18.4,  9.5, 3.73
2018/04/23 22:51:47,   8.152, 17.7, 11.9, 3.52
2018/04/23 23:48:56,   8.150, 16.6, 17.1, 3.74
2018/04/24 00:46:12,   8.153, 16.2, 17.8, 3.71
2018/04/24 01:43:27,   8.148, 15.9, 22.0, 3.73
2018/04/24 02:40:53,   8.143, 15.4, 26.5, 3.66
2018/04/24 03:38:24,   8.156, 14.7, 33.1, 3.66
2018/04/24 04:35:37,   8.151, 14.1, 44.3, 3.69
2018/04/24 05:32:57,   8.154, 13.4, 60.4, 3.69
2018/04/24 06:30:22,   8.155, 12.7, 83.7, 3.67
2018/04/24 07:27:27,   8.158, 12.2, 93.0, 3.62
2018/04/24 08:25:07,   8.153,,, 3.63
2018/04/24 09:22:38,   8.172,,, 3.59
2018/04/24 10:20:24,   8.144, 16.5, 22.5, 3.72
2018/04/24 11:18:23,   8.124, 16.8,  1.9, 3.66
2018/04/24 12:15:45,   8.123, 17.0,  5.9, 3.67
2018/04/24 13:13:07,   8.138, 16.6, 12.7, 3.54
2018/04/24 14:10:16,   8.150, 16.9, 17.9, 3.36
2018/04/24 15:07:19,   8.149, 15.7, 26.6, 3.67
2018/04/24 16:04:15,   8.161, 14.7, 98.8, 3.68
2018/04/24 17:01:55,   8.208,,, 3.22
2018/04/24 17:58:38,   8.161, 15.2, 69.8, 3.29
2018/04/24 18:55:57,   8.150, 15.2, 64.2, 3.63
2018/04/24 19:53:14,   8.148, 15.2, 67.9, 3.43
2018/04/24 20:50:32,   8.158, 14.9, 70.9, 3.67
2018/04/24 21:47:56,   8.158, 14.6, 71.8, 3.66
2018/04/24 22:45:18,   8.164,,, 3.62
2018/04/24 23:42:22,   8.155,,, 3.32
2018/04/25 00:39:39,   8.184,,, 3.11
2018/04/25 01:36:18,   8.165, 12.8, 99.9, 3.67
2018/04/25 02:33:45,   8.187, 12.4, 99.9, 3.53
2018/04/25 03:31:02,   8.175,,, 3.54
2018/04/25 04:28:37,   8.187, 12.5, 99.9, 3.64
2018/04/25 05:26:07,   8.189, 12.5, 99.9, 3.43
2018/04/25 06:23:35,   8.184, 12.0, 99.9, 3.63
2018/04/25 07:21:09,   8.183, 12.5, 99.9, 3.37
2018/04/25 08:18:23,   8.192,,, 3.26
2018/04/25 09:15:33,   8.192, 13.0, 99.9, 3.32
2018/04/25 10:12:53,   8.173, 14.1, 99.9, 3.61
2018/04/25 11:10:37,   8.162,,, 3.44
2018/04/25 12:08:30,   8.188,,, 3.16
2018/04/25 13:05:24,   8.168, 16.8, 41.4, 3.27
2018/04/25 14:01:38,   8.205,,, 3.15
2018/04/25 14:58:21,   8.193,,, 3.42
2018/04/25 15:55:30,   8.198,,, 3.43
2018/04/25 16:52:14,   8.201,,, 3.30
2018/04/25 17:49:07,   8.179,,, 3.22
2018/04/25 18:45:49,   8.174, 15.3,  9.0, 3.27
2018/04/25 19:42:39,   8.170, 14.4, 13.3, 3.42
2018/04/25 20:39:48,   8.182,,, 3.46
2018/04/25 21:37:05,   8.180,,, 3.38
2018/04/25 22:34:25,   8.183, 12.2, 42.0, 3.53
2018/04/25 23:31:40,   8.181, 11.8, 55.5, 3.60
2018/04/26 00:29:06,   8.191, 11.4, 65.0, 3.59
2018/04/26 01:26:45,   8.184, 11.3, 73.0, 3.23
2018/04/26 02:24:07,   8.184, 10.3, 93.7, 3.42
2018/04/26 03:21:32,   8.185,,, 3.52
2018/04/26 04:19:08,   8.178,  9.5, 99.9, 3.54
2018/04/26 05:16:43,   8.175,  9.4, 99.9, 3.50
2018/04/26 06:14:13,   8.178,,, 3.37
2018/04/26 07:11:50,   8.175, 10.0, 99.9, 3.32
2018/04/26 08:09:16,   8.182, 10.0, 99.9, 3.53
2018/04/26 09:07:02,   8.182, 10.0, 99.9, 3.55
2018/04/26 10:04:36,   8.178, 11.7, 99.9, 3.29
2018/04/26 11:02:11,   8.203, 10.0, 99.9, 3.16
2018/04/26 11:59:23,   8.166,,, 3.11
2018/04/26 12:57:10,   8.200,,, 2.89
2018/04/26 13:54:45,   8.188, 12.2, 79.9, 3.39
2018/04/26 14:52:32,   8.179,,, 3.54
2018/04/26 15:49:59,   8.183, 13.3, 63.8, 3.40
2018/04/26 16:47:37,   8.204, 14.3, 25.4, 3.16
2018/04/26 17:44:22,   8.183,,, 3.10
2018/04/26 18:41:44,   8.187,,, 3.21
2018/04/26 19:39:11,   8.190, 11.0, 98.5, 3.43
2018/04/26 20:36:45,   8.172,,, 3.16
2018/04/26 21:34:07,   8.175,,, 3.03
2018/04/26 22:31:24,   8.165,  9.2, 99.9, 3.35
2018/04/26 23:29:00,   8.165,,, 3.16
2018/04/27 00:26:27,   8.168,,, 3.30
2018/04/27 01:23:47,   8.098,  8.3, 99.9, 3.47
2018/04/27 02:21:23,   8.148,  9.1, 99.9, 3.47
2018/04/27 03:19:01,   8.127,  8.1, 99.9, 3.47
1 Like

Bei

image

ist schon länger nichts mehr los, vermutlich wegen Temporärer Rückbau des Open Hive Teststands. Finden wir hier stabilere Datenquellen zur Selbstüberwachung?

Ich habe nun endlich einmal die entsprechenden Selbsttest-Sensoren überarbeitet und die Datenkanäle von @clemens und @einsiedlerkrebs rausgeworfen, weil die nun schon länger keine Daten mehr übermittelten. Schade!

Dafür werden nun von den folgenden Datenkanälen Proben genommen. Herzlichen Dank an @Thias, @wtf, @peterthiemer und @tonke für den stabilen Betrieb ihrer Datenlogger und Wetterstationen, die diese Datenkanäle speisen.

Momentan sind die Sensoren so eingestellt, dass “nach einer Stunde keine Daten” die Warnlampe angeht und “nach einem ganzen Tag keine Daten” in den Fehlerzustand gewechselt wird. Sagt gern Bescheid, wenn Ihr von dem ein oder anderen Sensor entsprechende Benachrichtigungen per E-Mail erhalten wollt bzw. natürlich genauso, wenn Ihr Euch weitere Sensoren auf anderen Datenkanälen wünscht.

Individuell


Institutionell

Ahja, dieser Datenlogger liefert wohl seltener als “jede Stunde” Daten. Hast Du dazu eine Meinung, @Thias?

War ich zu vorschnell, auch diesen als Indikator dafür heranzuziehen, ob das System insgesamt funktionabel ist? => Lieber wieder rausnehmen, oder das Prüfintervall verlängern?

Hi Andreas,
nimm lieber nur freiland_hive1, die Einheit hat sich als stabiler erwiesen. Der Ausfall von Hive 2 begann mit einem Upgrade im TTN Backend. Seit ich den Node gestern resettet habe, kommen auch wieder Daten an. Prinziell aber bin ich recht dicht an Datenlücken dran und kann mich meist innerhalb von ein paar Tagen um Telemetrieausfälle kümmern.

1 Like

Danke, habe ich. Dafür ist nun auch zusätzlich ein weiterer Sensorknoten von @clemens dabei, der an die andere DAQ-Maschine berichtet, siehe Feinstaubsensor-Daten direkt an Kotori schicken.