Replies: 10 comments 42 replies
-
ich würde das gerne auch bei unserem Speicher mal anschauen, weiß aber nicht wie |
Beta Was this translation helpful? Give feedback.
-
Kann ich bestätigen: Tatsächlich erscheint der Peak grob gesagt im 8-Minuten-Takt, was ziemlich genau 500 Sekunden entspricht, also alle 100 Requests. Hier wäre dann die Frage, wer von den beiden Parteien den Socket dichtmacht, das kann ja sowohl vom Server als auch vom Client kommen. Grössere Ausschläge habe ich seit dem Reboot meiner Anlage gestern nachmittag nicht mehr beobachtet. |
Beta Was this translation helpful? Give feedback.
-
Ja, ich beobachte da bei mir auch - die Verbindung wird offenbar für 100 Requests offen gehalten. Das regelt der Server aber selbst, der SENEC-Collector schickt per Header In der vom SENEC-Collector verwendeten Library findet sich dieser Hinweis:
Es sieht also so aus, als würde der SENEC-Speicher das genauso handhaben. Nach 100 Abfragen erfolgt ein Reset und der nächste Request dauert etwas länger (um die 250ms). Der SENEC-Speicher verwendet übrigens nginx 1.17.7, der diese 100 auch als Default hat, wenn ich den Source richtig verstehe. Aus meiner Sicht ist das alles korrekt so und kein Grund zur Sorge. Wenn ein Requests außer der Reihe deutlich länger dauert (mehrere Sekunden), so hat der Speicher in diesem Moment vermutlich viel anderes zu tun. Dass sich, wie im Fall von @gereons, der Speicher in eine Situation aufschaukelt, in der ein Request bis zu einer Minute dauert, scheint etwas zu sein, was sich SENEC mal ansehen sollte. Noch etwas zu InfluxDB: Beim Zusammenklicken der Abfrage kann man sich übrigens leicht ins Knie schießen und ein Diagramm produzieren, das die Peaks unterdrückt oder abflacht. InfluxDB definiert (bei Verwendung des Query Builders) standardmäßig eine Glättung über ein Zeitfenster, das umso größer ist, je länger der betrachtete Zeitraum ist. Ich empfehle daher folgende Abfrage ohne Glättung, sodass die Originalmesswerte angezeigt werden:
Einzugeben ist das über den "Script Editor", Bucket und/oder Measurement sind ggfs. anzupassen. |
Beta Was this translation helpful? Give feedback.
-
zu diesem Thema meine Frage: ... und noch eine Frage hinterher: |
Beta Was this translation helpful? Give feedback.
-
zu diesem Thema habe ich noch folgende Erkenntnis - |
Beta Was this translation helpful? Give feedback.
-
Noch mal als ein kleiner Nachtrag meine durchschnittlichen Antwortzeiten der letzten 30 Tage. Man sieht einen kleinen Peak am 10.9., um diesen Tag herum hatte ich auch mehrere NPU-Fehler in den Logs. Der krasse Peak am 22.9. war ja der Auslöser für #3484 und dann diese Diskussion hier. Am 4.10. wurde es dann wieder schlimm, und ich hab erneut die Anlage neu gestartet. Seit dem Reboot am 22.9. hatte ich keine NPU-Fehler mehr. Sieht für mich sehr nach einem Zusammenhang aus - wenn die Kiste immer lahmer wird gibt's über kurz oder lang diese Fehler, und irgendwann greift dann irgendein interner Reset-Mechanismus. Wenn man dem zuvorkommen will scheint es mit der akutellen Firmwareversion hilfreich zu sein, die Kiste ungefähr alle 12 Tage mal durchzustarten, das geht ja zum Glück flott. Sehen andere diesen 12-Tage-Rythmus auch? |
Beta Was this translation helpful? Give feedback.
-
Beta Was this translation helpful? Give feedback.
-
Vielen Dank für die vielen Beispiele mittlerweile. Interessant finde ich, dass niemand die 5 Minuten Intervalle, welche bei mir auftreten reproduzieren kann. Es ist nicht wirklich störend, dass alle 5 Minuten mal ein Messwert erst nach 1-2s ankommt, aber verstehen würde ich es natürlich trotzdem gern, warum der Upload der Daten zu Senec nur in meinem Fall für eine kleine Verzögerung sorgt. |
Beta Was this translation helpful? Give feedback.
-
Ich bin vorsichtig optimistisch dass dieses Problem mit der aktuellen Firmware-Version 0831 gelöst oder zumindestens umgangen wird. Der Graph zeigt die Antwortzeiten meiner Anlage in den letzten 48 Stunden, man sieht dass die Zeiten am 15.11. immer schlechter wurden, bis sich dann heute morgen gegen 04:00h alles wieder normalisiert hat. Der 15.11. ist ziemlich genau 12 Tage nach dem letzten Reboot (durch den Firmware-Update) und im Log von heute finden sich erst die üblichen MQTT-Meldungen
und dann
Und danach ist Ruhe im Karton. Das sieht für mich so aus als ob der interne Watchdog, der die NPU neu startet jetzt sehr viel besser und vor allem früher zuschlägt. |
Beta Was this translation helpful? Give feedback.
-
Beta Was this translation helpful? Give feedback.
-
Ich habe gerade im geschlossenen Issue #3484 ein interessantes Thema entdeckt. Dies betrifft die Antwortzeiten des Speichers, welche unter der Variable
response_duration
in Influx gespeichert wird. In der Grafik von @ledermann sieht man, dass seine NPU nur sehr selten länger 8ms benötigt:Zum Vergleich hier mal meine Daten der letzten 24h:
Bei mir stelle ich fest, dass in regelmäßigen Abständen von 100 Abfragen der TLS-Handshake neu ausgeführt wird und eine Abfrage dann etwa 250ms dauert. In unregelmäßigen Abständen kommt es jedoch auch zu Verzögerungen von 1-2s, die allerdings dann exakt alle 5 Minuten erfolgen. Ich vermute hier einen Zusammenhang mit den an die App gesendeten Werten, da dies auch im Intervall von 5 Minuten geschieht.
Da ich keine NPU-Fehler hatte in letzter Zeit, sind keine größeren Ausschläge zu sehen. 95% meiner Werte liegen unter 13ms und der Live-Charakter von Solectrus ist somit gegeben.
Mich würde nun interessieren, wie das bei anderen Nutzern aussieht? Muss hier auch öfter der Handshake erneuert werden? Kann jemand die manchmal in 5min Abständen auftretenden Verzögerungen reproduzieren?
Beta Was this translation helpful? Give feedback.
All reactions