3 CAS Architektura Exchange 2013 Przy połączeniu do skrzynki, protokół wykorzystany do połączenia jest zawsze udostępniany przez serwer, na którym jest aktywna kopia bazy danych Obsługa serwisowa Exchange Online zmieniła mechanizmy monitorowania Rozbudowana automatyzacja Monitorowanie User DAG1 MBX-A MBX-B MBX-A Layer 4LB


5 Doświadczenia zebrane przez grupę wsparcia Office365 Monitorowanie oparte na doświadczeniach użytkowników Optymalizacja Exchange pod kątem odtwarzania funkcjonalności


7 Jeżeli nie możesz czegoś zmierzyć, nie możesz tym zarządzać Dostępność Czy usługa jest dostępna? Opóźnienie Jakie jest moje doświadczenie? Błędy Czy jestem w stanie uzyskać to co chcę? Dostępność Błędy Opóźnienie Customer Touch Points

8 OWA send OWA failure OWA fast recovery OWA verified as healthy OWA send OWA failure OWA fast recovery Failover servers databases OWA verified as healthy Server becomes good failover target (again) LBCAS-1 CAS-2 DAG MBX-1 DB1 DB2 MBX-2 OWA DB1 DB2 MBX-3 OWA DB1 DB2 OWA DB1 stuff breaks and the Experience does not

9 Managed Availability Exchange 2013 Server Managed Availability

10 PROACTIVEREACTIVE 20s 5min 20min System Level Checks Mailbox Self Test (e.g. OWA MST) [detection 5m] Protocol Self Test (e.g. OWA PST) [detection 20 secs] Proxy Self Test (e.g. OWA PrST) [detection 20 secs] End User Experience Level Checks Customer Touch Point – CTP ( e.g. OWA CTP) [detection 20m]




14 Monitor States Próbkowanie Wykrywanie Odtwarzanie Probe Definition Monitor Definition Responder Results (Responses) Responder Definition T3 00:00:00 00:00:10 00:00:30 Restart Responder Reset AppPool Responder Failover responder Bugcheck responder Offline Responder Escalate Responder Przykład potoku sekwencyjnego respondera HA Named Times Probe Results (Samples) Responder Probe Notification Item Monitor Results (Alerts) Healthy T1 T2 Monitor



17 Recovery Action Enable d Per ServerPer Group Minutes Between Actions Max Allowed Per Hour Max Allowed Per Day Minutes Between Actions Max Allowed Per Day ForceReboot True720N/A16004 SystemFailover True60N/A1604 RestartService True 60 N/A1604 ResetIISPool True60N/A1604 DatabaseFailover True120 N/A11204 ComponentOffline True 60N/A 1 60 4 ComponentOnline True 512 288 5Large MoveClusterGroup True240 N/A14803 ResumeCatalog True548512 WatsonDump True480N/A17204




21 Protocol Health Set Proxy Health Set CTP Health Set OWA OWA.Proxy OWA.Protocol

22 Get-ServerHealth pokazuje szczegółowe informacje o stanie zdrowia serwera lub grupy serwerów Get-HealthReport operuje na tych samych danych pokazując zwięzły raport Jak sprawdzić, które próbniki, monitory i respondery są powiązane z danym Healt Setem? Get-MonitoringItemIdentity –Identity -Server | ft identity,itemtype,healthsetname,name -auto

23 Bardziej szczegółowe wyniki – tylko niezdrowe komponenty get-healthreport -server srv-ex1 | where {$_.alertvalue -ne healthy} | ft – auto

24 Informacja o restartach realizowanych przez respondery: $RecoveryActionResultsEvents = Get-WinEvent –ComputerName srv-ex1 -LogName Microsoft-Exchange-ManagedAvailability/RecoveryActionResults $RecoveryActionResultsXML = ($RecoveryActionResultsEvents | Foreach-object - Process {[XML]$_.toXml()}).event.userData.eventXml $RecoveryActionResultsXML > c:\Scripts\recoveryresults.txt

25 View Overrides Get-ServerMonitoringOverride –Server Get-GlobalMonitoringOverride Create Override Add-ServerMonitoringOverride \ -Server -ItemType [-Duration -ApplyVersion ] -PropertyName -PropertyValue Add-GlobalMonitoringOverride \ -ItemType [-Duration -ApplyVersion ] -PropertyName -PropertyValue Remove Override Remove-ServerMonitoringOverride Remove-GlobalMonitoringOverride


27 Stan Health Groupy jest wyliczany na podstawie stanu monitorów w danej grupie Health Group może mieć jeden z sześciu stanów: Healthy, Degraded, Unhealthy, Repairing, Disabled lub Unavailable


29 NLB Managed Availability + Retries…stuff breaks and the Experience does not 29 OWA send OWA failure OWA failure detected OWA restart App pool OWA restart complete OWA verified as healthy OWA send OWA failure OWA failure detected OWA restart App pool OWA restart failed Failover servers databases OWA service restarts OWA verified as healthy Server becomes good failover target (again) CAS-1 CAS-2 DAG MBX-1 DB1 DB2 MBX-2 OWA DB1 DB2 MBX-3 OWA DB1 DB2 OWA DB1




