Deutschlands Covid-19 Fallzahlen des RKI (und der WHO) haben inzwischen 2-3 Tage Verzögerung zu den Daten der Gesundheitsämter

Die einzelnen Schritte des Datenflusses:

  1. Bekanntwerden eines Falls
  2. Meldung an das Gesundheitsamt
  3. Eingabe der Daten in eine Software
  4. Übermittlung an die zuständige Landesbehörde
  5. Übermittlung an das RKI
  6. Übermittung an die WHO.

Alle Schritte bis auf den Letzten sind vom RKI so dokumentiert.

Jeder dieser Schritte involviert eine Brieftaube und braucht ein bisschen Zeit :-).

So steht im Situationsbericht 58 der WHO, dass wir am 18.03. etwa 7100 bestätigte Covid-19 Fälle in Deutschland hatten.

Die Gesundheitsämter hatten aber schon am 17.03. mehr als 9000 Fälle registriert, am 18.03. deutlich über 12000. Konkret heißt das, dass die von der WHO veröffentlichte Zahl für den 18.03. eher der bekannten Zahl vom 16.03. entspricht.

Ich denke nicht, dass die Daten solange geprüft werden müssen. Ich denke, dass wir den Zahlen der Landesbehörden trauen können (das sind offizielle Zahlen; Beispiel einer Pressemitteilung des Landes Berlin vom 18.03.). Warum werden diese Daten so lange prozessiert?

Wenn diese daten wirklich so lange prozessiert werden müssen — warum werden sie dann nicht rückdatiert? Das wäre den Konsumenten der Zahlen gegenüber nur fair.

In der jetzigen Phase des exponentiellen Wachstums ist es sehr wichtig zu wissen, dass die Deutschland-Zahlen des RKI und der WHO eine erhebliche Verzögerung aufweisen. Eine Verzögerung von 2-3 Tagen entspricht der derzeitigen Verdopplungszeit der gemessenen Zahl der Covid-19 Fälle in Deutschland (Plot).

Das RKI sagt übrigens “In der aktuellen Lage erfolgt die Übermittlung deutlich schneller als im Routinebetrieb”.

Und:

“Zwischen dem Bekanntwerden eines Falls vor Ort, der Meldung an […], der Eingabe der Daten in […] und von dort an das RKI liegt eine gewisse Zeitspanne. Die kann gemäß den Vorgaben im Infektionsschutzgesetz zwei bis drei Arbeitstage lang sein.

(https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Fallzahlen.html)

Update: eine hilfreiche Diskussion zu diesem Thema findet ihr in https://github.com/CSSEGISandData/COVID-19/issues/1008.

 

Covid-19: HTTP API for German case numbers

Landing page: https://covid19-germany.appspot.com

The Robert Koch-Institut is certainly a cool organization, but I doubt they understand the role of (HTTP) APIs for data exchange. I believe that government institutions still vastly underestimate the power of collaboration on data.

Who would have believed that during a pandemic in 2020 we communicate current numerical data such as case counts via PDF documents or complex websites that can only be scraped with brittle tooling and headless browsers?

I closely monitored the situation for days, asked people, asked organizations. Nothing.

Now I have buit an HTTP API, providing the currently confirmed case numbers of Covid-19 infections in Germany:

https://covid19-germany.appspot.com/now

The primary concerns are:

  • convenience (easy to consume for you in your tooling!)
  • interface stability
  • data credibility
  • availability
$ curl https://covid19-germany.appspot.com/now 2> /dev/null | jq
{
  "current_totals": {
    "cases": 9348,
    "deaths": 25,
    "recovered": 72,
    "tested": "unknown"
  },
  "meta": {
    "contact": "Dr. Jan-Philip Gehrcke, jgehrcke@googlemail.com",
    "source": "zeit.de (aggregates data from individual ministries of health in Germany)",
    "time_source_last_consulted_iso8601": "2020-03-18T00:11:24+00:00",
    "time_source_last_updated_iso8601": "2020-03-17T21:22:00+01:00"
  }
}

This is served by Google App Engine in Europe. The code can be found here: https://github.com/jgehrcke/covid-19-germany-gae

I plan to

  • add time series data
  • add more localized data for individual states (Bundesländer)
  • enhance caching

Feel free to use this. Feedback welcome.

Huge shoutout to zeit.de for doing the work of aggregating the numbers published by individual ministries of health.

For historical data, by all means and purposes as of today I recommend consuming https://github.com/CSSEGISandData/COVID-19. For getting the current state, use the zeit.de data exposed via the HTTP API described above.

For now, I am sure that the current case count as provided by zeit.de is the best in terms of credibility and freshness. The actual underlying data sources are all official: these are the individual ministries of health.

The individual ministries publish their numbers usually once or twice during different times of the day. The journalists from zeit.de try to incorporate these data points as quickly as possible right after publication, also during the afternoon and evening. In contrast to that, the Robert Koch-Institut (RKI) may incorporate a specific update from a specific health ministry only after 1-2 days.

The RKI also doesn’t do what I call an atomic sum, but instead seems to sum numbers published by different health ministries at vastly different times: the RKI tries to find one number per day, and that number is not found during the evening (after “all data has come in” from the individual states), but seemingly at some unfortunate mid-day point in time where some individual ministries of health have just delivered a fresh update for the day, and others didn’t yet. Non-atomic.

This explains why, for example, the RKI’s official number for March 17 was ~7000 confirmed cases, whereas zeit.de already reported ~9300 at the same time (biggest contributor here is specifically that the last update from Nordrhein-Westfalen from March 17 didn’t make it into RKI’s sum for March 17).

 

Update: an official statement of the RKI about the delays in data processing, in German:

In Deutschland übermitteln die rund 400 Gesundheitsämter mindestens einmal täglich (in der aktuellen Lage noch häufiger) pseudonymisierte Daten zu bestätigten COVID-19-Fällen auf Grundlage des Infektionsschutzgesetzes elektronisch an die Bundesländer. Die wiederum übermitteln die Daten zu den COVID-19-Fällen elektronisch an das RKI. Für die Berichterstattung wird seit 18.03.2020 täglich der Datenstand 00:00 Uhr verwendet.

Zwischen dem Bekanntwerden eines Falls vor Ort, der Meldung an das Gesundheitsamt, der Eingabe der Daten in die Software, der Übermittlung an die zuständige Landesbehörde und von dort an das RKI liegt eine gewisse Zeitspanne. Die kann gemäß den Vorgaben im Infektionsschutzgesetz zwei bis drei Arbeitstage lang sein. In der aktuellen Lage erfolgt die Übermittlung deutlich schneller als im Routinebetrieb, weil Daten schneller verarbeitet werden. Dass einige Fälle mit etwas Verzögerung im Gesundheitsamt elektronisch erfasst werden, liegt auch daran, dass die Gesundheitsämter zunächst Ermittlungen zu den einzelnen Fällen und deren Kontaktpersonen durchführen und prioritär Infektionsschutzmaßnahmen ergreifen müssen, was die Ressourcen der Gesundheitsämter bereits stark in Anspruch nimmt. Ebenso werden die Daten am RKI validiert, um verlässliche Daten zu veröffentlichen. Auch innerhalb dieses Prozesses kann es zu geringen Verzögerungen kommen.

(source: https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Fallzahlen.html)

COVID-19: Italien am 16.03.

Die Situation in Italien sollte unser Denken und Handeln lenken.

Diese kleine Zitat-Sammlung hilft vielleicht. Alle zitierten Artikel wurden am 16.03. veröffentlicht.

Frankfurter Rundschau (16.03.):

Wurden am Montagmorgen (16.03.2020) noch rund 1800 Tote durch die Covid-19-Pandemie vermeldet, ist die Zahl nur wenige Stunden später um rund 350 Tote auf 2158 gestiegen. Bis Montag zählten die Behörden insgesamt 27.980 Infizierte mit dem Coronavirus Sars-CoV-2 im ganzen Land. Das waren rund 3000 mehr als am Vortag. Diese Zahlen teilte der Zivilschutz am Montagabend in Rom mit.

 
nst.com (16.03.):

“The numbers have continued to grow. We’re close to the moment where we will have no more intensive care beds,” Lombardy governor Attilio Fontana told SkyTG24 television. […] Authorities have been working to set up hundreds of intensive care beds in a specially created facility in the Fiera Milano exhibition centre but are still waiting for sufficient respirators and qualified personnel. […] Behind the concern for the north, there was also a looming worry over the much less well-equipped south, where tens of thousands of people have arrived from the affected regions.

 
independent.co.uk (16.03.):

A health official in Bergamo, warning that patients being admitted to hospital for treatment are getting younger. “The type of patient is changing,” said Luca Lorini, the head of anaesthesia and intensive care at a northern Italian hospital. “They are a bit younger, between 40 to 45 years old and the cases are more complicated,” she said.

 

cbc.ca (16.03.):

All the hospitals in northern Italy are stretched to the breaking point. Health-care workers are totally exhausted, themselves terrified of contracting the virus and passing it on to their own families. Ventilators are the only thing that will keep the sickest patients alive, and there may not be enough to go around. Doctors have been put in the agonizing position of deciding who lives and who dies. The elderly, and those with complicating medical conditions, might be sacrificed. “If you have to choose between a 75-year-old person and a 20-year-old person, who are you going to choose? Obviously, it’s the person with the higher expectation of life,” Casani said. “So there will be a moment that an anesthesiologist will have to take off the respirator from this 75-year-old guy and give it to the 20-year-old. And this will be a horrible choice for the doctors, but obviously necessary.”

“I think the question of ‘Why Italy?’ is the most important question and it has a simple answer: No reason at all. The only thing that makes Italy different is that the first couple of [community-transmitted] cases arrived in Italy about 10 days before they arrived in Germany, the United States or Canada. So if other countries aren’t going to react in an extreme way right now, they’re going to become Italy.”

 

web.de (16.03.)

Italienische Wissenschaftler haben angesichts der heftigen Coronakrise in ihrem Land Deutschland aufgefordert, schneller und strikter als bisher zu reagieren. “Unterschätzen Sie nicht die Gefahr. Italien hat das eine Woche lang getan”, sagte Roberto Burioni, einer der bekanntesten Virologen Italiens der Deutschen Presse-Agentur. […] An dem Institut, das einen Biomedizinzweig hat, würden Statistiker und Mathematiker für Italien von einer Dunkelziffer bei Infizierten von “mindestens Faktor zehn” ausgehen, sagte er. Ähnlich wie bei Masern. Da Italien am Sonntag fast 25.000 registrierte Infizierte gemeldet hat, bedeute das mindestens 250.000 Menschen, die das Virus in sich tragen.

FAZ (16.03.)

Die Gefahr, dass die deutschen Intensivstationen überlaufen, ist real. Das macht den Shutdown risikoethisch unvermeidbar.

 

tagesspiegel.de (16.03.)

Der Dachverband ärztlicher Berufsvereinigungen schlug am Sonntag in einem Brief an Minsterpräsident Giuseppe Conte Alarm: 1674 infizierte Krankenschwestern, -pfleger, Ärztinnen und Ärzte, das heiße, “wir sprechen von zehn Prozent der im Gesundheitssystem Tätigen, die entweder schon gestorben sind oder aber nicht mehr arbeiten können. […]

Conte selbst habe zugegeben, dass “unerlässliche Schutzkleidung” derzeit fehle oder rationiert sei, auf jeden Fall nicht ausreichend verfügbar. Im einzelnen nennt der Ärztefunktionär Handschuhe, ffp3-Masken, Kittel, Schutzbrillen und Überkleidung. […]

Allein am Samstag wurden in die Spitäler der Lombardei weitere 85 Covid-19-Patienten eingeliefert, die Intensivpflege benötigten – doppelt so viele wie noch vor einer Woche. Am Sonntag waren die freien Plätze an einer Hand abzuzählen. „Es gelingt uns zwar, täglich 20 bis 25 neue Plätze zu schaffen – aber wir stehen kurz vor dem Point of no return“, betonte auch der lombardische Gesundheitsminister Giulio Gallera. […]

„Wir müssen jeden Tag neue Covid-19-Patienten intubieren und sind pausenlos im Einsatz“, berichtete am Sonntag Ivano Riva, der Chef der Reanimationsabteilung des Stadt-Spitals Giovanni XXVIII. „Wir halten nicht mehr lange durch.“ In einer einzigen Woche sind dem Coronavirus in den beiden Provinzen mehr als 400 Menschen zum Opfer gefallen, in Bergamo bis zu 61 pro Tag. Die Krematorien in den beiden Provinzen haben auf 24-Stunden-Betrieb umgestellt.

[…]

Die Schaffung neuer Plätze in der Intensivmedizin ist ein Wettlauf gegen die Zeit: Laut einer in diesen Tagen in der britischen Wissenschaftszeitschrift „Lancet“ veröffentlichten italienischen Studie wird die Zahl der Infizierten in Italien ihren Peak voraussichtlich in etwa drei bis vier Wochen erreichen; bis zu diesem Zeitpunkt seien mindestens 4000 neue Betten auf Intensivstationen erforderlich.

 

Mehr Ressourcen: https://gehrcke.de/2020/03/covid-19-sars-cov-2-resources/

COVID-19 / SARS-CoV-2 resources

Last updated: March 25, 00:15 UTC

Resources about the current state

Datasets

Curated list of dashboards and visualizations

These are not all the things. That is not the goal, that is supposed to be a curated list. I found that these are some of the best (in terms of clarity, information content, data freshness, uniqueness, the organizations or people behind them, …):

Valuable background information

You’d like to understand things? You’d like to listen to researches talk about the topic?

How the open data community approaches this topic

It’s so cool to see how the scientific community approaches this topic in a truly collaborative fashion. Some things I enjoyed seeing:

Terminology

  • A coronavirus is a virus from a well-known family of viruses (discovered in the 1960s). The name is derived from the structural appearance (the 3D shape) that these viruses have.
  • SARS-CoV-2 is the name for the new, currently spreading, virus. It is a special kind of coronavirus. Its name is an abbreviation for “severe acute respiratory syndrome coronavirus 2”.
  • COVID-19 is the currently established name for the infectious respiratory disease caused by the new coronavirus SARS-CoV-2.

These names are official as of this WHO announcement.

Other resources

SETI@home hibernation

Woof!

On March 31, the volunteer computing part of SETI@home will stop distributing work and will go into hibernation.

(from setiathome.berkeley.edu)

That is emotional for me. I just posted this comment on HN, and decided to quickly turn it into a small blog post for me to properly archive this memory. Something to look back to again in 20 years from now.

Back then, I was quite young. Around 2002. We were like 5 boys getting into overclocking. For our SETI team, the “Bücki crunching connection”, from my small hometown in Germany.

I just tried to find an old screenshot from back in the day, and wow I found one, from 2002:

So funny, it’s all so anonymous. But it is all there: ICQ, mIRC; an icon to launch Quake III. Gazillion of bookmarks about gaming. And some SETI crunching stats. In Internet Explorer.

Seemingly we were actually crunching under one account for the team OC-CARD.de (http://www.setiatwork.com/team/teamstats.cgi?teamid=30308)

You might have done the same, but I am still sharing this because this has influenced me a lot:

I bought an AMD Duron, some “Arctic Silver II” heat paste. I took a lead pencil to connect some dots on the CPU to unlock the multiplier freely, got a freaking heat sink, and overclocked the hell out of the Duron. I needed to hide this from my parents, but of course the plan was to crunch 24/7.

Looks like our team (“SETI OC-Card.de Team”) was actually among the top 200 of all SETI teams. Wow, yeah there were some serious people in the team, like “Butcho”, ranking in the top 1000 of individuals. No idea who that guy was and where he got the compute resources from. That’s the romantic part of that Internet era.

I found another screenshot, the file is called “duri@fsb133.jpg”. Looks like I knew what I was doing:

Another hilarious screenshot, also showing my ICQ contact list from that time. I still know these people by their nicknames, but you don’t. Ha.: