soviel is klar…
Aha!
Und das zu ändern, war @clemens’ Idee. Dafür nun braucht es bei Espressif zwei zusätzliche, an der seriellen exisiterende Signale, nämlich RTS und DTR, sowie vier bzw. fünf Bauelemente (die auch THT sein dürfen):
@robert-hh verwendet in der von Dir zitierten Schaltung die von Espressif auf deren eigenen devel boards verwendete Logik. An die Transistoren werden keine Ansprüche gestellt, unspezifische einfache TUN reichen, also z.B. BC547 usw. R1 und R2 können auch 10k sein; R3 funktioniert bei vielen ESP32 besser mit 10k. @robert-hh hat R3 weggelassen: GPIO0 (“P2”) hat einen internen weak pull-up.
(aus: https://tttapa.github.io/ESP8266/Chap06%20-%20Uploading.html)
Dieses Schaltungsdetail wird nicht nur von robert-hh und Espressif selbst, sondern auch etlichen anderen Herstellern auf deren Boards verwendet: nodeMCU, nodeLua, Wemos/Lolin, M5Stack…
Die Schaltung könnt Ihr mit einfachen Mitteln testen und bei Gefallen (ich bin sicher, viele haben sie schon unwissentlich benutzt auf entsprechenden boards! ;) ) auch auf einer Version 2 der Platine integrieren.
Voraussetzung ist, daß ein für die Programmierung verwendbarer USB-Seriell-Adapter also neben Rx und Tx die Signale RTS und DTR herausgeführt hat.
Der Vollständigkeit halber: legt man Wert darauf, daß sich GPIO0 noch anderweitig verwenden läßt, muß man PNP-Transistoren gemäß diesem Vorschlag verwenden (bislang noch nicht selbst probiert):
(aus: https://forum.arduino.cc/index.php?topic=446651.0)

