Ich hab mir die letzten Tage das gitlab-Repo der preisgekroenten SPARK-KI-Plattform des BMDS angesehen. Laut Ministerium sollen damit Antragsdokumente aus ganz ganz vielen Dokumenten einfacher auf Vollstaendigkeit und Plausibilitaet geprueft werden.
Eine wesentliche Komponente davon ist, Dokumente aus PDF, DOCX und PPTX(!) nach… Markdown zu extrahieren mit ein wenig LLM-Zusammenfassungen und TOC-Extraktion: https://gitlab.opencode.de/bmds/planungs-und-genehmigungsbeschleunigung/spark-workflow/-/tree/main/05-modulcluster/modul-inhaltsextraktion?ref_type=heads