Und jetzt zweiter Theorie-Teil mit @SarahOberbichler: LLM als Tool oder als Werkzeug, was sind typische Nutzungsszenarios in den DH? Zu berücksichtigen: Risikobewertung, systematische Evaluation.
A propos Infrastruktur: mehr als die Hälfte der Teilnehmenden hätten wohl Zugang zu institutionellen HPC- und Jupyter-Angeboten. Aber auch kommerzielle Compute-Angebote oder Zwischengestalten wie HuggingFace.
Zum Thema Evaluation im Theorie-Teil ( @SarahOberbichler) des Workshops LLMs unter Kontrolle: kurze Fragen der Teilnehmenden zu Verfallsdatum von Benchmarks wenn LLMs mit den Evaluationsdaten trainiert werden und zu (Nicht-)Steuerbarkeit von LLM Harvesting mit robots.txt/llm.txt
Dann Thema Profiling von Trainingsdatensätzen am Bsp. Dolma/Olmo. Sprache und Labels (Bsp. "History", wo es viele Quellen gibt, die so "meh" und weder historische Texte noch geschichtswissenschaftlich sind.)
Dann nochmal Thema Bias Evaluation...
Link zu Folien poste ich später in diesem Thread.