Discussion

@anwagnerdreas@hcommons.social · 4 days ago

Jetzt Evaluation und Benchmarks. Bei der Frage nach DH-spezifischen LLM-Benchmarks sieht es mau aus.

Immerhin gibt es https://rise-unibas.github.io/humanities_data_benchmark Die haben nicht so schlechte Informationen und eine offene Einladung zum Mitmachen!

Tragt Eure DH Benchmarks bei!!

@spinfocl @SarahOberbichler

#DHd2026 #LLM #OpenLLM Workshop

Humanities Data Benchmark

Andreas Wagner

@anwagnerdreas@hcommons.social · 4 days ago

Gerade diskutiert @spinfocl die verschiedenen Aspekte von Offenheit bei LLMs: Gewichte, Inferencing Code, Trainingsdaten, Trainingslogik.

https://opensource.org/ai/open-source-ai-definition
https://isitopen.ai/
https://doi.org/10.48550/arXiv.2405.15802
https://doi.org/10.1145/3630106.3659005

#OpenLLM #OpenSourceAI
#OSI #OAID #MOF #OpenWashing #DHd2026

Rethinking open source generative AI: open washing and the EU AI Act

arXiv.org

Towards a Framework for Openness in Foundation Models: Proceedings from the Columbia Convening on Openness in Artificial Intelligence

Over the past year, there has been a robust debate about the benefits and risks of open sourcing foundation models. However, this discussion has often taken place at a high level of generality or with a narrow focus on specific technical attributes. In part, this is because defining open source for foundation models has proven tricky, given its significant differences from traditional software development. In order to inform more practical and nuanced decisions about opening AI systems, including foundation models, this paper presents a framework for grappling with openness across the AI stack. It summarizes previous work on this topic, analyzes the various potential reasons to pursue openness, and outlines how openness varies in different parts of the AI stack, both at the model and at the system level. In doing so, its authors hope to provide a common descriptive framework to deepen a nuanced and rigorous understanding of openness in AI and enable further work around definitions of openness and safety in AI.

Andreas Wagner

@anwagnerdreas@hcommons.social · 4 days ago

Jetzt Evaluation und Benchmarks. Bei der Frage nach DH-spezifischen LLM-Benchmarks sieht es mau aus.

Immerhin gibt es https://rise-unibas.github.io/humanities_data_benchmark Die haben nicht so schlechte Informationen und eine offene Einladung zum Mitmachen!

Tragt Eure DH Benchmarks bei!!

@spinfocl @SarahOberbichler

#DHd2026 #LLM #OpenLLM Workshop

Humanities Data Benchmark

Andreas Wagner

@anwagnerdreas@hcommons.social · 3 days ago

Danach erster Hands-On Teil mit Kai Niebes: Lokales Ausführen von Olmo2/3 (in LMStudio), wie kann ich über ein Python-Skript auf den Chat, seine Konfiguration und seine Nachrichten zugreifen, was muss ich an System/User Prompts verändern, um Aufgaben auszuführen, wie kann ich Olmo pdf-Dokumente prozessieren lassen?

@spinfocl @SarahOberbichler

#DHd2026 #LLM #OpenLLM Workshp

Andreas Wagner

@anwagnerdreas@hcommons.social · 3 days ago

Und jetzt zweiter Theorie-Teil mit @SarahOberbichler: LLM als Tool oder als Werkzeug, was sind typische Nutzungsszenarios in den DH? Zu berücksichtigen: Risikobewertung, systematische Evaluation.

A propos Infrastruktur: mehr als die Hälfte der Teilnehmenden hätten wohl Zugang zu institutionellen HPC- und Jupyter-Angeboten. Aber auch kommerzielle Compute-Angebote oder Zwischengestalten wie HuggingFace.

#DHd2026 #LLM #OpenLLM

Andreas Wagner

@anwagnerdreas@hcommons.social · 3 days ago

Zum Thema Evaluation im Theorie-Teil ( @SarahOberbichler) des Workshops LLMs unter Kontrolle: kurze Fragen der Teilnehmenden zu Verfallsdatum von Benchmarks wenn LLMs mit den Evaluationsdaten trainiert werden und zu (Nicht-)Steuerbarkeit von LLM Harvesting mit robots.txt/llm.txt

Dann Thema Profiling von Trainingsdatensätzen am Bsp. Dolma/Olmo. Sprache und Labels (Bsp. "History", wo es viele Quellen gibt, die so "meh" und weder historische Texte noch geschichtswissenschaftlich sind.)

Dann nochmal Thema Bias Evaluation...

Link zu Folien poste ich später in diesem Thread.

#DHd2026 #LLM #OpenLLM

bonfire.cafe

A space for Bonfire maintainers and contributors to communicate

bonfire.cafe: About · Code of conduct · Privacy · Users · Instances

Bonfire social · 1.0.2-alpha.34 no JS en

Automatic federation enabled