Yay - wir haben nun bei der @digitalcourage Instanz das #mastodon Update. Offenbar wurde meine Anregung zur automatischen Spracherkennung beim Schreiben umgesetzt. Yay.

Falls es jemand interessiert, habe ich fingerprints für 852 natürliche Sprachen und Programmiersprachen hier: https://github.com/redaktor/languages
Die Idee bei unserer fedi software ist abgesehen vom serverseitigen parsen:
- Actor definiert, welche Sprachen verstande werden.
- Client bekommt Ausschnitt der fingerprints.
- Browser kann die zuverlässig erkennen.

@twz123

phew, es ist ein mix aus wipedia (ausgehend von wikidata / SPARQL) und
verschiedenen Oxford Corpi und bei Sprachen, die mir wichtig waren [aber nur noch wenig gesprochen werden, z. B. in Ozeanien] auch lokalen Quellen.
Es sind halt auch Trigramme, die so erstmal nur für Erkennung genutzt werden sollten.
Momentan arbeite ich an semantischer Kompression (en/de/fr/es/pt), da kommt was anderes raus.