Um 04:00 Uhr findet das taegliche Datenbackup statt (Ausfallzeit ca. 20 Minuten). Bitte beenden Sie Ihre Arbeit vorher.

Modul Sprachtechnologie

Technische Universität Dresden | Wintersemester 2025 / 2026 Modul Sprachtechnologie

Das Modul umfasst die Vorlesungen Spracherkennung und Sprachsynthese sowie ein Praktikum und eine Modulprüfung.

 

Vorlesung Spracherkennung

🇩🇪 Die Vorlesung Spracherkennung behandelt Methoden zur Umwandlung von Sprachaudiosignalen in geschriebenen Text, also „Speech-to-Text“. Nachdem wir uns mit der Problemstellung vertraut gemacht haben gibt es eine kurze Einführung in die Phonetik und Phonologie, die sowohl die Grundlage für die Spracherkennung als auch für die Sprachsynthese bildet. Dann behandeln wir die Merkmalsberechnung und Methoden zur Einzelworterkennung. Anschließend betrachten wir das schwierigere Problem der Wortfolgenerkennung, einerseits mit klassischen Hidden-Markov-Modellen, und andererseits durch moderne neuronale Modelle. Bei der Wortfolgenerkennung spielen auch Sprachmodelle eine Rolle, die heute in erweiterter Form in ChatGPT oder Gemini eingesetzt werden.

Die Vorlesung kann bei Bedarf auf Englisch gehalten oder durch englischsprachige Unterlagen unterstützt werden.

🇬🇧 The lecture Speech Recognition deals with methods for converting speech audio signals into written text, i.e. "speech-to-text". After we have familiarized ourselves with the problem, there is a brief introduction to phonetics and phonology, which forms the basis for both speech recognition and speech synthesis. We then cover feature computation and single word recognition methods. We then consider the more difficult problem of word sequence recognition, using classical hidden Markov models on the one hand, and modern neural models on the other. Language models, which are used today in an extended form in ChatGPT or Gemini, also play a role in word sequence recognition.

If required, the lecture can be held in English or supported by English-language documents.

Zeit: Do, 3.DS (11:10 - 12:40 Uhr)
Ort: BAR/0213/H
Vortragender: Prof. Peter Birkholz

 

Vorlesung Sprachsynthese

🇩🇪 In der Vorlesung Sprachsynthese beschäftigen wir uns mit der künstlichen Erzeugung von Sprachsignalen aus Text („Text-to-Speech“), wie sie uns heute in immer mehr Anwendungen begegnet. Wir beginnen mit der Vorverarbeitung von Text wie der Textnormalisierung und der Erzeugung von Lautfolgen. Anschließend beschäftigen wir uns mit Methoden zur Beschreibung und Erzeugung der Prosodie, insbesondere der Sprachmelodie. Auf dieser Grundlage behandeln wir verschiedene Methoden zur Erzeugung des eigentlichen Sprachsignals. Dazu gehören klassische Methoden wie die Formantsynthese und Verkettungssynthese, aber auch artikulatorische Sprachsynthese (Simulationsmodelle des Vokaltrakts, der Stimmlippen und der Akustik) und die neusten Methoden der neuronalen Synthese.

Die Vorlesung kann bei Bedarf auf Englisch gehalten oder durch englischsprachige Unterlagen unterstützt werden.

🇬🇧 In the lecture Speech Synthesis we deal with the artificial generation of speech signals from text ("text-to-speech"), as we encounter it today in more and more applications. We start with the pre-processing of text, such as text normalization and the generation of sound sequences. We then look at methods for describing and generating prosody, in particular speech melody. On this basis, we deal with various methods for generating the actual speech signal. These include classical methods such as formant synthesis and concatenation synthesis, but also articulatory speech synthesis (simulation models of the vocal tract, vocal folds and acoustics) and the latest methods of neural synthesis.

If required, the lecture can be held in English or supported by English-language materials.

Zeit: Mo., 4. DS (13:00 - 14:30 Uhr)
Ort: BAR/0218/U
Vortragender: Prof. Peter Birkholz

 

Praktikum

Das Praktikum umfasst Versuche zur Analyse, Erkennung und Synthese von Sprachsignalen.

Zeit: Mo., 3. DS (11:10 - 12:40 Uhr)
Ort: BAR/I61 (PC-Pool)
Betreuer: João Menezes

 

Modulprüfung

Sobald eine Prüfungsankündigung verfügbar ist, finden Sie diese hier.

 

Die Modulbeschreibung finden Sie hier. Das Modul ist geeignet für:

Studiengang Modulart Modulname Modulnummer Semester
Elektrotechnik / Informationstechnik Wahlpflichtmodul Sprachtechnologie ET-12 09 04 9
Informationssystemtechnik/ Kommunikationstechnik Wahlpflichtmodul Sprachtechnologie

ET-12 09 04

7

 

Das Modul ist weiterhin geeignet für Studierende anderer technischer Disziplinen.

Empfohlene Kenntnisse: Systemtheorie I und II, Signalverarbeitung, Signalanalyse und Mustererkennung

 

Modul "Sprachtechnologie" der Professur für Sprachtechnologie und Kognitive Systeme.

Weitere Informationen anzeigen
Lade Bewertungsübersicht
Lade Übersicht