Bayern Online EDV Administration Internet Hosting Email Archivierung und Historische Fernmeldetechnik Bayern Online EDV Administration und Historische Fernmeldetechnik EDV Service | Historische Fernmeldetechnik | Bildersammlung
Suchen
info@bayern-online.com
Tel: 0160-6753587


 

Webseiten
  • Homepage
  • Was ist Neu
  • Suchen
  • Suchen - Neu
  • Spritkosten Berechnen
  • Impressum
  • AGB
  • Haftungsausschluss
  • Sitemap
  • Login
  • Marktplatz

  • Kategorien
     > Telefontechnik
        Geschichte Telekommu..
        Lexikon
        Vorwort
        Chronik des Fernmeld..
        >> Abkürzungen
        Videos
        Hauptbauteile
        Landesfernwahl
        Systeme Liste
        Verbreitung in Europ..
        Bilder
        Stromversorgung
        Animationen
        Links
        2 Sprechstellen mit..
        Vorfeldeinrichtungen
        Rund um die Telefont..
        Schaltungen
        Zusatzeinrichtungen
        Verbindungen
        Fernsprechauskunft
        Biografien
        1909 bis 1922
        Reichspostsystem - B..
        System Dietl Wien
        System 22
        System 27
        System 29
        System 31
        System 34
        System 40
        Wählsystem 48
        Wählsystem 48M
        System 50
        System 55 (EMD)
        System EMK
        Endamt 57
        System 58
        Endämter mit Koordin..
        Technische Dokumenta..
        Fachbuch 40 Jahre Fe..
        Fachbuch Das Rheinla..
        Das Fernsprechkabel ..
        Fachbuch Feyerabend
        Cyclopedia Telephony..
     Bilder
     Webmail Zugang
     Netzwerk EDV Service
     Email-Hilfe
     Schaltpläne
     Rundfunk

     
    Homepage > Telefontechnik > Abkürzungen
    Sprechpausenerkennung  286 von 346eine Seite zurückeine Seite vor

    Sprechpausenerkennung
    Sprechpausenerkennung

    Abkürzung Englisch 

    • VAD = voice activity detection

    Sprechpausenerkennung ist eine in der Sprachverarbeitung genutzte Technik, bei der die An- oder Abwesenheit menschlicher Stimme erkannt wird.Die Hauptverwendungszwecke für Sprechpausenerkennung liegen in den Bereichen der Sprachkodierung und Spracherkennung. Es kann die Sprachverarbeitung erleichtern und kann genutzt werden, um manche Vorgänge während einer Sprechpause zu deaktivieren: Es kann unnötige Kodierung und Übertragung von inhaltsleeren Datenpaketen in IP-Telephonieanwendungen vermeiden und so Rechenleistung und Übertragungskapazität einsparen.

    Sprechpausenerkennung ist eine Schlüsseltechnik für eine Vielzahl Sprach-basierter Anwendungen. Daher wurden verschiedene Algorithmen entwickelt, die unterschiedliche Merkmale aufweisen und eine Abwägung zwischen Latenz, Empfindlichkeit, Präzision und Berechnungsaufwand darstellen. Manche Algorithmen liefern auch weitere Analysedaten, zum Beispiel ob die Sprache stimmhaft, stimmlos oder ausgehalten ist. Sprechpausenerkennung ist üblicherweise unabhängig von der Sprache.

    Erstmals untersucht wurde sie zur Verwendung in Systemen für zeitzugeordnete Sprachinterpolation (ZSI).

    Algorithmus

    Der typische Entwurf eines VAD-Algorithmus ist folgendermaßen:

    • Das erste kann ein Schritt zur Rauschreduktion sein, zum Beispiel durch spektrale Subtraktion.
    • Dann werden manche Merkmale oder Größen für einen Abschnitt des Eingangssignales berechnet.
    • Es wird eine Klassifikationsregel angewandt, um den Signalabschnitt als Sprache oder als Sprechpause einzuordnen – oft prüft das Klassifikationsverfahren, ob ein Wert einen Schwellwert überschreitet.

    In dieser Abfolge kann es Rückkopplungen geben, in der die Entscheidung der Sprechpausenerkennung genutzt wird, um die Störgeräuscherkennung anzupassen oder die/den Schwellwert(e) dynamisch anzupassen. Diese Rückkopplungsmechanismen verbessern die Erkennungsleistung bei veränderlichen Störgeräuschen.

    Ein repräsentativer Satz kürzlich veröffentlichter Sprechpausenerkennungsmethoden bestimmt die Entscheidungsregel von Block zu Block unter Verwendung fortlaufend gemessener Abweichungsabstand zwischen Sprache und Störgeräusch. Die unterschiedlichen Messgrößen, die bei der Sprechpausenerkennung genutzt werden, umfassen Abfall der Spektralverteilungskurve, Korrelationskoeffizienten, logarithmischer Wahrscheinlichkeits-Quotient, Cepstrum-, gewichtete Cepstrum- und modifizierte Abstandsmaße.

    Unabhängig von der Wahl des Pausenerkennungsalgorithmus muss abgewägt werden zwischen der Erkennung von Störgeräuschen als Sprache oder Sprache als Störgeräusch (zwischen falsch positiv und falsch negativ). Eine in einem Mobiltelephon betriebene Sprechpausenerkennung muss Sprachsignale unter Anwesenheit einer Palette sehr unterschiedlicher Arten akustischer Hintergrundgeräusche erkennen können. Unter diesen schwierigen Erkennungsbedingungen ist es oft wünschenswert eine konservative Pausenerkennung zu haben, die im Zweifelsfall als Sprachsignal kategorisiert, um die Gefahr verlorener Sprachabschnitte zu mindern. Die größte Schwierigkeit bei der Erkennung der Sprachabschnitte in dieser Umgebung sind die geringen anzutreffenden Rauschabstände. Wenn Teile der Sprachäußerungen in Störgeräuschen untergehen, kann eine Unterscheidung zwischen Sprache und Störgeräuschen aufgrund einfacher Pegelbestimmung unmöglich sein.

    Anwendungen

    • Sprechpausenerkennung ist ein grundlegender Bestandteil verschiedener Sprachkommunikationssysteme wie Telefonkonferenzanwendungen, Echokompensation, Spracherkennung, Sprachsignalkodierung und freihändiges Telefonieren.
    • Im Bereich von Multimedia-Anwendungen ermöglicht Sprechpausenerkennung gleichzeitige Nutzung von Sprach- und Datenanwendungen.
    • Ähnlich beeinflusst und reduziert es bei Universal Mobile Telecommunications Systems (UMTS) die durchschnittliche Bitrate und verbessert insgesamt die Sprachqualität.
    • In Mobilfunksystemen (beispielsweise GSM und CDMA2000) mit unterbrochener Übertragung (DTX) ist Sprechpausenerkennung wesentlich für die Verbesserung der Gesamtkapazität durch Verringerung der Störung von Nebenkanälen und Energieverbrauch von Mobilgeräten.


    Bei einer breiten Palette von Anwendungen wie digitalem Sprechfunk, Digital Simultaneous Voice and Data (DSVD) oder Sprachaufzeichnungen ist es wünschenswert, eine unterbrochene Übertragung von Sprachkodierungsparametern. Vorteile können niedrigerer durchschnittlicher Energiebedarf in Mobilgeräten, höhere durchschnittliche Bitrate für gleichzeitige Dienste wie Datenübertragung oder höhere Kapazität auf Speicher-Chips sein. Allerdings sind die Vorteile abhängig vom Anteil von Pausen in Gesprächen und der Zuverlässigkeit der eingesetzten Sprechpausenerkennung. Einerseits ist es vorteilhaft, einen geringen Anteil von Sprachabschnitten zu haben. Andererseits sollten Einschnitte in Sprachabschnitte, also der Verlust von Sprachabschnitten, minimiert werden, um Qualität zu erhalten. Das ist das entscheidende Problem für einen Sprechpausenerkennungsalgorithmus unter der Bedingung starker Störgeräusche.

    Nutzung im Telefonverkauf

    Eine umstrittene Anwendung von Sprechpausenerkennung ist in Verbindung mit von Telefonverkaufsfirmen verwendeten Predictive Dialern. Um die Produktivität der Agenten zu maximieren richten Telefonverkaufsfirmen Predictive Dialer ein, um mehr Nummern anzurufen, als Agenten verfügbar sind, in dem Wissen, dass die meisten Anrufe unbeantwortet oder bei Anrufbeantwortern enden. Wenn eine Person annimmt, so sprechen sie meist kurz („Hallo“, „Guten Abend“ etc.) und dann folgt ein Zeitraum der Stille. Anrufbeantworteransagen enthalten üblicherweise 3 bis 15 Sekunden an kontinuierlichem Sprachfluss. Mit korrekt gewählten Sprechpausenerkennungsparametern können Dialer bestimmen, ob eine Person oder ein Anrufbeantworter den Ruf angenommen hat und wenn es eine Person ist, den Anruf an einen verfügbaren Agenten übergeben. Wenn ein Anrufbeantworter erkannt wurde, so hängt der Dialer auf. Oft erkennt das System korrektermaßen die Annahme durch eine Person, wobei kein Agent verfügbar ist.

    Leistungsbewertung

    Um eine Sprechpausenerkennungsmethode zu bewerten, wird seine Ausgabe anhand von Testaufnahmen mit den Ergebnissen einer „idealen“ Sprechpausenerkennung verglichen – erstellt durch manuelle Feststellung der An- und Abwesenheit von Sprache in den Aufnahmen. Die Leistung einer Sprechpausenerkennung wird üblicherweise anhand der folgenden vier Parameter untersucht:

    • FEC (Front End Clipping): angeschnittener Sprachabschnitt beim Übergang von Störgeräusch zu Sprachinhalt
    • MSC (Mid Speech Clipping): unterbrochener Sprachabschnitt durch Fehlklassifizierung von Sprachinhalt als Störgeräusch
    • OVER: als Sprachinhalt interpretierte Störgeräusche durch andauernden Sprechpausen-Status nach dem Übergang von Sprache zu Störgeräuschen
    • NDS (Noise Detected as Speech): Störgeräusche während einer Stilleperiode werden als Sprachsignal interpretiert.


    Trotzdem die oben beschriebene Methode nützliche objektive Informationen zur Leistung einer Sprechpausenerkennung liefert, ist sie nur ein näherungsweises Maß für die subjektive Auswirkung. Beispielsweise können die Auswirkungen angeschnittener Sprachabschnitte abhängig von der Art des gewählten Komfortrauschgenerators manchmal durch die Anwesenheit von Hintergrundgeräuschen verdeckt sein, wodurch manche mit objektiven Tests gemessene Einschnitte in Sprachabschnitte eigentlich nicht wahrnehmbar sind. Daher ist es wichtig, Sprechpausenerkennungen subjektiven Tests zu unterziehen, hauptsächlich um die Annehmbarkeit der wahrgenommenen Einschnitte sicherzustellen. Diese Art von Tests erfordert von einer gewissen Anzahl von Hörern die Bewertung von Aufnahmen mit den Erkennungsergebnissen der zu testenden Verfahren. Die

    Hörer müssen die folgenden Merkmale bewerten:

    • Qualität
    • Verständlichkeit
    • Hörbarkeit von Einschnitten


    Diese durch das Anhören einiger Sprachsequenzen erhaltenen Bewertungen werden dann benutzt um Durchschnittsergebnisse für die einzelnen oben aufgezählten Merkmale zu berechnen und dadurch eine allgemeine Einschätzung des Verhaltens der getesteten Sprechpausenerkennung zu erhalten. Während also objektive Methoden in einem anfänglichen Entwicklungsstadium sehr nützlich sind um die Qualität einer Sprechpausenerkennung zu prüfen, sind subjektive Methoden aussagekräftiger. Da sie jedoch teurer sind (weil sie die Teilnahme einer gewissen Anzahl von Leuten über einige Tage erfordern), werden sie allgemein nur genutzt, wenn sich ein Vorschlag in der Standardisierung befindet.

    Implementierungen

    • Eine frühe standardisierte Sprechpausenerkennung ist die 1991 von British Telecom für die Nutzung in dem europaweiten digitalen Mobilfunknetzwerk entwickelte Methode. Es benutzt anhand von Sprechpausenabschnitten trainiertes inverses Filtern, um Hintergrundgeräusche auszufiltern und danach zuverlässiger anhand eines einfachen Pegelschwellwertes zu entscheiden, ob eine Stimme anwesend ist.
    • Der G.729-Standard berechnet die folgenden Merkmale für seine Sprechpausenerkennung: Line Spectral Frequencies, gesamte Bandenergie, unterer Teil der Bandenergie (<1 kHz) und Nulldurchgangsrate. Es setzt eine einfache Klassifizierung ein mit einer festen Entscheidungsschwelle in dem Raum, den diese Merkmale definieren, und nimmt anschließend Glättungen und dynamische Korrekturen an dieser Schätzung vor.
    • Der GSM-Standard enthält zwei vom ETSI entwickelte Möglichkeiten zur Sprechpausenerkennung.Die erste Möglichkeit berechnet den Störabstand in neun Frequenzbändern und wendet einen Schwellwert auf diese Werte an. Die zweite Möglichkeit berechnet unterschiedliche Parameter: Energiedichte des Kanals, Messparameter von der Stimme und Energiedichte der Störgeräusche. Es wendet dann einen Schwellwert auf die Sprachsignalparameter an, der mit dem geschätzten Störabstand verändert wird.
    • Die Speex-Audio-Kompressorbibliothek nutzt eine als Improved Minima Controlled Recursive Averaging benannte Prozedur, die eine geglättete Darstellung der spektralen Energieverteilung nutzt und dann nach den Minima eines geglätteten Periodogramm sucht. Ab Version 1.2 wurde es nach Aussage des Autors durch eine Pfuschlösung (englisches Original: „kludge“) ersetzt.


    Komfortrauschen

    Komfortrauschen (engl. comfort noise) ist ein im Rahmen der digitalen Signalverarbeitung künstlich erzeugtes Rauschen, welches bei der digitalen Übertragung von menschlicher Sprache zur Füllung von Sprachpausen verwendet wird.

    Anwendungen liegen überall dort, wo mittels Audio-Codecs Sprachsignale digital komprimiert werden. Beispiele sind der digitale Mobilfunk wie GSM und VoIP. Komfortrauschen wird immer zusammen mit einer Rauschsperre angewendet, welche auf Seite des Sprechers alle Geräusche unter einem bestimmten Lautstärkepegel unterdrückt.

    Komfortrauschen erzeugt beim Zuhörer in Sprechpausen die Illusion einer weiter bestehenden Verbindung, ohne die für die Übertragung des Rauschens ansonsten notwendige Datenrate im Netzwerk zu beanspruchen. Ohne Komfortrauschen würde bei Gesprächspausen komplette Stille auftreten, was sich in der Regel störend auf den Zuhörer auswirkt. Durch die plötzlich auftretende Stille entsteht der Eindruck, dass die Sprachverbindung abgebrochen wäre.
    Quelle Wikipedia: Creative Commons-Lizenz   



    Abkürzung:  VAD

    Sprechpausenerkennung  286 von 346eine Seite zurückeine Seite vor
    Homepage > Telefontechnik > Abkürzungen