Hands-On Speech-to-Text in Java with CMU Sphinx4

Building Robust Voice Recognition Applications

Table of Contents

Article

In the world of voice-enabled applications, converting spoken language into text is a fundamental capability. While cloud-based services exist, sometimes you need an offline, embeddable solution that respects privacy and works without an internet connection. This is where CMU Sphinx shines.

Sphinx4 is a pure Java speech recognition library developed by Carnegie Mellon University. It's perfect for desktop applications, embedded systems, or any project requiring reliable, offline speech-to-text capabilities.

In this guide, we'll walk through setting up Sphinx4, creating a basic speech recognizer, and building a more advanced continuous listening application.

Project Setup: Dependencies First

Sphinx4 is available on Maven Central. Add the following dependencies to your pom.xml file to get started.

<dependencies>
<!-- Sphinx4 Core -->
<dependency>
<groupId>edu.cmu.sphinx</groupId>
<artifactId>sphinx4-core</artifactId>
<version>5prealpha-SNAPSHOT</version>
</dependency>
<!-- Sphinx4 Data (contains default acoustic models) -->
<dependency>
<groupId>edu.cmu.sphinx</groupId>
<artifactId>sphinx4-data</artifactId>
<version>5prealpha-SNAPSHOT</version>
</dependency>
</dependencies>

1. Basic Speech Recognition from Audio File

Let's start with the simplest use case: transcribing a pre-recorded audio file.

import edu.cmu.sphinx.api.Configuration;
import edu.cmu.sphinx.api.SpeechResult;
import edu.cmu.sphinx.api.StreamSpeechRecognizer;
import java.io.InputStream;
public class FileSpeechRecognizer {
public static void main(String[] args) throws Exception {
// Configuration setup
Configuration configuration = new Configuration();
// Set path to acoustic model
configuration.setAcousticModelPath("resource:/edu/cmu/sphinx/models/en-us/en-us");
// Set path to dictionary
configuration.setDictionaryPath("resource:/edu/cmu/sphinx/models/en-us/cmudict-en-us.dict");
// Set path to language model
configuration.setLanguageModelPath("resource:/edu/cmu/sphinx/models/en-us/en-us.lm.bin");
// Create recognizer
StreamSpeechRecognizer recognizer = new StreamSpeechRecognizer(configuration);
// Load audio file from resources
InputStream audioStream = FileSpeechRecognizer.class
.getResourceAsStream("/audio/example.wav");
// Start recognition
recognizer.startRecognition(audioStream);
SpeechResult result;
// Get results
while ((result = recognizer.getResult()) != null) {
System.out.println("Hypothesis: " + result.getHypothesis());
System.out.println("Best 3 hypothesis:");
result.getNbest(3).forEach(s -> System.out.println(" - " + s));
}
// Stop recognition
recognizer.stopRecognition();
}
}

2. Live Microphone Recognition

For real-time speech recognition from a microphone, we need a different approach.

import edu.cmu.sphinx.api.Configuration;
import edu.cmu.sphinx.api.LiveSpeechRecognizer;
import edu.cmu.sphinx.api.SpeechResult;
public class LiveSpeechRecognition {
public static void main(String[] args) throws Exception {
// Configuration setup (same as before)
Configuration configuration = new Configuration();
configuration.setAcousticModelPath("resource:/edu/cmu/sphinx/models/en-us/en-us");
configuration.setDictionaryPath("resource:/edu/cmu/sphinx/models/en-us/cmudict-en-us.dict");
configuration.setLanguageModelPath("resource:/edu/cmu/sphinx/models/en-us/en-us.lm.bin");
// Create live recognizer
LiveSpeechRecognizer recognizer = new LiveSpeechRecognizer(configuration);
System.out.println("Starting recognition. Say 'exit' to stop.");
// Start recognition
recognizer.startRecognition(true);
SpeechResult result;
boolean isRunning = true;
while (isRunning) {
result = recognizer.getResult();
if (result != null) {
String hypothesis = result.getHypothesis();
System.out.println("You said: " + hypothesis);
// Check for exit command
if ("exit".equalsIgnoreCase(hypothesis)) {
isRunning = false;
}
// Display confidence score
System.out.printf("Confidence: %.2f\n", result.getResult().getLogMath().logToLinear((float) result.getResult().getLogScore()));
}
}
recognizer.stopRecognition();
System.out.println("Recognition stopped.");
}
}

3. Advanced Continuous Recognition with Grammar

For specific command-based applications, you can use grammars to restrict the vocabulary and improve accuracy.

import edu.cmu.sphinx.api.Configuration;
import edu.cmu.sphinx.api.LiveSpeechRecognizer;
public class GrammarBasedRecognition {
public static void main(String[] args) throws Exception {
Configuration configuration = new Configuration();
configuration.setAcousticModelPath("resource:/edu/cmu/sphinx/models/en-us/en-us");
configuration.setDictionaryPath("resource:/edu/cmu/sphinx/models/en-us/cmudict-en-us.dict");
// Use grammar instead of language model for constrained vocabulary
configuration.setGrammarPath("resource:/grammars");
configuration.setGrammarName("commands");
configuration.setUseGrammar(true);
LiveSpeechRecognizer recognizer = new LiveSpeechRecognizer(configuration);
System.out.println("Voice Commands Ready!");
System.out.println("Say: open file, save file, delete, copy, paste, or exit");
recognizer.startRecognition(true);
boolean listening = true;
while (listening) {
var result = recognizer.getResult();
if (result != null) {
String command = result.getHypothesis().toLowerCase();
System.out.println("Command: " + command);
switch (command) {
case "open file":
System.out.println("ACTION: Opening file dialog...");
break;
case "save file":
System.out.println("ACTION: Saving current file...");
break;
case "delete":
System.out.println("ACTION: Deleting selection...");
break;
case "copy":
System.out.println("ACTION: Copying to clipboard...");
break;
case "paste":
System.out.println("ACTION: Pasting from clipboard...");
break;
case "exit":
listening = false;
System.out.println("Exiting voice commands...");
break;
default:
System.out.println("Unknown command: " + command);
}
}
}
recognizer.stopRecognition();
}
}

4. Creating a Grammar File

Create a file src/main/resources/grammars/commands.gram:

#JSGF V1.0;
grammar commands;
public <command> = (open file | save file | delete | copy | paste | exit);

5. Custom Configuration Manager

For more control over the recognition process, you can create a custom configuration manager.

import edu.cmu.sphinx.api.Configuration;
import edu.cmu.sphinx.api.Context;
import edu.cmu.sphinx.frontend.util.StreamDataSource;
import edu.cmu.sphinx.recognizer.Recognizer;
public class SpeechRecognitionManager {
private Configuration configuration;
private Context context;
private Recognizer recognizer;
public SpeechRecognitionManager() {
setupConfiguration();
initializeRecognizer();
}
private void setupConfiguration() {
configuration = new Configuration();
// Model paths
configuration.setAcousticModelPath("resource:/edu/cmu/sphinx/models/en-us/en-us");
configuration.setDictionaryPath("resource:/edu/cmu/sphinx/models/en-us/cmudict-en-us.dict");
configuration.setLanguageModelPath("resource:/edu/cmu/sphinx/models/en-us/en-us.lm.bin");
// Configuration tweaks for better performance
configuration.setUseGrammar(false);
configuration.setSampleRate(16000);
}
private void initializeRecognizer() {
try {
context = new Context(configuration);
context.setLocalProperty("decoder->searchManager", "wordPruningSearchManager");
recognizer = context.getInstance(Recognizer.class);
} catch (Exception e) {
throw new RuntimeException("Failed to initialize recognizer", e);
}
}
public void startRecognition() {
if (recognizer != null) {
recognizer.allocate();
}
}
public void stopRecognition() {
if (recognizer != null) {
recognizer.deallocate();
}
}
// Getters
public Configuration getConfiguration() { return configuration; }
public Context getContext() { return context; }
public Recognizer getRecognizer() { return recognizer; }
}

Best Practices and Tips

Audio Quality Matters: Use 16kHz, 16-bit mono PCM WAV files for best results
Microphone Selection: Choose a good quality microphone and consider using noise cancellation
Grammar vs Language Model:

Use grammars for constrained vocabulary (command-based apps)
Use language models for free-form speech

Performance Tuning: Adjust beam widths and other decoder parameters for your specific use case
Custom Models: For domain-specific applications, consider training custom acoustic and language models

Common Issues and Solutions

"No speech detected": Check microphone permissions and audio format
Poor accuracy: Ensure you're using the appropriate model for your audio characteristics
High latency: Adjust decoder parameters or use a grammar instead of full language model

Conclusion

Sphinx4 provides a powerful, flexible foundation for speech recognition in Java applications. While it may not match the accuracy of cloud-based services for general speech, it excels in offline scenarios, specific domains, and privacy-sensitive applications.

The modular architecture allows for extensive customization, from simple command recognition to complex natural language processing pipelines. By starting with the basic examples provided and gradually incorporating more advanced features, you can build robust voice-enabled applications that work entirely offline.

Next Steps: Explore custom model training, integrate with NLP pipelines for command interpretation, or combine with text-to-speech for complete voice interfaces.