Trung tuần tháng 10/2016, Microsoft công bố đội ngũ kỹ sư ở mảng AI của bộ phận Research đã phát triển độ chính xác của tính năng nhận diện giọng nói của AI lên mức gần như con người.
Được biết, con người có khả năng ghi nhận lại những đoạn hội thoại bằng lời với tỷ lệ chính xác trung bình 94.1%. Còn hệ thống trí tuệ nhân tạo (AI) của Microsoft cũng đã đạt mức độ tương tự. Cụ thể, giám đốc bộ phận nhận diện giọng nói Xuedong Huang của Microsoft cho biết: “Chúng tôi đã đạt tới hiệu suất của con người. Đây là một thành công mang tính lịch sử”
Trong tháng 09/2016, Microsoft từng tuyên bố rằng khả năng nhận diện giọng nói của AI đã đạt mức 6.3% lỗi. Đến trung tuần tháng 10/2016, tỷ lệ lỗi đã được xuống chỉ còn 5.9%. Để đạt được mức độ đó, đội ngũ của Microsoft đã áp dụng mô hình nhận diện ngôn ngữ mang tính kế thừa dựa trên mạng nơ-ron nhân tạo kết hợp với đám mây từ ngữ.
Theo đó, những từ như "fast", "quick", đều diễn tả sự nhanh chóng, sẽ được đặt với nhau theo cùng một nhóm (vector) nhằm giúp hệ thống AI có thể nhận diện ra dễ dàng hơn trong phép so sánh với nhóm những từ có nghĩa "chậm".
Nhờ đó, hệ thống AI của Microsoft có thể khái quát hóa các từ ngữ và nhận diện chúng tốt hơn trong các ngữ cảnh khác nhau. Toàn bộ hệ thống mới đều được xây dựng dựa trên hệ thống deep-learning Computational Network Toolkit do chính Microsoft phát triển.
Nhóm nghiên cứu cho biết sẽ đặt ra mục tiêu là hoàn thiện mức độ tin cậy của hệ thống nhận diện giọng nói, cho phép nó có thể được sử dụng trong các tình huống đời thật, chẳng hạn như trên đường phố đông đúc hoặc lúc đang lái xe,… Ngoài ra, nhóm cũng hy vọng rằng hệ thống AI sẽ có khả năng tương tác với nhiều người dùng khác nhau cùng lúc trong một đoạn hội thoại tiếp diễn liên tục.
Gửi ý kiến của bạn