AI Sẽ Nhận Diện Cảm Xúc Qua Dữ Liệu Như Thế Nào?

29 Tháng Năm 20181:39 SA(Xem: 16716)
AI Sẽ Nhận Diện Cảm Xúc Qua Dữ Liệu Như Thế Nào?
AI Sẽ Nhận Diện Cảm Xúc Qua Dữ Liệu Như Thế Nào
AI Sẽ Nhận Diện Cảm Xúc Qua Dữ Liệu Như Thế Nào?

Có thể chắc chắn rằng ngay cả con người cũng không thể cảm nhận được cảm xúc qua ngữ điệu đúng 100%. Vậy còn AI? Liệu trong tương lai, AI có nhận diện được cảm xúc trong lời nói?

 

Tính đến tháng 05/2018, các thiết bị điều khiển qua giọng nói, chủ yếu là loa thông minh như Alexa của Amazon, Google Home của Google và Homepod của Apple, đang ngày càng trở nên phổ biến hơn. CEO Google Sundar Pichai cho biết hơn 20% lệnh tìm kiếm công ty nhận được tới từ điện thoại di động và được khởi tạo qua giọng nói. Vào cuối năm 2017, các nhà phân tích gợi ý rằng có đến 44 triệu sản phẩm Alexa và Google Home đã được bán ra. Tốc độ phủ sóng chóng mặt của loa thông minh là không thể chối cãi, nhưng liệu công nghệ có cần dừng chân và suy ngẫm lại xem liệu AI nói chung và machine-learning nói riêng nếu tiếp tục phát triển sẽ đi theo hướng nào và có đem lại rủi ro gì cho nhân loại?

 

Công nghệ nhận diện giọng nói vẫn đang không ngừng gây ấn tượng với thế giới nhờ khả năng nhận diện từ ngữ tốt, nhưng các chuyên gia cho rằng giao tiếp ngôn ngữ rất phức tạp và chứa đựng trong đó nhiều hơn là chỉ ngôn từ. Hay nói cách khác, ngữ điệu của một câu nói cũng quan trọng không kém ý nghĩa ngôn từ. Khi có ai đó nói “Tôi ổn”, chúng ta thường dựa vào giọng điệu của người nói để đoán được họ có thật sự ổn hay không, vì lượng thông tin được cho trong câu là quá ít và người nói hoàn toàn có thể nói dối. Giọng nói của một người có thể cho biết rất nhiều thông tin về họ, chẳng hạn như nơi sinh ra hay cảm xúc hiện tại của họ. Các nhà khoa học cho biết khi nghe một người lạ nói chuyện, chúng ta có khuynh hướng ngay lập tức để ý đến chất giọng cũng như tông giọng để đưa ra phán đoán về trình độ giáo dục, tiểu sử bản thân cũng như tầng lớp địa vị của họ trong xã hội.

 

Hiển nhiên, các thiết bị kiểm soát bằng giọng nói hiện thời chưa có khả năng nhận diện cảm xúc qua ngôn ngữ, và chính điều đó khiến việc sử dụng smart speaker đôi khi có thể trở nên rất phiền phức, vì tất cả những gì chúng quan tâm là ngôn từ và gần như lờ đi hoàn toàn cách mà câu lệnh được diễn đạt ra cũng như cảm xúc trong câu nói. Có thể nói, nhận diện cảm xúc qua giọng nói sẽ là cột mốc tiếp theo của các công ty công nghệ lớn trong cuộc cách mạng AI đặt ra.

 

Nếu thiết bị điều khiển qua giọng nói có thể nhận diện được trường thông tin cảm xúc, tương tác giữa người và vật có thể trở nên nhanh chóng và hiệu quả hơn bao giờ hết. Nhưng đi cùng với đó là sự thận trọng thường trực về những hậu quả không mong muốn. Vì công nghệ nhận diện giọng nói vốn phụ thuộc vào machine learning - một nhánh nhỏ của trí tuệ nhân tạo, có khả năng tập hợp hàng tỷ thuật toán và số liệu thống kê từ một máy chủ dữ liệu và do đó, hành vi của AI là không thể lường trước được.

 

Nghiên cứu chỉ ra rằng mẫu dữ liệu dùng để đào tạo machine-learning có xu hướng dẫn tới thiên vị. Một ví dụ điển hình về tính thiên vị của trí tuệ nhân tạo có thể nhận thấy được trong trường hợp về Google Translate: Khi sử dụng để thông dịch hai cụm từ tiếng Thổ Nhĩ Kỳ “o bir doktor” và “o bir hemşire” sang tiếng Anh, Google Translate đã trả về kết quả “He is a doctor” (Anh ấy là bác sĩ) và “She is a nurse” (Cô ấy là y tá). Tuy nhiên, trong tiếng Thổ Nhĩ Kỳ, “o” là đại từ ngôi thứ ba, dùng cho cả hai giới. Vậy căn cứ vào đâu mà Translate cho rằng nhân vật “o” là nam giới trong câu đầu tiên và nữ giới trong câu thứ hai? Câu trả lời là phần mềm đã được đào tạo với nhiều thuật toán thiên vị văn hóa trong kho dữ liệu thuật toán.

 

Đây không phải vấn đề dễ giải quyết bởi machine learning phản ánh chính xác suy nghĩ và quan điểm của con người. Nghiên cứu cho biết, khi một phụ nữ kết thúc câu nói bằng cách lên giọng, người nghe sẽ nghĩ rằng đó là phụ nữ trẻ, và một người đàn ông sẽ được cho là to lớn và khỏe mạnh khi anh sở hữu giọng nói trầm ấm. Những phỏng đoán đơn giản hóa tương tự rất dễ dẫn tới suy luận và phán xét thiên kiến. Khả năng suy luận xem liệu chủ nhân đang cảm thấy tức giận, hạnh phúc hay buồn rầu ngay từ ngữ điệu lời nói của họ có thể trở nên rất hữu ích cho người dùng thiết bị nhà ở thông minh. Nhưng vấn đề là, dấu hiệu về ngữ điệu thay đổi tùy theo từng cá thể, đặc biệt là trong từng ngôn ngữ và kéo theo đó là khác biệt theo từng nền văn hóa. Thậm chí, đến cả con người cũng không thể nhận diện được cảm xúc chính xác 100%, có nên trông đợi máy móc sẽ làm được khá hơn?

 

Cuối cùng, có thể đoán được rằng các hãng công nghệ phát triển thiết bị thông minh điều khiển qua giọng nói nhiều khả năng đã và đang làm việc với những chuyên gia về âm thanh để nghiên cứu và phát triển ra một trợ lý ảo có khả năng cảm nhận được ngữ điệu trong câu nói. Nhưng các công ty lớn trong cuộc đua AI nói chung, và nhận diện giọng nói nói riêng, cần phải tỏ ra hết sức thận trọng, trước khi đào tạo AI với một lượng dữ liệu về giọng nói con người khổng lồ, và bắt đầu cho phép chúng giải mã tiếng nói của con người.

519Vote
42Vote
310Vote
210Vote
18Vote
3.349
Gửi ý kiến của bạn
Tắt
Telex
VNI
Tên của bạn
Email của bạn
Tạo bài viết
26 Tháng Ba 2019
Khoảng cuối tháng 03/2019, sau nhiều năm, cuối cùng Apple cũng đã chính thức ra mắt dịch vụ truyền hình Apple TV Plus. Như vậy, Apple đã chính thức gia nhập mảng kinh doanh truyền hình trực tuyến và trở thành đối thủ cạnh tranh trực tiếp với Netflix.
18 Tháng Ba 2019
Nhiều người đã quá quen thuộc với đo nồng độ cồn qua việc thở vào 1 chiếc máy, trong tương lai, ở Mỹ sẽ có 1 thiết bị mới dùng để đo nồng độ: nồng độ cần sa có trong hơi thở, một bước kiểm tra mới để xem tài xế có đang sử dụng thuốc khi đi ngoài đường hay không, sản phẩm của hãng Hound Labs đang trong những giai đoạn thử nghiệm cuối cùng và chuẩn bj bán ra thị trường.
18 Tháng Ba 2019
Khoảng giữa tháng 03/2019, Toyota và cơ quan vũ trụ của Nhật Bản cho biết sẽ cùng hợp tác để phát triển một chiếc xe du hành Mặt Trăng có người lái. Hoạt động trên một môi trường đặc biệt đòi hỏi phương tiện phải dùng một dạng nhiên liệu đặc biệt không kém và loại được lựa chọn chính là pin nhiên liệu. Koichi Wakata, phó chủ tịch Cơ quan thám hiểm hàng không vũ trụ Nhật Bả (JAXA) khẳng định chiếc xe đóng một vai trò quan trọng trong công cuộc thám hiểm Mặt Trăng của con người, hứa hẹn sẽ diễn ra từ năm 2030.
26 Tháng Hai 2019
Khoảng cuối tháng 02/2019, tại sự kiện MWC diễn ra ở Tây Ban Nha, cả Micron và SanDisk đã công bố sản phẩm thẻ nhớ UHS-I microSDXC 1TB mới. Đây sẽ là thông tin cực kỳ hấp dẫn đối với những người dùng cần nhiều dung lượng lưu trữ và cảm thấy như phiên bản Galaxy S10 Plus cao cấp nhất vẫn chưa đủ thỏa mãn nhu cầu của mình.
25 Tháng Hai 2019
Khoảng cuối tháng 02/2019, tại MWC 2019, Microsoft đã chính thức ra mắt chiếc HoloLens 2, thiết bị đeo hiển thị hình ảnh 3 chiều hologram thế hệ thứ 2. Giá của phiên bản mới lên tới 3,500 USD và sẽ được giao đến các khách hàng doanh nghiệp vào cuối năm 2019.
21 Tháng Giêng 2019
Khoảng giữa tháng 01/2019, Startup Mỹ Deep Sentinel giới thiệu Deep Learning AI. Camera mới sẽ hiểu được chuyển động của một chiếc lá đang rơi và một con chim đậu cành cây là vô nghĩa, nhưng đặc biệt chú ý đến chuyển động của con người, sâu hơn nữa thiết bị nhận biết được một người lạ mặt có những hành động kì lạ hoặc hiểm hoạ tiềm ẩn và có ý đồ xâm nhập vào khu vực của gia chủ, nó sẽ theo dõi kĩ hơn và chuyển động theo bước đi...