Salesforce Tạo Ra Thuật Toán Tự Tóm Tắt Văn Bản Dựa Trên AI

15 Tháng Năm 201710:00 CH(Xem: 17528)
Salesforce Tạo Ra Thuật Toán Tự Tóm Tắt Văn Bản Dựa Trên AI
blank
Trước xu hướng con người ngày càng mất nhiều thời gian đọc email, báo điện tử và mạng xã hội, Salesforce đã phát triển một thuật toán sử dụng machine-learning (máy học) để tự động tóm tắt các văn bản dài một cách gọn gàng và chính xác.

Việc tự động tóm tắt sẽ là một trong những công nghệ quan trọng đối với Salesforce – công ty chuyên cung cấp các sản phẩm phục vụ cho hoạt động chăm sóc khách hàng trong doanh nghiệp. Những đoạn văn tóm tắt có thể giúp nhân viên giảm thiểu thời gian đọc email và thông tin mới để tập trung nhiều hơn cho khách hàng của mình.

Salesforce đã sử dụng trí tuệ nhân tạo (AI) phân tích và tóm gọn các đoạn văn. Công ty cho biết đã thực hiện được 2 bước đột phá trong công nghệ xử lý ngôn ngữ tự nhiên là “mô hình phát sinh ngôn từ theo ngữ cảnh” và một “phương pháp huấn luyện các mô hình tóm tắt mới”. Hai mô hình mới sẽ cho phép các nhà nghiên cứu tự động tạo ra các đoạn tóm tắt một cách chính xác và dễ hiểu. Trước đó, Salesforce cũng đã mua lại startup về deep learning (công nghệ học sâu) MetaMind - nhóm nhân sự đứng sau toàn bộ công trình.

Nhóm nghiên cứu MetaMind giải thích, công nghệ tự động tóm tắt văn bản thông thường hoạt động trên 2 nguyên tắc: Extraction và Abstraction. Theo nguyên tắc Extraction, máy tính có thể tóm tắt dựa trên các câu chữ trước đó của văn bản nhưng không được linh hoạt lắm. Còn nguyên tắc Abstraction sẽ cho phép máy đưa thêm từ mới nhưng hệ thống buộc phải hiểu đoạn văn ở mức khá cao mới có thể cho sử dụng từ mới một cách chuẩn xác. Nhờ các mạng neuron trong deep-learning phát huy tác dụng. Chúng có thể xử lý hàng loạt câu ví dụ và cho ra những từ biểu thị ý nghĩa của cả cụm từ, giúp hệ thống lược dịch lại được các đoạn chữ cũng như sinh ra được từ ngữ của riêng nó.


Các nhà nghiên cứu còn cho mô hình xem lại các đoạn văn bản nó đã tóm tắt để có thêm ngữ cảnh. Các mô hình cũng xem lại cả các ví dụ tóm tắt do chính nó thực hiện để đảm bảo không lặp lại trong các đoạn sau.

Bước đột phá thứ hai của Salesforce cách các nhà nghiên cứu huấn luyện cho hệ thống tự học và nâng cấp chính nó. 2 phương pháp được sử dụng là teacher forcing (học dưới sự thúc ép của “giáo viên”) và reinforcement learning (học tăng cường).

Reinforcement learning là phương pháp huấn luyện lấy cảm hứng từ cách động vật học hỏi, từng được Google DeepMind sử dụng để huấn luyện AI chơi video game. Các chuyên gia sẽ cho mô hình tạo ra một chuỗi từ ngữ với kết quả được chấm điểm theo thang đánh giá ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Thuật toán sẽ tự động cập nhật chính nó bằng mức điểm cao hơn, dẫn đến kết quả tóm tắt tốt hơn trong tương lai.

Còn phương pháp Teacher forcing sẽ đánh giá bản tóm tắt theo một quy chuẩn định sẵn có thể cho ra “kết quả rất tốt” nhưng lại không mấy linh hoạt. Các nhà nghiên cứu nhận ra rằng, khi kết hợp các mô hình sẽ thu được kết quả ấn tượng hơn hẳn các hướng tiếp cận khác. Trong các ví dụ được nhóm nghiên cứu MetaMind đưa ra, các đoạn tóm tắt bằng mô hình cho ra kết quả ngắn hơn đáng kể so với văn bản gốc, câu chữ cũng gãy gọn dễ đọc ngang ngửa với bản tóm tắt do người viết.

Dù vậy, nhóm nghiên cứu vẫn còn rất nhiều việc cần làm trước khi đưa công nghệ mới vào thương mại hóa.
511Vote
43Vote
35Vote
216Vote
16Vote
2.941
Gửi ý kiến của bạn
Tắt
Telex
VNI
Tên của bạn
Email của bạn
Tạo bài viết
26 Tháng Chín 2019
Khoảng cuối tháng 09/2019, sau hàng loạt các lệnh cấm của các bang tại Mỹ và những nghi vấn liên quan đến sức khỏe người sử dụng vape , CEO của hãng sản xuất thuốc lá điện tử Juul đã chính thức từ chức. Cùng với sự kiện 1 trong những nhà sáng lập ra đi, Juul cũng công bố sẽ ngừng hoàn toàn các dạng quảng cáo trên thị trường và cũng dừng một số động thái vận động hành lang để cố thay đổi tình thế trước đó.
26 Tháng Chín 2019
Cuộc chiến chống độc quyền đối với các công ty công nghệ lớn đang nóng dần lên, những tập đoàn lớn nhất của Mỹ như Google, Amazon, Facebook và Apple đều được yêu cầu cung cấp thông tin như một phần của cuộc điều tra chống độc quyền đang được tiến hành bởi chính phủ Mỹ. Mục tiêu chủ yếu là để kêu gọi sự minh bạch hơn trong việc thu thập dữ liệu người dùng và điều tra về khả năng xảy ra những hành động xấu làm tê liệt cạnh tranh.
26 Tháng Chín 2019
Liệu ta có thể mạnh mẽ sống tiếp khi những ký ức về người thân đã mất vẫn luôn hiện hữu xung quanh mỗi ngày thông qua công nghệ? Sau khi qua đời, tài khoản mạng xã hội của ta sẽ ra sao? Chúng ta rồi cũng chết đi, nhưng các tài khoản mạng xã hội có thể vẫn còn mãi trên Internet.
26 Tháng Chín 2019
Khoảng cuối tháng 09/2019, ngay sau khi phát hành iOS 13.1 và iPadOS phiên bản mới, Apple đã tiếp tục cảnh báo người dùng các thiết bị của hãng về những ứng dụng bàn phím ảo do các nhà phát triển thứ 3 tạo ra và đưa lên App Store.
26 Tháng Chín 2019
Khoảng cuối tháng 09/2019, tập đoàn Daimler, công ty mẹ của thương thiệu xe hạng sang Mercedes-Benz, đang phải đối diện với án phạt lên đến 870 triệu euro (khoảng 960 triệu đô) sau vụ bê bối gian lận khí thải. Số tiền phạt quyết định bởi các công tố viên Đức có phần thấp hơn một xíu so với con số dự kiến lên đến 1,12 tỷ USD.
26 Tháng Chín 2019
Khoảng cuối tháng 09/2019, một hội đồng Hạ viện Mỹ ban hành dự luật nhằm cấp ngân sách 1 tỷ USD cho các nhà mạng không dây nhỏ và hoạt động tại vùng nông thôn để thay thế thiết bị mạng của các công ty như Huawei Technologies Co Ltd và ZTE Corp bằng các nhà cung cấp khác. Các nhà lập pháp Mỹ cho rằng, thiết bị của các công ty gây ra mối đe dọa về an ninh quốc gia.