Công nghệ Viettel chiến thắng Google - Tại sao không?

03:11 | 19-11-2019

Nếu bạn đang ở Hà Nội, vừa mới sinh con và muốn hỏi thủ tục hành chính các bước để đăng ký giấy khai sinh cho con, khi gọi vào tổng đài giải đáp các thắc mắc về hành chính công của Thành phố Hà Nội, chắc chắn, bạn sẽ không thể ngờ giọng tư vấn viên trả lời bạn không phải là người thật.

Giọng nói đó là ứng dụng từ dịch vụ tiếng nói nhân tạo của Viettel. Đây là thành quả của các kỹ sư công nghệ nhóm Công nghệ Xử lý tiếng nói của Trung tâm Không gian mạng Viettel.

Ngày nay, phương thức giao tiếp giữa người và máy đang thông qua bàn phím và hình ảnh dần bị thay thế bằng tiếng nói. Cuộc cách mạng 4.0 sẽ giúp con người dễ dàng trong việc giao tiếp với máy khi sử dụng tiếng nói. Nhận thức được xu thế này, Viettel chủ động thay đổi để cạnh tranh với Google và Facebook trong việc phục vụ nhu cầu của người Việt. Tính năng này sẽ là xu thế của tương lai khi các “ông lớn” công nghệ trên thế giới cũng mới chuyển dịch nghiên cứu. Phát triển công cụ tương lai này chính là cách làm chủ không gian mạng của Việt Nam.

Ông Lê Minh Hưng, Giám đốc Trung tâm Không gian mạng Viettel cho biết, năm 2017, Viettel bắt đầu triển khai nghiên cứu làm chủ các công nghệ nhận dạng tiếng nói và tổng hợp tiếng nói. Các kết quả nghiên cứu đã được công bố và thường xuyên cập trên trên website trải nghiệm công nghệ trí tuệ nhân tạo VTCC.AI của Trung tâm Không gian mạng Viettel tại địa chỉ https://viettelgroup.ai. Đối với dịch vụ tổng hợp tiếng nói, các kỹ sư Viettel đã sử dụng công nghệ hiện đại nhất trong lĩnh vực trí tuệ nhân tạo như mạng nơron học sâu để sản xuất ra các giọng đọc Tiếng Việt với ngữ điệu tự nhiên, đa dạng giọng đọc, với 7 giọng đọc phân theo vùng miền, và dễ dàng tích hợp trên các hệ thống. Khi trải nghiệm dịch vụ này, người nghe đều dễ nhận thấy chất lượng giọng đọc của Viettel vượt trội so với Google.

Đ/c Lê Minh Hưng, Giám đốc Trung tâm Không gian mạng Viettel

Tháng 3/2018, dịch vụ tổng hợp tiếng nói của Viettel đã đạt giải nhất cuộc thi VLSP 2018 (Vietnamese Language and Speech Processing). Đây là hội nghị thường niên về Xử lý ngôn ngữ tự nhiên và tiếng nói cho tiếng Việt với sự tham gia của các tổ chức, nhóm nghiên cứu trên toàn thế giới. 

Hệ thống tổng hợp tiếng nói nhân tạo có thể ứng dụng trên nhiều nền tảng như đọc báo tự động trên Trình duyệt bảo mật SFive, ứng dụng trong sách nói và ứng dụng trong hệ thống chăm sóc khách hàng tự động.

Nhóm Công nghệ Xử lý tiếng nói Trung tâm Không gian mạng Viettel.

Đối với hệ thống chăm sóc khách hàng tự động, từ tháng 8/2017 đến nay, dịch vụ Nhận dạng tiếng nói đã được áp dụng thành công vào việc hỗ trợ đánh giá cuộc gọi chăm sóc khách hàng Viettel. Trung bình mỗi ngày, hệ thống Nhận dạng tiếng nói chuyển đổi thành công 35.000 - 40.000 cuộc gọi với tỷ lệ nhận dạng cuộc gọi đạt 82% mức từ khóa. Thử nghiệm bài toán này với Google độ chính xác chỉ đạt 55%. Ngoài ra, hệ thống Nhận dạng tiếng nói hiện tại cũng giúp lọc dữ liệu nhanh gấp 8 lần so với hệ thống chưa tích hợp Nhận dạng tiếng nói, từ đó đưa ra báo cáo thống kê, phát hiện nhanh các cuộc gọi “khả nghi” nhằm đánh giá điện thoại viên chính xác và phát hiện sớm được thái độ của khách hàng đối với dịch vụ của Viettel.

Bên cạnh việc chất lượng nhận dạng tốt hơn Google, về chi phí vận hành hệ thống Nhận dạng tiếng nói của Viettel cũng có nhiều lợi thế. Cụ thể, Google tính block nhận dạng là 15s với giá tiền là 0,006 USD tương đương 1,44 USD/giờ. Với khoảng 40.000 cuộc gọi như hiện nay tương đương với khoảng 2.000 giờ thoại, nếu dùng dịch vụ của Google sẽ tiêu tốn 2.880 USD/ngày. Trong khi sử dụng dịch vụ của Viettel chi phí ước tính chỉ bằng 1/10 so với Google.

Đây là kết quả tất yếu vì sản phẩm 100% made by Viettel này đã được áp dụng những nền tảng công nghệ học máy và kỹ thuật học sâu mới nhất trong lĩnh vực trí tuệ nhân tạo. Các chuyên gia, kỹ sư của Trung tâm Không gian mạng có kinh nghiệm đào tạo, làm việc tại nhiều nước trên thế giới. Có thể kể ra đây hai kỹ sư người Việt là Nguyễn Quốc Bảo - Trưởng nhóm Công nghệ Xử lý Tiếng nói và Tiến sĩ khoa học máy tính Đỗ Văn Hải. Họ đều là các chuyên gia cao cấp từ nước ngoài trở về và làm việc tại Viettel với mong muốn tạo nên sản phẩm Việt dành cho người Việt.

Trước khi về Viettel, Nguyễn Quốc Bảo là chuyên gia xử lý tiếng nói tại Đức. “Dự án giúp tôi có thể áp dụng công nghệ trí tuệ nhân tạo tiên tiến nhất trên thế giới về Việt Nam. Viettel đã đầu tư và tạo điều kiện để tôi hoàn thành dự án mang tính tương lai. Công nghệ này sẽ giúp con người giao tiếp với máy móc dễ dàng hơn”, thủ lĩnh của dự án chia sẻ.

Còn Tiến sĩ khoa học máy tính Đỗ Văn Hải đã có 8 năm nghiên cứu tại Singapore trước khi trở về Việt Nam thực hiện dự án. Anh cho biết: “Dự án đã giúp tôi thực hiện được mong muốn làm được một sản phẩm ứng dụng Tiếng Việt. Để triển khai thành công dự án thì BigData là vô cùng quan trọng. Ở Viettel đây là lợi thế. Kiến thức sau nhiều năm nghiên cứu tại nước ngoài, đã giúp tôi triển khai được dự án có tính thực tế cao, đáp ứng được nhu cầu của người dân”.

Tiến sĩ khoa học máy tính Đỗ Văn Hải.

Chỉ sau 2 năm bắt đầu, dự án đã đem lại những thành công vượt trội, chia sẻ bí quyết, cả hai thủ lĩnh của dự án đều cho rằng tác phong quân đội ở Viettel đã giúp những người triển khai dự án “chiến đấu” hết mình, khi đặt ra mục tiêu thì phải hoàn thành bằng được.

Nguồn: 30nam.viettel

Link bài gốc: TẠI ĐÂY