Thiết bị đeo dùng sóng siêu âm tái tạo biểu cảm khuôn mặt
Một nhóm nhà nghiên cứu Đại học Cornell (Mỹ) phát triển thiết bị tai nghe đeo được - hay “nghe được” - phát ra âm thanh từ má và biến âm thanh dội lại thành hình đại diện toàn bộ khuôn mặt đang chuyển động của người dùng, sử dụng công nghệ âm thanh để mang lại sự riêng tư tốt hơn.
Nhóm do Cheng Zhang (trợ lý giáo sư khoa học thông tin) và Francois Guimbretière (giáo sư khoa học thông tin) dẫn đầu thiết kế hệ thống có tên EarIO. Hệ thống truyền chuyển động trên khuôn mặt đến điện thoại thông minh trong thời gian thực và tương thích với tai nghe thương mại có sẵn cho hội nghị truyền hình không dây, rảnh tay.
Zhang cho biết, thiết bị theo dõi chuyển động trên khuôn mặt bằng camera “lớn, nặng và ngốn năng lượng - đây là vấn đề lớn đối với thiết bị đeo được và điều quan trọng là chúng có thể nắm bắt được rất nhiều thông tin riêng tư”. Theo dõi khuôn mặt thông qua công nghệ âm thanh mang lại sự riêng tư, khả năng chi trả, sự thoải mái và tuổi thọ pin tốt hơn,
Nhóm nghiên cứu mô tả chiếc tai nghe “nghe được” của họ trong “EarIO là một cảm biến âm thanh công suất thấp có thể theo dõi liên tục mọi chuyển động trên khuôn mặt”. EarIO hoạt động giống như con tàu phát ra xung sonar. Loa ở mỗi bên tai nghe gửi tín hiệu âm thanh đến các cạnh của khuôn mặt và micro thu nhận tiếng vọng. Khi người đeo nói chuyện, cười hoặc nhướng mày, da di chuyển và căng ra làm thay đổi cấu hình tiếng vọng.
Một thuật toán học sâu được phát triển bởi nhóm nhà nghiên cứu sử dụng trí thông minh nhân tạo (AI) liên tục xử lý dữ liệu và chuyển những tiếng vọng thành biểu cảm khuôn mặt hoàn chỉnh. Đồng tác giả Ke Li, nghiên cứu sinh về lĩnh vực khoa học thông tin, giải thích: “Thông qua sức mạnh AI, thuật toán tìm ra những mối liên hệ phức tạp giữa chuyển động cơ bắp và nét mặt mà mắt người không thể xác định được. Chúng tôi sử dụng dữ liệu đó để suy ra thông tin phức tạp khó nắm bắt hơn - đó là toàn bộ khuôn mặt”.
Những nỗ lực trước đây của phòng thí nghiệm Zhang để theo dõi các chuyển động trên khuôn mặt bằng cách sử dụng tai nghe có camera đã tái tạo toàn bộ khuôn mặt dựa trên chuyển động của má khi nhìn từ tai. Bằng cách thu thập âm thanh thay vì hình ảnh nhiều dữ liệu, thiết bị “nghe được” giao tiếp với điện thoại thông minh thông qua kết nối Bluetooth không dây, giữ thông tin người dùng ở chế độ riêng tư. Với hình ảnh, thiết bị cần kết nối mạng Wi-Fi và gửi dữ liệu qua lại đám mây - điều này có khả năng khiến thiết bị dễ bị tin tặc tấn công.
Guimbretière bình luận: “Mọi người có thể không nhận ra thiết bị đeo thông minh như thế nào - thông tin đó nói gì về bạn và các công ty có thể làm gì với thông tin đó. Với hình ảnh của khuôn mặt, ai đó cũng có thể suy ra cảm xúc và hành động. Mục tiêu dự án này là đảm bảo tất cả thông tin, rất có giá trị đối với quyền riêng tư của bạn, luôn nằm trong tầm kiểm soát của bạn và được tính toán cục bộ”. Sử dụng tín hiệu âm thanh cũng tốn ít năng lượng hơn so với ghi lại hình ảnh và EarIO sử dụng 1/25 năng lượng của một hệ thống dựa trên camera khác mà phòng thí nghiệm Zhang đã phát triển trước đây. Hiện tại, thiết bị sử dụng được khoảng 3 giờ đối với pin tai nghe không dây, nhưng nghiên cứu trong tương lai sẽ tập trung vào việc kéo dài thời gian sử dụng.
Nhóm nhà nghiên cứu thử nghiệm thiết bị này trên 16 người tham gia và sử dụng camera trên điện thoại thông minh để xác minh độ chính xác của hiệu suất bắt chước khuôn mặt của nó. Loạt thử nghiệm ban đầu cho thấy hệ thống hoạt động trong khi người dùng đang ngồi và đi bộ xung quanh; gió, tiếng ồn trên đường cũng như những cuộc thảo luận xung quanh đều không ảnh hưởng đến tín hiệu âm thanh của nó. Trong các phiên bản tương lai, nhóm nhà nghiên cứu hy vọng sẽ cải thiện khả năng điều chỉnh tiếng ồn xung quanh và những gián đoạn khác của thiết bị “nghe được”. Đồng tác giả Ruidong Zhang, nghiên cứu sinh trong lĩnh vực khoa học thông tin, nhận định: “Phương pháp cảm nhận âm thanh mà chúng tôi sử dụng rất nhạy. Nó tốt, bởi vì nó có thể theo dõi những chuyển động rất tinh tế; nhưng nó cũng rất khác biệt vì khi có điều gì đó thay đổi trong môi trường, hoặc khi đầu bạn di chuyển nhẹ, chúng cũng nắm bắt được điều đó”.
Một hạn chế của công nghệ là trước lần sử dụng đầu tiên, EarIO phải thu thập 32 phút dữ liệu khuôn mặt để huấn luyện thuật toán. Zhang kết luận: “Cuối cùng, chúng tôi hy vọng có thể cắm và chạy thiết bị này”.