Phòng thí nghiệm MIT CSAIL đã phát triển được hệ thống có thể giải mã các ngôn ngữ chết theo thời gian. Và đưa lĩnh vực này lên một bước tiến mới khi hệ thống có khả năng tự động giải mã các ngôn ngữ cũ. Mà không cần quá nhiều kiến thức nhằm đối chiếu ngôn ngữ này với ngôn ngữ khác. Bên cạnh đó hệ thống còn có thể xác định quan hệ các ngôn ngữ với nhau. Và ffax được dùng để củng cố cho hoc thuật rằng tiếng nói Iberia không có liên hệ với Basque.
Table of Contents
Sử dụng Machine Learning để giải mã ngôn ngữ chết
Các nhà khoa học ở Viện Công nghệ Massachusetts MIT (Mỹ) vừa tạo ra hệ thống sử dụng học máy (machine learning) để giải mã các ngôn ngữ đã chết. Nhiều nghiên cứu cho thấy, phần lớn các ngôn ngữ đang tồn tại trên thế giới không được sử dụng; hàng chục ngôn ngữ chết không thể nhận ra. Các nhà ngôn ngữ học không hiểu đầy đủ về ngữ pháp, từ vựng và cú pháp của những ngôn ngữ ấy.
Việc nghiên cứu các ngôn ngữ bị lãng quên là rất khó, bởi phần lớn các ngôn ngữ ấy không thể so sánh được với ngôn ngữ tương tự khác. Một số ngôn ngữ còn thiếu cả quy tắc ngữ pháp hay dấu câu. Phòng thí nghiệm Tin học và Trí tuệ nhân tạo thuộc Viện Công nghệ Massachusetts MIT (Mỹ) đã thực hiện bước đột phá trong giải mã các ngôn ngữ bị lãng quên.
Tự động giải mã các ngôn ngữ bị lãng quên
Các nhà khoa học đã phát triển hệ thống mới, có khả năng tự động giải mã ngôn ngữ bị lãng quên. Mà không cần có kiến thức về sự liên quan với các ngôn ngữ khác. Hệ thống có thể xác định mối liên quan giữa các ngôn ngữ. “Hệ thống hoạt động dựa trên 7 nguyên tắc liên quan đến hiểu biết về lịch sử ngôn ngữ. Theo những nguyên tắc này, ngôn ngữ nói chung chỉ phát triển theo cách có thể dự đoán trước”. Bà Regina Barzilay, Giám đốc dự án phát triển hệ thống giải mã ngôn ngữ chết của MIT, cho biết như vậy.
Thông tin mới về: Trí tuệ nhân tạo tại đây.
Trong lịch sử tiến hóa ngôn ngữ, rất hiếm khi xảy ra trường hợp thêm vào. Hoặc loại bỏ toàn bộ âm thanh, mà thường xảy ra các trường hợp thay thế âm thanh. Chẳng hạn như một từ với chữ cái “p” trong ngôn ngữ mẹ (ngôn ngữ gốc). Có thể được thay thế bằng chữ cái “b” trong ngôn ngữ con. Tuy nhiên không có khả năng chuyển thành “k”.
Nhúng âm thanh vào không gian đa chiều
Thuật toán được đề xuất sẽ có khả năng đánh giá tính liên hệ giữa hai ngôn ngữ. Trên thực tế, khi được thử nghiệm với các ngôn ngữ đã biết. Nó thậm chí còn có thể nhận định chính xác các nhóm ngôn ngữ trực hệ. Khi được thử nghiệm đối chiếu tiếng Iberia với Basque. Và cả những nhóm ngôn ngữ xa hơn như Roman, ngữ tộc German; ngữ hệ Turc; và ngữ hệ Ural. Thuật toán đã cho kết quả là, tuy tiếng Iberia gần với Basque và Latinh hơn các ngôn ngữ khác. Chúng vẫn không đủ gần để được coi là ngôn ngữ liên quan.
Tận dụng những giới hạn về ngôn ngữ này. Các nhà khoa học của MIT đã phát triển một thuật toán giải mã. Có khả năng đối phó với không gian khổng lồ của các phép biến đổi ngôn ngữ. Thuật toán này học cách nhúng các âm thanh ngôn ngữ vào một không gian đa chiều. Nơi sự khác biệt trong cách phát âm được phản ánh thông qua các từ, cụm từ được vector hóa tương ứng. Hệ thống có mục đích phân đoạn các từ trong một ngôn ngữ cổ và ánh xạ chúng thành các từ tương đương trong ngôn ngữ liên quan.