dịch tiếng k ho

Để bản dịch trọn vẹn cần phải dựa vào bản gốc từ sách lễ Rôma bằng tiếng Latinh. Làm được việc này, người dịch ngoài cùng lúc thông thạo cả tiếng Latinh và K’Ho, còn cần am hiểu về thần học, các nghi lễ. WikiDich là công cụ dịch tiếng Hoa miễn phí tức thời, người dùng không cần biết tiếng Hoa cũng có thể chuyển ngữ dễ dàng. Với những công cụ đơn giản, thân thiện và tự động hoá, web cung cấp những trải nghiệm tiên tiến nhất, nối liền khoảng cách ngôn ngữ. Quel Est Le Meilleur Site De Rencontre Payant. ArticlePDF AvailableAbstractMột ứng dụng dịch tự động Machine Translation – MT từ tiếng Việt sang tiếng dân tộc K’Ho được trình bày. Ứng dụng nhằm mục đích giới thiệu phương pháp dịch tự động dựa vào thống kê Statistics Machine Translation - STMT. Do tiếng Việt và tiếng dân tộc K’Ho cùng ngữ hệ Nam Á, nhưng lại thuộc nhóm ngôn ngữ khác nhau, nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát. Các nguyên tắc thiết kế của ứng dụng được mô tả chi tiết, cùng với giao diện của hệ thống. Một số kết quả dịch tự động cũng được trình bày để minh họa cho khả năng ứng dụng phương pháp STMT. Discover the world's research25+ million members160+ million publication billion citationsJoin for freeContent may be subject to copyright. TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 8, Số 2, 2018 3–12 3 DỊCH TỰ ĐỘNG VIỆT-K’HO SỬ DỤNG PHƯƠNG PHÁP DỰA VÀO THỐNG KÊ Nguyễn Minh Hiệpa, Nguyễn Thị Lươnga, Lê Văn Phượngb, Nguyễn Thị Minh Huyềnb, Đinh Viết Tuấna* aKhoa Công nghệ Thông tin, Trường Đại học Đà Lạt, Lâm Đồng, Việt Nam bKhoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, Hà Nội, Việt Nam *Tác giả liên hệ Email tuandv Lịch sử bài báo Nhận ngày 11 tháng 01 năm 2018 Chỉnh sửa ngày 25 tháng 03 năm 2018 Chấp nhận đăng ngày 14 tháng 04 năm 2018 Tóm tắt Một ứng dụng dịch tự động Machine Translation - MT từ tiếng Việt sang tiếng dân tộc K’Ho được trình bày. Ứng dụng nhằm mục đích giới thiệu phương pháp dịch tự động dựa vào thống kê Statistics Machine Translation - STMT. Do tiếng Việt và tiếng dân tộc K’Ho cùng ngữ hệ Nam Á, nhưng lại thuộc nhóm ngôn ngữ khác nhau, nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát. Các nguyên tắc thiết kế của ứng dụng được mô tả chi tiết, cùng với giao diện của hệ thống. Một số kết quả dịch tự động cũng được trình bày để minh họa cho khả năng ứng dụng phương pháp STMT. Từ khóa Dịch máy; Dịch tự động dựa vào thống kê; Dịch tự động; MT; STMT. Mã số định danh bài báo Loại bài báo Bài báo nghiên cứu gốc có bình duyệt Bản quyền © 2018 Các Tác giả. Cấp phép Bài báo này được cấp phép theo CC BY-NC-ND TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] 4 AN APPLICATION TO TRANSLATE FROM VIETNAMESE INTO K’HO USING STMT APPROACH Nguyen Minh Hiepa, Nguyen Thi Luonga, Le Van Phuongb, Nguyen Thi Minh Huyenb, Dinh Viet Tuana* aThe Faculty of Information Technology, Dalat University, Lamdong, Vietnam bThe Faculty of Mathematics - Mechanics - Informatics, VNU University of Science, Hanoi, Vietnam *Corresponding author Email tuandv Article history Received January 11th, 2018 Received in revised form March 25th, 2018 Accepted April 14th, 2018 Abstract This paper describes the Statistics Machine Translation STMT application to translate from Vietnamese into K’Ho. Both Vietnamese and K’Ho are in the same South Asian language family but they belong to different language groups, so the vocabulary, phrases, and sentences are used for language translation instead of the method based on general syntactic rules. The design principles of the application are described in detail, along with the system interface. Several machine translation results are also presented to illustrate the applicability of the STMT method. Keywords Machine Translation; MT; Statistics Machine Translation; STMT. Article identifier Article type peer-reviewed Full-length research article Copyright © 2018 The authors. Licensing This article is licensed under a CC BY-NC-ND Nguyễn Minh Hiệp, Nguyễn Thị Lương, Lê Văn Phượng, Nguyễn Thị Minh Huyền, và Đinh Viết Tuấn 5 1. GIỚI THIỆU Hiện nay, trên thế giới có khoảng 5650 ngôn ngữ khác nhau Đào, 2007. Số lượng ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin. Để có thể trao đổi thông tin phải cần đến một đội ngũ phiên dịch khổng lồ để dịch các văn bản, tài liệu, lời nói từ tiếng này sang tiếng khác. Vì vậy, con người đã nghĩ đến việc thiết kế một hệ thống tự động trong việc dịch. Hiện nay, khái niệm dịch tự động dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, tuy có một vài điểm khác biệt nhưng hầu hết đều tương đương với định nghĩa của Pushpak 2006, tr. 1 như sau Dịch máy hay dịch tự động bằng máy tính là tiến trình dịch từ một ngôn ngữ nguồn ngôn ngữ tự nhiên sang những ngôn ngữ đích, có hoặc không có sự trợ giúp của con người. Dịch máy thường được thiết kế hoặc cho một cặp ngôn ngữ đặc biệt hoặc cho nhiều hơn hai ngôn ngữ. Theo Trần 2006 thì quá trình xử lý tài liệu của dịch tự động được mô tả như Hình 1. Đầu vào của một hệ dịch tự động thường là một văn bản được viết bằng ngôn ngữ nguồn và quá trình dịch được chia thành hai giai đoạn i Văn bản được phân tích thành các thành phần và ii Được dịch thành văn bản ở dạng ngôn ngữ đích. Kết quả dịch có thể được con người hiệu chỉnh để trở thành bản dịch tốt hơn. Hình 1. Quá trình xử lý tài liệu của dịch tự động Hiện nay, dịch tự động vẫn còn nhiều khó khăn trong việc xử lý các nhập nhằng về ngôn ngữ trong quá trình dịch tự động. Các phương pháp thường dùng trong dịch tự động bao gồm  Dịch dựa trên cụm từ Phrase Based Machine Translation - PBMT Đào, 2007 là phương pháp xác định nghĩa của câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc cú pháp của cụm từ. Do thiếu thông tin ngữ cảnh khi xác định xác suất của các từ, nên nghĩa của từ được chọn nhiều lúc không đúng với ngữ cảnh. Đôi khi, nghĩa một từ của ngôn ngữ đích không đủ để diễn tả nghĩa của một từ trong ngôn ngữ nguồn và ngược lại; TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] 6  Dịch dựa trên luật Rule Based Machine Translation - RBMT là phương pháp dựa trên luật cú pháp, ngữ nghĩa và một từ điển khá đầy đủ thông tin. Câu được dịch thường không đạt độ chính xác như mong đợi do lỗi mâu thuẫn giữa các luật hoặc do tập luật không bao quát Satoshi & Makoto, 1990;  Dịch tự động dựa trên ví dụ Example-Based Machine Translation - EBMT được Antal và Peter 2009 tổng kết là cách tiếp cận không đòi hỏi phải có sự phân tích ngôn ngữ học về cú pháp, ngữ nghĩa vì mọi câu dịch đều dựa vào việc “so khớp” mẫu. Việc “so khớp” mẫu dựa hoàn toàn vào kho ngữ liệu song ngữ để xác định mẫu nào gần đúng nhất, sau đó hiệu chỉnh và xuất ra thành phần dịch tương ứng của mẫu đó;  Dịch tự động dựa trên thống kê Statistics Machine Translation - STMT là một phương pháp mà các bản dịch được tạo trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ việc phân tích các cặp câu song ngữ. Ý tưởng dịch tự động bằng thống kê mang tính thuần túy về toán học, cách tiếp cận này không đòi hỏi sự phân tích sâu về ngôn ngữ, quá trình dịch được thực hiện dựa trên kết quả thống kê có được từ kho ngữ liệu Adam, 2008. Về mặt ngôn ngữ, tiếng K’Ho thuộc ngữ hệ Nam Á, nhóm ngôn ngữ Môn - Khmer Trần, 1999. Vào đầu thế kỷ XX, ngôn ngữ K’Ho được xây dựng bằng hệ thống chữ Latin với mục đích truyền đạo, về sau tiếng K’Ho đã được cải tiến nhiều lần và được sử dụng phổ biến bởi các nhóm dân tộc thiểu số tại Lâm Đồng, Đăk Nông và các tỉnh Đông Nam bộ Trần, 1999. Đến nay, tiếng K’Ho được giảng dạy trong một số trường tiểu học tại vùng dân tộc thiểu số và để phục vụ cho công tác quản lý, phát triển kinh tế - xã hội, giữ gìn an ninh quốc phòng. Điều này đòi hỏi đội ngũ cán bộ công chức công tác ở các vùng có đồng bào dân tộc thiểu số phải biết sử dụng tiếng dân tộc bản địa trong giao tiếp và trong công tác theo qui định. Nhằm góp phần ứng dụng khoa học công nghệ vào việc nghiên cứu ngôn ngữ của đồng bào thiểu số và cung cấp thông tin dự báo thời tiết cho đồng bào dân tộc K’Ho trên địa bàn tỉnh Lâm Đồng, đồng thời các bản tin dự báo thời tiết mang một lượng lớn thông tin mang tính cập nhật, do vậy một ứng dụng dịch tự động từ tiếng Việt sang tiếng K’Ho trong phạm vi bản tin dự báo thời tiết của Đài Phát thanh và Truyền hình tỉnh Lâm Đồng đã được xây dựng. Do tiếng Việt và tiếng K’Ho cùng ngữ hệ Nam Á nhưng lại thuộc nhóm ngôn ngữ khác nhau Trần, 1999 nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát. Qua nghiên cứu tổng quan các phương pháp thì phương pháp dịch tự động dựa vào thống kê STMT là phương pháp phù hợp với yêu cầu và mục tiêu của đề tài. Trong báo cáo này, phương pháp STMT sẽ được trình bày trong việc áp dụng để xây dựng hệ dịch tự động Việt - K’Ho. Nội dung bài viết sẽ đề cập chi tiết về phương pháp STMT, các nguyên tắc thiết kế của ứng dụng cùng một số kết quả dịch tự động sẽ được trình bày để minh họa cho khả năng ứng dụng phương pháp STMT. Cấu trúc của bài viết được tổ chức như sau Mục 2 trình bày phương pháp STMT; Mục 3 đề cập đến kết quả thực nghiệm. Cuối cùng là phần kết luận và hướng phát triển. 2. PHƯƠNG PHÁP STMT Phương pháp Dịch máy thống kê là quá trình dịch văn bản từ một ngôn ngữ này sang một ngôn ngữ khác dựa trên mô hình được sinh ra một cách tự động từ ngữ liệu song ngữ parallel corpus. Phương pháp dịch máy thống kê lần đầu tiên được Antal và Peter 2009 đề cập trong bài báo với phương pháp sử dụng là mô hình kênh nhiễu. Bài toán được phát biểu như sau Nguyễn Minh Hiệp, Nguyễn Thị Lương, Lê Văn Phượng, Nguyễn Thị Minh Huyền, và Đinh Viết Tuấn 7 Cho một câu ngôn ngữ nguồn v=v1J=v1 ,v2,…, vJ tiếng Việt, ta cần dịch sang câu ngôn ngữ đích k=k1I=k1 ,k2,…, kI tiếng K’Ho. Dịch máy thống kê sẽ chọn một câu kmax có xác suất cao nhất trong rất nhiều khả năng dịch được đưa ra. kmax= arg maxk1Ipk1Iv1J 1 Sử dụng luật quyết định Bayes, pkv được tính như sau pkv= pvk*pkpv 2 Do pv1J và pk1Jkhông thay đổi với mỗi câu cần dịch khi dựa vào mô hình ngôn ngữ ngữ pháp nên công thức 1 có thể được viết lại như sau kmax= arg maxk1Ipv1Ik1J 3 Như vậy, để tính được kmax thì phải tính được các xác suất p phụ thuộc vào mô hình dịch với câu dịch thích hợp hơn sẽ có xác suất cao hơn. Xác suất này được ước lượng bằng cách sử dụng ngữ liệu song ngữ và sử dụng ý tưởng cách tiếp cận Maximum và mô hình gióng hàng. Xác suất  được phân tích qua biến ẩn được thêm vào như công thức 4 pv1Ik1J =∑pv1I,a1Ik1J 4 Trong đó pv1I,a1Ik1Jđược gọi là mô hình gióng hàng thống kê và gióng hàng a1I được gọi là biến ẩn. Gióng hàng xác định ánh xạ i → j = ai Từ vị trí i của câu nguồn tương ứng với vị trí j = ai của câu đích. Chẳng hạn với trường hợp như Hình 2. Hình 2. Mô hình gióng hàng Gọi     là một liên kết, ta có pv1Ik1J=∑pv1I,a1Ik1J. Trong đó, ∑pv1I,a1Ik1Jđược xác định thông qua biểu thức 5. mlkvpS mjaj j0k a pv, 5 Trong đó   lần lượt là độ dài số từ của  và k; S là số lần khi pvjkaj > 0; pvjkaj chính là xác suất của vj khi có kaj hay nói cách khác là xác suất hai từ này có liên kết với nhau. Xác suất này hoàn toàn có thể thống kê được nhờ tập mẫu. Chẳng hạn, với ví dụ trên, ta có công thức 6. pv,ak= 7+[pchiềumho+…+prải rácbà do bà ne]7+7 6 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] 8 Như vậy, xác suất pv,ak hoàn toàn tính được, do vậy pkv là tính được. Trong số các câu k trong tập mẫu, câu nào cực đại hoá Maximum được pkv chính là câu dịch cần chọn. Do vậy, thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng phương pháp thủ công, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên phương pháp thống kê. Rõ ràng, cách tiếp cận này không đòi hỏi một sự phân tích sâu về ngôn ngữ, chúng thực hiện hoàn toàn tự động các quá trình phân tích, chuyển đổi, tạo câu dựa trên kết quả thống kê có được từ kho ngữ liệu. Trong phần dưới đây sẽ trình bày cụ thể công thức đã nêu trên và thay vì sử dụng mô hình gióng hàng a với từng cặp tiếng Việt-K’Ho mà thay vào đó là câu tiếng Việt với bản dịch của tiếng K’Ho thông qua kho dữ liệu ngữ liệu song ngữ. Sơ đồ dịch máy thống kê Statistical Machine Translation - SMT Sơ đồ dịch máy thống kê được mô tả như Hình 3 sau đây. Hình 3. Sơ đồ dịch máy thống kê Tiền xử lý Khi nhận được văn bản đầu vào tiếng Việt hệ thống cần thực hiện việc xử lý phân đoạn từ tiếng Việt để tiện cho việc “xử lý” trong STMT. Tiếng Việt là một ngôn ngữ đơn lập, không biến hình, các ký tự được dựa trên hệ chữ cái Latin. Từ trong tiếng Việt ở đây lại không được xác định bởi khoảng trắng. Một từ tiếng Việt có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phân tách nhau bởi các khoảng trắng. Do vậy để tiến tới những ứng dụng xa hơn về xử lý ngôn ngữ tiếng Việt như gán nhãn chức năng cú pháp, phân tích cú pháp hay cụ thể để phục vụ cho việc dịch máy thì việc đầu tiên là phải giải quyết bài toán tách từ. Các nhà nghiên cứu đã đề xuất một số hướng tiếp cận để giải quyết bài toán tách từ. Nhìn chung, các hướng tiếp cận đó được chia thành hai loại i Tiếp cận dựa trên từ điển và ii Tiếp cận dựa trên thống kê. Nghiên cứu này thực hiện việc phân đoạn bằng phương pháp tiếp cận dựa trên từ điển. Ý tưởng của phương pháp này là duyệt một câu từ trái sang phải và chọn từ có nhiều tiếng nhất xuất hiện trong từ điển. Đây là một trong những phương pháp đơn giản nhưng có thể gặp phải rất nhiều các trường hợp nhập nhằng trong tiếng Việt. Tuy nhiên, nghiên cứu này chủ yếu triển khai thử Nguyễn Minh Hiệp, Nguyễn Thị Lương, Lê Văn Phượng, Nguyễn Thị Minh Huyền, và Đinh Viết Tuấn 9 nghiệm hệ thống dịch tự động trong một chủ đề nhất định, cụ thể là bản tin dự báo thời tiết, vì vậy vấn đề về nhập nhằng ngữ nghĩa sẽ ít xuất hiện. Sau khi kết thúc giai đoạn tiền xử lý thì mỗi câu trong đoạn văn bản đã được tách từ. Mỗi câu này sẽ là đầu vào của khối xử lý tiếp theo, khối lọc ra những câu có xác suất cao nhất. Có thể nói đây là khối xử lý phức tạp nhất, tốn nhiều thời gian nhất và chất lượng của nó sẽ ảnh hưởng đến hiệu suất dịch của toàn bộ hệ thống. Bộ giải mã Decoder Phần tiếp theo của một hệ dịch máy thống kê là chức năng tìm kiếm câu đích giải mã. Chức năng của một bộ giải mã là từ câu nguồn V sẽ tìm câu cần dịch K sao cho tích của hai xác suất mô hình dịch và mô hình ngôn ngữ là lớn nhất. Như đã trình bày ở trên, theo như công thức 5 và theo mô hình gióng hàng  thì  sẽ được xác định bởi mlkvpS mjaj j0k a pv,7 Ví dụ Với một câu đâu vào như sau v = Hôm nay nắng nhiều quá hôm nay nắng nhiều quá. Trong kho dữ liệu ngữ liệu song ngữ có câu k = ngai tơngai gel du ềt có bản dịch là Ngày nắng ít quá ngày nắng ít quá. Mô hình gióng hàng a sẽ là cặp câu liên kết giữa tiếng Việt và bản dịch của tiếng K’Ho thông qua kho dữ liệu ngữ liệu song ngữ như sau v Hôm nay nắng nhiều quá kNgày nắng ít quá Dựa vào từ điển đồng nghĩa ta có các xác suất như sau phôm nayngày= pnắngnắng=1, pnhiềuít= pquáquá=1 Áp dụng công thức 7, ta có pv,ak=4+[phôm nayngày+…+pquáquá]4+4 =4+ = Như vậy, sau khi chọn được câu có k có xác suất cao nhất, thì sẽ đến bước tiếp theo là hậu xử lý. Hậu xử lý Đầu vào của khối xử lý này là câu có kmax xác suất cao nhất được chọn đối với câu cần dịch thông qua bộ giải mã. Chỉ còn một pha cuối cùng chính là pha thay thế, thêm và xóa các từ cho câu đầu vào để có được câu dịch cần tìm. Thực chất đây là sự điều chỉnh phần câu dịch ngôn ngữ đích của mẫu để nó trở thành câu dịch cuối cùng. Ví dụ v hôm nay nắng nhiều quá; k ngày nắng ít quá K’Ho ngai tơngai gel du ềt.  Bước 1 Đánh dấu các từ có thể thay thế, ví dụ ở đây từ “nhiều” là thành phần thay thế của “ít”.  Bước 2 Thực hiện xóa các từ ở câu k. Kết quả hiện tại của câu k TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] 10 Việt ngày nắng ít quá. K’Ho ngai tơngai gel du ềt.  Bước 3 Thực hiện thêm các từ còn thiếu, xóa các từ dư thừa của câu k để giống hoàn toàn với câu input. Kết quả hiện tại của câu k Việt hôm nay ngày nắng ít quá. K’Ho ngai do ngai tơngai gel du ềt.  Bước 4 Thực hiện pha thay thế, ở đây, từ “ít” chính là từ được thay thế bởi “nhiều”. Tra trong từ điển song ngữ từ nhiều có nghĩa là “rà”. Việc chính ở đây là thay thế trong câu ví dụ từ “ít” trong câu K’Ho thành từ “nhiều” tương ứng. Trong câu song ngữ như đã nói ở phần kho ngữ liệu, có một trường được gọi là đánh dấu liên kết sẽ biết được từ “ít” trong câu ví dụ tiếng Việt sẽ tương ứng với từ nào trong câu ví dụ K’Ho. Ở đây “ít” chính là từ “du ềt” và cuối cùng chỉ cần thay thế từ “du ềt” thành từ “rà”. Kết quả ngai do ngai tơngai gel rà. Vậy câu dịch cuối cùng là “ngai do tơngai gel rà”. Ở đây, có một đánh giá đối với pha thay thế. Thay vì phải xóa từ “ít” và thêm vào câu ví dụ từ “nhiều” thì kết quả sau khi thực hiện pha tạo mẫu “ngai do ngai tơngai rà gel”. Bởi thuật toán thêm từ sẽ dựa trên từ đứng sau nó, ở đây từ “quá” đứng sau nó vậy từ “nhiều” sẽ được thêm trước từ “quá”. Vì vậy, kết quả sẽ có một chút sai lệch so với câu k, từ đó mà thể hiện được vai trò của pha thay thế trong trường hợp này. 3. KẾT QUẢ THỰC NGHIỆM Ứng dụng dịch văn bản Việt - K’Ho dựa trên phương pháp STMT đã được xây dựng với phạm vi là dịch các bản tin dự báo thời tiết của Đài Phát thanh và Truyền hình tỉnh Lâm Đồng. Chức năng cơ bản là dịch văn bản tiếng Việt thành tiếng K’Ho với phạm vi như trên. Theo như thiết kế, hệ thống cần sử dụng đến ba loại dữ liệu chính Từ điển song ngữ Việt – K’Ho; Từ điển đồng nghĩa; và Kho dữ liệu song ngữ. Để việc xử lý trong chương trình sau này được thuận tiện thì dữ liệu sẽ được cấu trúc và quản lý bằng hệ quản trị SQL Server. SQL Server là viết tắt của Structure Query Language, nó là một công cụ quản lý dữ liệu được sử dụng phổ biến ở nhiều lĩnh vực. Hầu hết các ngôn ngữ bậc cao đều có trình hỗ trợ SQL như VisualBasic, Oracle,Visual C… Các chương trình ứng dụng và các công cụ quản trị cơ sở dữ liệu CSDL cho phép người sử dụng truy cập tới CSDL mà không cần sử dụng trực tiếp SQL. Nhưng khi chạy những ứng dụng đó thì phải sử dụng SQL. Chương trình thực nghiệm với cấu trúc từ điển song ngữ Việt - K’Ho như Hình 4, cấu trúc từ điển đồng nghĩa được mô tả như Hình 5 và cấu trúc kho ví dụ song ngữ được mô tả như Hình 6. Hình 4. Cấu trúc từ điển Việt - K’Ho Nguyễn Minh Hiệp, Nguyễn Thị Lương, Lê Văn Phượng, Nguyễn Thị Minh Huyền, và Đinh Viết Tuấn 11 Hình 5. Cấu trúc từ điển đồng nghĩa Hình 6. Cấu trúc tập mẫu Với phạm vi bản tin thời tiết của Đài Phát thanh và Truyền hình tỉnh Lâm Đồng, các kho dữ liệu đã được xây dựng bao gồm  Kho dữ liệu mẫu Gồm 212 cặp câu song ngữ Việt – K’Ho được trích từ các bản tin dự báo thời tiết của các năm 2015, 2016 và 2017 của Đài Phát thanh và Truyền hình Lâm Đồng; Báo Lâm Đồng; và Đài Tiếng nói Việt Nam;  Từ điển Việt - K’Ho Gồm 622 từ Trần, 2014;  Từ điển đồng nghĩa Bao gồm 64 bản từ đồng nghĩa, mỗi từ sẽ có một hay nhiều từ đồng nghĩa Nguyễn, 2001 và ứng với chúng là xác suất đồng nghĩa; Cùng nghĩa có thể thay thế nhau thì xác suất pkv bằng 1 và ngược lại thì khoảng cách bằng 0, càng sát nghĩa thì xác suất càng gần 1. Ngôn ngữ lập trình C.NET đã được sử dụng với môi trường phát triển là Visual Studio 2013 để xây dựng ứng dụng chạy trên hệ điều hành Windows. Giao diện của ứng dụng như Hình 7. TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] 12 Hình 7. Giao diện của ứng dụng 4. KẾT LUẬN Ứng dụng dịch văn bản Việt - K’Ho dựa trên phương pháp STMT đã được xây dựng thành công. Ứng dụng dịch khá hiệu quả và câu dịch có chất lượng tốt trong phạm vi bản tin thời tiết của Đài Phát thanh và Truyền hình tỉnh Lâm Đồng. Nhược điểm của hệ thống là đòi hỏi phải có kho ví dụ song ngữ phong phú, từ điển song ngữ và từ điển đồng nghĩa đầy đủ thông tin thì độ chính xác của câu dịch sẽ càng cao. Ứng dụng cần hoàn thiện các nhược điểm trên để tiến tới xây dựng các công cụ phức tạp hơn trong xử lý ngôn ngữ tiếng K’Ho như Dịch văn bản cho nhiều lĩnh vực; Nhận dạng và tổng hợp tiếng K’Ho… TÀI LIỆU THAM KHẢO Adam, L. 2008. Statistical machine translation. ACM Computing Surveys, 403, 1-49. Antal, V. D. B., & Peter, B. 2009. Memory-based machine translation and language modelling. The Prague Bulletin of Mathematical Linguistics, 91, 17-26. Đào, N. T. 2007. Nghiên cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ Anh - Việt. Luận văn Thạc sĩ, Học viện Công nghệ Bưu chính Viễn thông, Việt Nam. Nguyễn, V. T. 2001. Từ điển từ đồng nghĩa tiếng Việt. Hà Nội, Việt Nam NXB. Giáo dục. Pushpak, B. 2006. Machine translation. Florida, USA CRC Press. Satoshi, S., & Makoto, N. 1990. Toward memory-based translation. Paper presented at The 13th Conference on Computational Linguistics, Finland. Trần, L. Q. 2006. Kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không. Luận văn Thạc sĩ, Trường Đại học Bách khoa Hà Nội, Việt Nam. Trần, S. T. 1999. Dân tộc - dân cư Lâm Đồng. Hà Nội, Việt Nam NXB. Thống kê. Trần, V. L. 2014. Từ điển K’Ho - Việt. Hà Nội, Việt Nam NXB. Giáo dục. ResearchGate has not been able to resolve any citations for this Machine Translation and Language Modeling We describe a freely available open source memory-based machine translation system, mbmt. Its translation model is a fast approximate memory-based classifier, trained to map trigrams of source-language words onto trigrams of target-language words. In a second decoding step, the predicted trigrams are rearranged according to their overlap, and candidate output sequences are ranked according to a memory-based language model. We report on the scaling abilities of the memory-based approach, observing fast training and testing times, and linear scaling behavior in speed and memory costs. The system is released as an open source software package ¹ , for which we provide a first reference SatoMakoto NagaoAn essential problem of example-based translation is how to utilize more than one translation example for translating one source paper proposes a method to solve this problem. We introduce the representation, called , which represents the combination of fragments of translation examples. The translation process consists of three steps 1 Make the source matching expression from the source sentence. 2 Transfer the source matching expression into the target matching expression. 3 Construct the target sentence from the target matching mechanism generates some candidates of translation. To select the best translation out of them, we define the score of a LopezStatistical machine translation SMT treats the translation of natural language as a machine learning problem. By examining many samples of human-produced translation, SMT algorithms automatically learn how to translate. SMT has made tremendous strides in less than two decades, and new ideas are constantly introduced. This survey presents a tutorial overview of the state of the art. We describe the context of the current research and then move to a formal problem description and an overview of the main subproblems translation modeling, parameter estimation, and decoding. Along the way, we present a taxonomy of some different approaches within these areas. We conclude with an overview of evaluation and a discussion of future cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ Anh -Việt. Luận văn Thạc sĩN T ĐàoĐào, N. T. 2007. Nghiên cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ Anh -Việt. Luận văn Thạc sĩ, Học viện Công nghệ Bưu chính Viễn thông, Việt thuật dịch máy và ứng dụng vào tài liệu hàng không. Luận văn Thạc sĩ, Trường Đại học Bách khoa Hà NộiL Q TrầnTrần, L. Q. 2006. Kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không. Luận văn Thạc sĩ, Trường Đại học Bách khoa Hà Nội, Việt điển K'Ho -Việt. Hà Nội, Việt Nam NXB. Giáo dụcV L TrầnTrần, V. L. 2014. Từ điển K'Ho -Việt. Hà Nội, Việt Nam NXB. Giáo dục. Glosbe là nơi lưu trữ hàng ngàn cuốn từ điển. Chúng tôi không chỉ cung cấp từ điển Koho - Tiếng Việt, mà còn cung cấp từ điển cho mọi cặp ngôn ngữ hiện có - trực tuyến và miễn phí. Bản dịch từ từ điển Koho - Tiếng Việt, định nghĩa, ngữ pháp Trong Glosbe, bạn sẽ tìm thấy các bản dịch từ Koho thành Tiếng Việt đến từ nhiều nguồn khác nhau. Các bản dịch được sắp xếp từ phổ biến nhất đến ít phổ biến hơn. Chúng tôi cố gắng hết sức để đảm bảo rằng mỗi biểu thức đều có định nghĩa hoặc thông tin về phần uốn. Bản dịch theo ngữ cảnh Koho - Tiếng Việt, các câu đã dịch Từ điển Glosbe là duy nhất. Trong Glosbe, bạn không chỉ có thể kiểm tra các bản dịch Koho hoặc Tiếng Việt. Chúng tôi cũng cung cấp các ví dụ sử dụng hiển thị hàng chục câu được dịch. Bạn không chỉ có thể xem bản dịch của cụm từ bạn đang tìm kiếm mà còn có thể xem cách dịch của cụm từ đó tùy thuộc vào ngữ cảnh. Bộ nhớ dịch cho các ngôn ngữ Koho - Tiếng Việt Các câu dịch mà bạn sẽ tìm thấy trong Glosbe đến từ kho ngữ liệu song song cơ sở dữ liệu lớn với các văn bản dịch. Bộ nhớ dịch giống như có sự hỗ trợ của hàng nghìn người dịch trong một tích tắc của giây. Phát âm, ghi âm Thường thì văn bản thôi là không đủ. Chúng ta cũng cần phải nghe cụm từ hoặc câu giống như thế nào. Tại Glosbe, bạn sẽ không chỉ tìm thấy các bản dịch từ từ điển Koho-Tiếng Việt mà còn cả các bản ghi âm và trình đọc máy tính chất lượng cao. Từ điển hình ảnh Một bức tranh có giá trị hơn ngàn lời nói. Ngoài bản dịch văn bản, trong Glosbe, bạn sẽ tìm thấy hình ảnh trình bày các cụm từ được tìm kiếm. Bộ dịch tự động Koho - Tiếng Việt Bạn có cần dịch một văn bản dài hơn không? Không sao cả, tại Glosbe, bạn sẽ tìm thấy trình dịch Koho - Tiếng Việt sẽ dễ dàng dịch bài báo hoặc tập tin bạn quan tâm. Tham gia cùng hơn người dùng và giúp chúng tôi xây dựng từ điển tốt nhất trên thế giới. Thêm bản dịch Thêm bản dịch Hãy giúp chúng tôi xây dựng từ điển tốt nhất. Glosbe là một dự án dựa trên cộng đồng được tạo ra bởi những người giống như bạn. Vui lòng thêm các mục nhập mới vào từ điển. Thay đổi gần đây Thống kê từ điển Koho - Tiếng Việt Ngôn ngữ Koho Khu vực Native to Vietnam Người dùng Ngôn ngữ Tiếng Việt Khu vực Native to Vietnam Official language in Vietnam Association of Southeast Asian Nations Người dùng Glosbe Tự hào được thực hiện bằng ở Ba Lan ArticlePDF AvailableAbstractMột ứng dụng dịch tự động từ tiếng Việt sang tiếng dân tộc K’Ho được trình bày. Ứng dụng nhằm mục đích giới thiệu phương pháp dịch tự động dựa trên ví dụ mẫu EBMT. Do tiếng Việt và tiếng dân tộc K’Ho cùng ngữ hệ Nam Á, nhưng lại thuộc nhóm ngôn ngữ khác nhau, nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát. Các nguyên tắc thiết kế của ứng dụng được mô tả chi tiết, cùng với giao diện của hệ thống. Một số kết quả dịch tự động cũng được trình bày để minh họa cho khả năng ứng dụng phương pháp EBMT. Discover the world's research25+ million members160+ million publication billion citationsJoin for freeContent may be subject to copyright. TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 6, Số 2, 2016 160–173 160 DỊCH TỰ ĐỘNG VIỆT- K’HO SỬ DỤNG PHƯƠNG PHÁP DỰA VÀO VÍ DỤ MẪU Nguyễn Minh Tuấna, Đinh Viết Tuấna* aKhoa Công nghệ Thông tin, Trường Đại học Đà Lạt, Lâm Đồng, Việt Nam Nhận ngày 04 tháng 01 năm 2016 Chỉnh sửa ngày 30 tháng 03 năm 2016 Chấp nhận đăng ngày 31 tháng 03 năm 2016 Tóm tắt Một ứng dụng dịch tự động từ tiếng Việt sang tiếng dân tộc K’Ho được trình bày. Ứng dụng nhằm mục đích giới thiệu phương pháp dịch tự động dựa trên ví dụ mẫu EBMT. Do tiếng Việt và tiếng dân tộc K’Ho cùng ngữ hệ Nam Á, nhưng lại thuộc nhóm ngôn ngữ khác nhau, nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát. Các nguyên tắc thiết kế của ứng dụng được mô tả chi tiết, cùng với giao diện của hệ thống. Một số kết quả dịch tự động cũng được trình bày để minh họa cho khả năng ứng dụng phương pháp EBMT. Từ khóa EBMT; Dịch máy; Dịch tự động; Dịch tự động dựa vào ví dụ mẫu; MT. 1. GIỚI THIỆU Hiện nay, trên thế giới có khoảng 5650 ngôn ngữ khác nhau [1], với số lượng ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin. Để có thể trao đổi thông tin phải cần đến một đội ngũ phiên dịch khổng lồ để dịch các văn bản, tài liệu, lời nói từ tiếng này sang tiếng khác. Vì vậy, con người đã nghĩ đến việc thiết kế một hệ thống tự động trong việc dịch. Hiện nay, khái niệm dịch tự động dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, tuy có một vài điểm khác biệt nhưng hầu hết đều tương đương với định nghĩa của Pushpak Bhattacharyya, Indian Institute of Technology Bombay Mumbai [2] như sau * Tác giả liên hệ Email tuandv 161 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] “Dịch máy hay dịch tự động bằng máy tính là tiến trình dịch từ một ngôn ngữ nguồn ngôn ngữ tự nhiên sang những ngôn ngữ đích, có hoặc không có sự trợ giúp của con người. Dịch máy thường được thiết kế hoặc cho một cặp ngôn ngữ đặc biệt hay cho nhiều hơn hai ngôn ngữ”. Theo “Kỹ thuật dịch tự động và ứng dụng vào tài liệu hàng không” của Trần Lâm Quân thì quá trình xử lý tài liệu của dịch tự động được mô tả như Hình 1 [3]. Đầu vào của một hệ dịch tự động thường là một văn bản được viết bằng ngôn ngữ nguồn và quá trình dịch được chia thành hai giai đoạn đầu tiên, văn bản được phân tích thành các thành phần, sau đó được dịch thành văn bản ở dạng ngôn ngữ đích. Kết quả dịch có thể được con người hiệu chỉnh để trở thành bản dịch tốt hơn. Hiện nay, dịch tự động vẫn còn nhiều khó khăn trong việc xử lý các nhập nhằng về ngôn ngữ trong quá trình dịch tự động. Các phương pháp thường dùng trong dịch tự động Hình 1. Quá trình xử lý tài liệu của dịch tự động  Dịch tự động dựa trên thống kê Statistics Machine Translation - STMT [4] là một phương pháp mà các bản dịch được tạo trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ việc phân tích các cặp câu song ngữ. Ý tưởng dịch tự động bằng thống kê mang tính thuần túy về toán học, cách TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 162 tiếp cận này không đòi hỏi sự phân tích sâu về ngôn ngữ, quá trình dịch được thực hiện dựa trên kết quả thống kê có được từ kho ngữ liệu corpus.  Dịch dựa trên cụm từ Phrase Based Machine Translation – PBMT [1] là phương pháp xác định nghĩa của câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc cú pháp của cụm từ. Do thiếu thông tin ngữ cảnh khi xác định xác suất của các từ, nên nghĩa của từ được chọn nhiều lúc không đúng với ngữ cảnh. Đôi khi, nghĩa một từ của ngôn ngữ đích không đủ để diễn tả nghĩa của một từ trong ngôn ngữ nguồn và ngược lại.  Dịch dựa trên luật Rule Based Machine Translation – RBMT [5] là phương pháp dựa trên luật cú pháp, ngữ nghĩa và một từ điển khá đầy đủ thông tin,... Câu được dịch thường không đạt độ chính xác như mong đợi do lỗi mâu thuẫn giữa các luật hoặc do tập luật không bao quát.  Dịch tự động dựa trên ví dụ Example-Based Machine Translation - EBMT [6] là cách tiếp cận không đòi hỏi phải có sự phân tích ngôn ngữ học về cú pháp, ngữ nghĩa vì mọi câu dịch đều dựa vào việc “so khớp” mẫu. Việc “so khớp” mẫu dựa hoàn toàn vào kho ngữ liệu song ngữ để xác định mẫu nào gần đúng nhất, sau đó hiệu chỉnh và xuất ra thành phần dịch tương ứng của mẫu đó. Về mặt ngôn ngữ, tiếng K’Ho thuộc ngữ hệ Nam Á, nhóm ngôn ngữ Môn – Khmer [7]. Vào đầu thế kỷ 20, ngôn ngữ K’Ho được xây dựng bằng hệ thống chữ Latin với mục đích truyền đạo, về sau tiếng K’Ho đã được cải tiến nhiều lần và được sử dụng phổ biến bởi các nhóm dân tộc thiểu số tại Lâm Đồng, Đăk Nông và các tỉnh Đông Nam Bộ [7]. Đến nay, tiếng K’Ho được giảng dạy trong một số trường tiểu học tại vùng dân tộc thiểu số và để phục vụ cho công tác quản lý, phát triển kinh tế - xã hội, giữ gìn an ninh quốc phòng đòi hỏi đội ngũ cán bộ công chức công tác ở các vùng có đồng bào dân tộc thiểu số phải biết sử dụng tiếng dân tộc bản địa trong giao tiếp và trong công tác theo qui định. 163 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] Nhằm góp phần ứng dụng khoa học công nghệ vào việc nghiên cứu ngôn ngữ của đồng bào thiểu số và cung cấp thông tin dự báo thời tiết cho đồng bào dân tộc K’Ho trên địa bàn tỉnh Lâm Đồng, đồng thời các bản tin dự báo thời tiết mang một lượng lớn thông tin mang tính cập nhật, do vậy một ứng dụng dịch tự động từ tiếng Việt sang tiếng K’Ho trong phạm vi bản tin dự báo thời tiết của đài Phát thanh truyền hình tỉnh Lâm Đồng đã được xây dựng. Do tiếng Việt và tiếng K’Ho cùng ngữ hệ Nam Á nhưng lại thuộc nhóm ngôn ngữ khác nhau [7] nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát; qua nghiên cứu tổng quan các phương pháp thì phương pháp dịch tự động dựa trên ví dụ mẫu EBMT là phương pháp phù hợp với yêu cầu và mục tiêu của đề tài. Trong báo cáo này, phương pháp EBMT sẽ được trình bày trong việc áp dụng để xây dựng hệ dịch tự động Việt - K’Ho. Nội dung bài viết sẽ đề cập chi tiết về phương pháp EBMT, các nguyên tắc thiết kế của ứng dụng cùng một số kết quả dịch tự động sẽ được trình bày để minh họa cho khả năng ứng dụng phương pháp EBMT. Cấu trúc của bài viết được tổ chức như sau Phần 2 trình bày phương pháp EBMT. Phần 3 đề cập đến kết quả thực nghiệm. Cuối cùng là phần kết luận và hướng phát triển. 2. PHƯƠNG PHÁP EBMT Ý tưởng của phương pháp EBMT được giới thiệu lần đầu tiên bởi Nagao trong dự án xây dựng hệ dịch tự động Nhật-Anh [8]. Sơ đồ một hệ EBMT, mà sau này được diễn giải bằng những thuật ngữ như “Dịch bằng suy diễn từ ví dụ” hay “Dịch trên nguyên lý tương tự” [8], được mô tả như Hình 2. Một hệ EBMT cụ thể đã được Sumita đề xuất với tên gọi là hệ dịch D3 Dp-match Driven transDucer dựa trên so khớp quy hoạch động [9]. Sở dĩ có tên như vậy, vì trong pha “tìm kiếm” Retrieve, hệ chọn từ kho ví dụ những câu tương tự nhất với câu đầu vào căn cứ vào khoảng cách ngữ nghĩa giữa chúng thông qua giải thuật so khớp quy hoạch động DP-Matching Algorithm giữa hai dãy từ word sequences. TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 164 Hình 2. Sơ đồ một hệ EBMT Hệ dịch D3 yêu cầu một tập mẫu, gồm các cặp câu song ngữ, nhưng trong quá trình dịch chúng phải được biểu diễn dưới dạng dãy từ word sequence. Để dịch một câu đầu vào, hệ thống sẽ tìm kiếm trong tập ngữ liệu những cặp câu nào có phần ngôn ngữ nguồn tương tự nhất với nó. Khái niệm “tương tự” ở đây sẽ được lượng hoá bằng một độ đo ngữ nghĩa gọi là “edit-distance”. Sau đó, với mỗi một cặp câu vừa được chọn ra, hệ thống sẽ so sánh phần ngôn ngữ nguồn của nó với câu đầu vào, lọc ra các thành phần khác nhau giữa chúng để tổng quát hoá câu ngữ liệu thành các mẫu patterns. Công đoạn cuối cùng chỉ là chọn ra mẫu phù hợp nhất và thực hiện phép thay thế các thành phần khác nhau nói trên để có được câu dịch cần tìm từ phần ngôn ngữ đích của mẫu đó. Hình 3 biểu diễn mô hình của một hệ dịch D3, giống như một hệ dịch Example-Based tổng quát hệ dịch D3 sử dụng 3 nguồn dữ liệu sau  Kho dữ liệu song ngữ Bilingual Corpus Tham gia vào giai đoạn “Tìm kiếm ngữ liệu tương tự”, đây là kho dữ liệu quan trọng nhất.  Từ điển đồng nghĩa Thesauri Sử dụng trong hai giai đoạn “Tìm kiếm ngữ liệu tương tự” và “Sản sinh mẫu”.  Từ điển song ngữ Bilingual Dictionary dùng trong 2 giai đoạn “Sản sinh mẫu” và “Thay thế”. Trong khối Retrieval và Adjustment bao gồm 4 bước 165 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN]  Tìm kiếm ngữ liệu tương tự Retrieve.  Chọn ngữ liệu phù hợp nhất Select.  Sản sinh mẫu Generate.  Thay thế Substitute. Hình 3. Mô hình của hệ dịch D3 Giải thuật DP-Matching Duyệt từng câu trong tập mẫu, sau đó sử dụng giải thuật tính khoảng cách Distance giữa nó với câu đầu vào theo công thức 1  =∑ 1 Trong đó  I, D lần lượt là số Insertion và Deletion số từ cần thêm vào và xóa đi để thu được input từ example.  SEMDIST là khoảng cách về mặt ngữ nghĩa được dùng trong pha thay thế sau này. SEMDIST giữa 2 từ giống nhau sẽ là 0  Linput, Lexample lần lượt là độ dài số lượng từ của câu hoàn chỉnh đã được tách ra TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 166 Ta xét một ví dụ đơn giản sau với câu input và example như sau - Hôm nay nắng nhiều quá hôm nay nắng nhiều quá. - Ngày nắng ít quá ngày nắng ít quá. Với 2 câu trên thì I=D=0, có hai cụm từ khác nhau giữa 2 câu là “nhiều” và “ít” và lúc này từ điển đồng nghĩa được sử dụng, nếu đo được khoảng cách 0Linput=m[i-1,0]+1 và tương tự phần tử m[0,j]j=1->Lexample= m[0,j-1]+1. Sau đó các phần tử của hàng i cột j sẽ được tính theo với công thức với 1<=i<= Linput và 1<=j<= Lexample m[i,j]= minm[i−1,j−1]+2∗SEMDISTm[i],m[j],m[i− 1,j]+1,m[i, j −1]+1 3 Theo đó m[Linput, Lexample] sẽ được tính và chia cho tổng Linput, Lexample thì ta sẽ có được khoảng cách giữa 2 câu. Mảng m cho ví dụ trên được tính như Hình 4. Sau khi duyệt hết kho ví dụ mẫu và lấy được câu ví dụ có độ so khớp thấp nhất, tiếp theo pha hiệu chỉnh, chỉnh sửa dữ liệu để phù hợp với câu đầu vào sẽ được thực hiện trước khi xuất ra kết quả câu dịch cuối cùng. 167 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] Hình 4. Ví dụ giải thuật DP-Matching Hiệu chỉnh câu  Pha sinh mẫu xóa, thêm Đầu vào của khối xử lý này là câu ví dụ được chọn sao cho nó tương tự nhất đối với câu cần dịch thông qua giải thuật DP-Matching. Việc tiếp theo chính là thực hiện công việc đánh dấu từ thay thế, thêm và xóa các từ cho câu đầu vào để tổng quát câu ví dụ giống với câu cần dịch. Ví dụ Input hôm nay nắng nhiều quá. Example ngày nắng ít quá. Bước 1 chính là đánh dấu các từ có thể thay thế, ví dụ ở đây từ “nhiều” là thành phần thay thế của “ít”. Input hôm nay nắng nhiều quá. Example ngày nắng ít quá. Bước 2 thực hiện xóa các từ không thể thay thế ở câu ví dụ Input hôm nay nắng nhiều quá. Example ngày nắng ít quá. Bước 3 thực hiện thêm các từ còn thiếu cho câu ví dụ để giống hoàn toàn với câu input TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 168 Input hôm nay nắng nhiều quá. Example hôm nay ngày nắng ít quá. K’Ho ngai do ngai tơngai gel du ềt  Pha thay thế Sau khi qua quá trình tạo mẫu, hiện tại câu ví dụ hầu như đã giống hoàn toàn đối với câu cần dịch. Chỉ còn một pha cuối cùng chính là pha thay thế để có được câu dịch cần tìm. Thực chất đây là sự thay thế thành phần của câu dịch để nó trở thành câu dịch cuối cùng. Ở ví dụ trên từ “ít” chính là từ được thay thế bởi “nhiều”. Tra trong từ điển song ngữ từ nhiều ta được “rà”. Việc chính ở đây ta chỉ cần thay thế trong câu ví dụ từ “ít” trong câu ví dụ K’Ho thành từ “nhiều” tương ứng. Trong câu song ngữ ví dụ như đã nói ở phần kho ngữ liệu, có một trường được gọi là đánh dấu liên kết ta sẽ biết được từ “ít” trong câu ví dụ tiếng Việt sẽ tương ứng với từ nào trong câu ví dụ K’Ho. Ở đây “ít” chính là từ “du ềt” và cuối cùng ta chỉ cần thay thế từ “du ềt” thành từ “rà”. Input hôm nay nắng nhiều quá. Example - Việt hôm nay nắng ít quá. - K’Ho ngai do tơngai gel du ềt. Vậy câu dịch cuối cùng là “ngai do tơngai gel rà”. Ở đây, thay vì phải xóa từ “ít” và thêm vào câu ví dụ từ “nhiều” thì kết quả sau khi thực hiện pha tạo mẫu sẽ là “ngai do tơngai rà gel”. Bởi thuật toán thêm từ sẽ dựa trên từ đứng sau nó, ở đây từ “quá” đứng sau nó vậy từ “nhiều” sẽ được thêm trước từ “quá”. Vì vậy, kết quả sẽ có một chút sai lệch so với câu ví dụ, từ đó mà thể hiện được vai trò của pha thay thế trong trường hợp này. 169 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 3. KẾT QUẢ THỰC NGHIỆM Ứng dụng dịch văn bản Việt - K’Ho dựa trên phương pháp EBMT đã đề xuất đã được xây dựng với  Phạm vi Dịch các bản tin dự báo thời tiết của đài Phát thanh truyền hình tỉnh Lâm Đồng.  Chức năng Dịch văn bản tiếng Việt thành tiếng K’Ho với phạm vi trên.  Thiết kế và tổ chức lưu trữ dữ liệu Theo như thiết kế, hệ thống chúng ta cần sử dụng đến ba loại dữ liệu chính từ điển song ngữ Việt – K’Ho, từ điển đồng nghĩa và kho ví dụ mẫu song ngữ. Để việc xử lý trong chương trình sau này được thuận tiện, truy xuất nhanh và sử dụng ít bộ nhớ, thì việc tổ chức và lưu trữ một cách hợp lý các loại dữ liệu này đóng vai trò hết sức quan trọng. Vì vậy dữ liệu sẽ được cấu trúc và tổ chức theo ngôn ngữ XML thay vì dùng các công cụ quản lý cơ sở dữ liệu quan hệ như SQL, Oracle... Ngôn ngữ XML Extensible Markup Language là ngôn ngữ được định nghĩa bởi tổ chức mạng toàn cầu World Wide Web Consortium - W3C, XML là một ngôn ngữ tổng quát dùng để biểu diễn thông tin dưới dạng các tài liệu có cấu trúc, định nghĩa dữ liệu thông qua các thẻ [10]. Để mô tả dữ liệu, các giản đồ XML XML Schema phải sẽ định nghĩa. Vì vậy, XML có thể mở rộng với các ngôn ngữ tự nhiên. Cấu trúc từ điển song ngữ Việt - K’Ho như Hình 5 Hình 5. Cấu trúc từ điển Việt - K’Ho Cấu trúc từ điển đồng nghĩa được mô tả như Hình 6. TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 170 Hình 6. Cấu trúc từ điển đồng nghĩa Cấu trúc kho ví dụ song ngữ được mô tả như Hình 7 Hình 7. Cấu trúc kho ví dụ Với phạm vi bản tin thời tiết của đài Phát thanh truyền hình tỉnh Lâm Đồng, các kho dữ liệu đã được xây dựng gồm  Kho ví dụ bao gồm 212 cặp câu song ngữ Việt – K’Ho [11].  Từ điển Việt - K’Ho bao gồm 622 từ [12, 13, 14].  Từ điển đồng nghĩa bao gồm 64 bản từ đồng nghĩa, mỗi từ sẽ có một hay nhiều từ đồng nghĩa [15] và ứng với chúng là khoảng cách đồng nghĩa; cùng nghĩa có thể thay thế nhau thì khoảng cách bằng 0 và ngược lại thì khoảng cách bằng 1, càng sát nghĩa thì khoảng cách càng gần 0. 171 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] Ngôn ngữ lập trình C.NET đã được sử dụng với môi trường phát triển là Visual Studio 2013 để xây dựng ứng dụng chạy trên hệ điều hành Windows. Giao diện của ứng dụng như Hình 8. Hình 8. Giao diện của ứng dụng 4. KẾT LUẬN Ứng dụng dịch văn bản Việt - K’Ho dựa trên phương pháp EBMT đã được xây dựng thành công. Ứng dụng dịch khá hiệu quả và câu dịch có chất lượng tốt trong phạm vi bản tin thời tiết của đài Phát thanh truyền hình tỉnh Lâm Đồng. Nhược điểm của hệ thống là đòi hỏi phải có kho ví dụ song ngữ phong phú, từ điển song ngữ và từ điển đồng nghĩa đầy đủ thông tin thì độ chính xác của câu dịch sẽ càng cao, tuy nhiên điều này sẽ ảnh hưởng đáng kể đến tốc độ dịch của ứng dụng. Dựa trên những kết quả đã nghiên cứu và xây dựng, cũng như những hạn chế gặp phải, chúng tôi đề xuất một số hướng phát triển của bài báo trong tương lai  Xây dựng website cho phép dịch trực tuyến, tạo diễn đàn cho người dùng thảo luận và đánh giá chương trình.  Xây dựng ứng dụng dịch Việt-K’Ho và ngược lại với phạm vi mở rộng hơn và các kho dữ liệu được xây dựng phong phú hơn để có thể dịch văn bản trong các trong các ngữ cảnh khác nhau. TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 172 TÀI LIỆU THAM KHẢO [1] Đào Ngọc Tú, Nghiên cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ Anh – Việt, Học viện công nghệ bưu chính viễn thông, 2007. [2] Pushpak Bhattacharyya, Machine Translation, Indian Institute of Technology Bombay Mumbai, 2006. [3] Trần Lâm Quân, Kỹ thuật dịch máy và Ứng dụng vào tài liệu hàng không, Hà Nội, 2006. [4] Adam Lopez, Statistical Machine Translation, ACM Computing Surveys, Vol. 40, No. 3, Article 8, 2008. [5] See Sato, S. Nagao, Toward Memory-based Translation, IPSJ-WG, 1990. [6] Antal van den Bosch and Peter Berck, Memory-Based Machine Translation and Language Modeling, The Prague Bulletin of Mathematical Linguistics, 2009. [7] Trần Sỹ Thứ, Dân tộc - dân cư Lâm Đồng, Việt Nam, 1999. [8] Eiichiro Sumita and Hitoshi IIDA, Example-Based Machine Translation, ATR Interpreting Telephony Research Laboratories, Japan. [9] Elichiro Sumita, Exampled-based machine translation using DP-matching between word sequences, Proceedings of the workshop on Data-driven methods in machine translation, Vol. 14, 2001. [10] LINQ To XML Tutorials with Examples, 2014. [11] ; ; [12] Không rõ, Từ vựng K’Ho - Việt, Viêt Nam, 2014. [13] Trần Văn Lệ, Từ điển K’Ho - Việt, Việt Nam, 2012. [14] Sở Nội vụ - Sở Giáo dục và Đào tạo tỉnh Lâm Đồng, Tài liệu dạy và học tiếng K’Ho, Việt Nam, 2007. [15] Nguyễn Văn Tu, Từ điển từ đồng nghĩa Tiếng Việt, Nhà xuất bản giáo dục, Việt Nam, 2001. 173 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] VIETNAMESE - K’HO MACHINE TRANSLATION USING EBMT APPROACH Nguyen Minh Tuana, Dinh Viet Tuana* aThe Faculty of Information Technology, Dalat University, Lamdong, Vietnam *Corresponding author tuandv Article history Received January 04th, 2016 Received in revised form March 30th, 2016 Accepted March 31st, 2016 Abstract This paper proposes the Example Based Machine Translation EBMT method for Vietnamese-K’Ho machine translation. Both Vietnamese and K’Ho are linguistically rooted in the South Asia but they belong to different language groups; therefore, Vietnamese-K’Ho or vice versa translation are widely conducted by exploiting vocabulary, phrases and sentences instead of the general syntax rules. The design principles of the application are described in details, along with the system interface. The machine translation results are also presented to illustrate the applicability of the EBMT method. Keywords Example based machine translation; MT; EBMT; Machine translation. ResearchGate has not been able to resolve any citations for this Machine Translation and Language Modeling We describe a freely available open source memory-based machine translation system, mbmt. Its translation model is a fast approximate memory-based classifier, trained to map trigrams of source-language words onto trigrams of target-language words. In a second decoding step, the predicted trigrams are rearranged according to their overlap, and candidate output sequences are ranked according to a memory-based language model. We report on the scaling abilities of the memory-based approach, observing fast training and testing times, and linear scaling behavior in speed and memory costs. The system is released as an open source software package ¹ , for which we provide a first reference LopezStatistical machine translation SMT treats the translation of natural language as a machine learning problem. By examining many samples of human-produced translation, SMT algorithms automatically learn how to translate. SMT has made tremendous strides in less than two decades, and new ideas are constantly introduced. This survey presents a tutorial overview of the state of the art. We describe the context of the current research and then move to a formal problem description and an overview of the main subproblems translation modeling, parameter estimation, and decoding. Along the way, we present a taxonomy of some different approaches within these areas. We conclude with an overview of evaluation and a discussion of future machine translation using DP-matching between word sequencesElichiro SumitaElichiro Sumita, Exampled-based machine translation using DP-matching between word sequences, Proceedings of the workshop on Data-driven methods in machine translation, Vol. 14, 2001. Một ứng dụng dịch tự động Machine Translation - MT từ tiếng Việt sang tiếng dân tộc K’Ho được trình bày. Ứng dụng nhằm mục đích giới thiệu phương pháp dịch tự động dựa vào thống kê Statistics Machine Translation - STMT. Do tiếng Việt và tiếng dân tộc K’Ho cùng ngữ hệ Nam Á, nhưng lại thuộc nhóm ngôn ngữ khác nhau, nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát. TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 8, Số 2, 2018 3–12 DỊCH TỰ ĐỘNG VIỆT-K’HO SỬ DỤNG PHƯƠNG PHÁP DỰA VÀO THỐNG KÊ Nguyễn Minh Hiệpa, Nguyễn Thị Lươnga, Lê Văn Phượngb, Nguyễn Thị Minh Huyềnb, Đinh Viết Tuấna* b a Khoa Công nghệ Thông tin, Trường Đại học Đà Lạt, Lâm Đồng, Việt Nam Khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, Hà Nội, Việt Nam * Tác giả liên hệ Email tuandv Lịch sử bài báo Nhận ngày 11 tháng 01 năm 2018 Chỉnh sửa ngày 25 tháng 03 năm 2018 Chấp nhận đăng ngày 14 tháng 04 năm 2018 Tóm tắt Một ứng dụng dịch tự động Machine Translation - MT từ tiếng Việt sang tiếng dân tộc K’Ho được trình bày. Ứng dụng nhằm mục đích giới thiệu phương pháp dịch tự động dựa vào thống kê Statistics Machine Translation - STMT. Do tiếng Việt và tiếng dân tộc K’Ho cùng ngữ hệ Nam Á, nhưng lại thuộc nhóm ngôn ngữ khác nhau, nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát. Các nguyên tắc thiết kế của ứng dụng được mô tả chi tiết, cùng với giao diện của hệ thống. Một số kết quả dịch tự động cũng được trình bày để minh họa cho khả năng ứng dụng phương pháp STMT. Từ khóa Dịch máy; Dịch tự động dựa vào thống kê; Dịch tự động; MT; STMT. Mã số định danh bài báo Loại bài báo Bài báo nghiên cứu gốc có bình duyệt Bản quyền © 2018 Các Tác giả. Cấp phép Bài báo này được cấp phép theo CC BY-NC-ND 3 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] AN APPLICATION TO TRANSLATE FROM VIETNAMESE INTO K’HO USING STMT APPROACH Nguyen Minh Hiepa, Nguyen Thi Luonga, Le Van Phuongb, Nguyen Thi Minh Huyenb, Dinh Viet Tuana* a The Faculty of Information Technology, Dalat University, Lamdong, Vietnam The Faculty of Mathematics - Mechanics - Informatics, VNU University of Science, Hanoi, Vietnam * Corresponding author Email tuandv b Article history Received TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 6, Số 2, 2016 160–173 160 DỊCH TỰ ĐỘNG VIỆT- K’HO SỬ DỤNG PHƯƠNG PHÁP DỰA VÀO VÍ DỤ MẪU Nguyễn Minh Tuấna, Đinh Viết Tuấna* a Khoa Công nghệ Thông tin, Trường Đại học Đà Lạt, Lâm Đồng, Việt Nam Nhận ngày 04 tháng 01 năm 2016 Chỉnh sửa ngày 30 tháng 03 năm 2016 Chấp nhận đăng ngày 31 tháng 03 năm 2016 Tóm tắt Một ứng dụng dịch tự động từ tiếng Việt sang tiếng dân tộc K’Ho được trình bày. Ứng dụng nhằm mục đích giới thiệu phương pháp dịch tự động dựa trên ví dụ mẫu EBMT. Do tiếng Việt và tiếng dân tộc K’Ho cùng ngữ hệ Nam Á, nhưng lại thuộc nhóm ngôn ngữ khác nhau, nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát. Các nguyên tắc thiết kế của ứng dụng được mô tả chi tiết, cùng với giao diện của hệ thống. Một số kết quả dịch tự động cũng được trình bày để minh họa cho khả năng ứng dụng phương pháp EBMT. Từ khóa EBMT; Dịch máy; Dịch tự động; Dịch tự động dựa vào ví dụ mẫu; MT. 1. GIỚI THIỆU Hiện nay, trên thế giới có khoảng 5650 ngôn ngữ khác nhau [1], với số lượng ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin. Để có thể trao đổi thông tin phải cần đến một đội ngũ phiên dịch khổng lồ để dịch các văn bản, tài liệu, lời nói từ tiếng này sang tiếng khác. Vì vậy, con người đã nghĩ đến việc thiết kế một hệ thống tự động trong việc dịch. Hiện nay, khái niệm dịch tự động dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, tuy có một vài điểm khác biệt nhưng hầu hết đều tương đương với định nghĩa của Pushpak Bhattacharyya, Indian Institute of Technology Bombay Mumbai [2] như sau * Tác giả liên hệ Email tuandv TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 161 “Dịch máy hay dịch tự động bằng máy tính là tiến trình dịch từ một ngôn ngữ nguồn ngôn ngữ tự nhiên sang những ngôn ngữ đích, có hoặc không có sự trợ giúp của con người. Dịch máy thường được thiết kế hoặc cho một cặp ngôn ngữ đặc biệt hay cho nhiều hơn hai ngôn ngữ”. Theo “Kỹ thuật dịch tự động và ứng dụng vào tài liệu hàng không” của Trần Lâm Quân thì quá trình xử lý tài liệu của dịch tự động được mô tả như Hình 1 [3]. Đầu vào của một hệ dịch tự động thường là một văn bản được viết bằng ngôn ngữ nguồn và quá trình dịch được chia thành hai giai đoạn đầu tiên, văn bản được phân tích thành các thành phần, sau đó được dịch thành văn bản ở dạng ngôn ngữ đích. Kết quả dịch có thể được con người hiệu chỉnh để trở thành bản dịch tốt hơn. Hiện nay, dịch tự động vẫn còn nhiều khó khăn trong việc xử lý các nhập nhằng về ngôn ngữ trong quá trình dịch tự động. Các phương pháp thường dùng trong dịch tự động Hình 1. Quá trình xử lý tài liệu của dịch tự động  Dịch tự động dựa trên thống kê Statistics Machine Translation - STMT [4] là một phương pháp mà các bản dịch được tạo trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ việc phân tích các cặp câu song ngữ. Ý tưởng dịch tự động bằng thống kê mang tính thuần túy về toán học, cách TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 162 tiếp cận này không đòi hỏi sự phân tích sâu về ngôn ngữ, quá trình dịch được thực hiện dựa trên kết quả thống kê có được từ kho ngữ liệu corpus.  Dịch dựa trên cụm từ Phrase Based Machine Translation – PBMT [1] là phương pháp xác định nghĩa của câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc cú pháp của cụm từ. Do thiếu thông tin ngữ cảnh khi xác định xác suất của các từ, nên nghĩa của từ được chọn nhiều lúc không đúng với ngữ cảnh. Đôi khi, nghĩa một từ của ngôn ngữ đích không đủ để diễn tả nghĩa của một từ trong ngôn ngữ nguồn và ngược lại.  Dịch dựa trên luật Rule Based Machine Translation – RBMT [5] là phương pháp dựa trên luật cú pháp, ngữ nghĩa và một từ điển khá đầy đủ thông tin,... Câu được dịch thường không đạt độ chính xác như mong đợi do lỗi mâu thuẫn giữa các luật hoặc do tập luật không bao quát.  Dịch tự động dựa trên ví dụ Example-Based Machine Translation - EBMT [6] là cách tiếp cận không đòi hỏi phải có sự phân tích ngôn ngữ học về cú pháp, ngữ nghĩa vì mọi câu dịch đều dựa vào việc “so khớp” mẫu. Việc “so khớp” mẫu dựa hoàn toàn vào kho ngữ liệu song ngữ để xác định mẫu nào gần đúng nhất, sau đó hiệu chỉnh và xuất ra thành phần dịch tương ứng của mẫu đó. Về mặt ngôn ngữ, tiếng K’Ho thuộc ngữ hệ Nam Á, nhóm ngôn ngữ Môn – Khmer [7]. Vào đầu thế kỷ 20, ngôn ngữ K’Ho được xây dựng bằng hệ thống chữ Latin với mục đích truyền đạo, về sau tiếng K’Ho đã được cải tiến nhiều lần và được sử dụng phổ biến bởi các nhóm dân tộc thiểu số tại Lâm Đồng, Đăk Nông và các tỉnh Đông Nam Bộ [7]. Đến nay, tiếng K’Ho được giảng dạy trong một số trường tiểu học tại vùng dân tộc thiểu số và để phục vụ cho công tác quản lý, phát triển kinh tế - xã hội, giữ gìn an ninh quốc phòng đòi hỏi đội ngũ cán bộ công chức công tác ở các vùng có đồng bào dân tộc thiểu số phải biết sử dụng tiếng dân tộc bản địa trong giao tiếp và trong công tác theo qui định. 163 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] Nhằm góp phần ứng dụng khoa học công nghệ vào việc nghiên cứu ngôn ngữ của đồng bào thiểu số và cung cấp thông tin dự báo thời tiết cho đồng bào dân tộc K’Ho trên địa bàn tỉnh Lâm Đồng, đồng thời các bản tin dự báo thời tiết mang một lượng lớn thông tin mang tính cập nhật, do vậy một ứng dụng dịch tự động từ tiếng Việt sang tiếng K’Ho trong phạm vi bản tin dự báo thời tiết của đài Phát thanh truyền hình tỉnh Lâm Đồng đã được xây dựng. Do tiếng Việt và tiếng K’Ho cùng ngữ hệ Nam Á nhưng lại thuộc nhóm ngôn ngữ khác nhau [7] nên phần chuyển ngữ thường được xử lý bằng cách sử dụng từ vựng, cụm từ và câu, thay vì bằng quy tắc cú pháp tổng quát; qua nghiên cứu tổng quan các phương pháp thì phương pháp dịch tự động dựa trên ví dụ mẫu EBMT là phương pháp phù hợp với yêu cầu và mục tiêu của đề tài. Trong báo cáo này, phương pháp EBMT sẽ được trình bày trong việc áp dụng để xây dựng hệ dịch tự động Việt - K’Ho. Nội dung bài viết sẽ đề cập chi tiết về phương pháp EBMT, các nguyên tắc thiết kế của ứng dụng cùng một số kết quả dịch tự động sẽ được trình bày để minh họa cho khả năng ứng dụng phương pháp EBMT. Cấu trúc của bài viết được tổ chức như sau Phần 2 trình bày phương pháp EBMT. Phần 3 đề cập đến kết quả thực nghiệm. Cuối cùng là phần kết luận và hướng phát triển. 2. PHƯƠNG PHÁP EBMT Ý tưởng của phương pháp EBMT được giới thiệu lần đầu tiên bởi Nagao trong dự án xây dựng hệ dịch tự động Nhật-Anh [8]. Sơ đồ một hệ EBMT, mà sau này được diễn giải bằng những thuật ngữ như “Dịch bằng suy diễn từ ví dụ” hay “Dịch trên nguyên lý tương tự” [8], được mô tả như Hình 2. Một hệ EBMT cụ thể đã được Sumita đề xuất với tên gọi là hệ dịch D3 Dpmatch Driven transDucer dựa trên so khớp quy hoạch động [9]. Sở dĩ có tên như vậy, vì trong pha “tìm kiếm” Retrieve, hệ chọn từ kho ví dụ những câu tương tự nhất với câu đầu vào căn cứ vào khoảng cách ngữ nghĩa giữa chúng thông qua giải thuật so khớp quy hoạch động DP-Matching Algorithm giữa hai dãy từ word sequences. TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 164 Hình 2. Sơ đồ một hệ EBMT Hệ dịch D3 yêu cầu một tập mẫu, gồm các cặp câu song ngữ, nhưng trong quá trình dịch chúng phải được biểu diễn dưới dạng dãy từ word sequence. Để dịch một câu đầu vào, hệ thống sẽ tìm kiếm trong tập ngữ liệu những cặp câu nào có phần ngôn ngữ nguồn tương tự nhất với nó. Khái niệm “tương tự” ở đây sẽ được lượng hoá bằng một độ đo ngữ nghĩa gọi là “edit-distance”. Sau đó, với mỗi một cặp câu vừa được chọn ra, hệ thống sẽ so sánh phần ngôn ngữ nguồn của nó với câu đầu vào, lọc ra các thành phần khác nhau giữa chúng để tổng quát hoá câu ngữ liệu thành các mẫu patterns. Công đoạn cuối cùng chỉ là chọn ra mẫu phù hợp nhất và thực hiện phép thay thế các thành phần khác nhau nói trên để có được câu dịch cần tìm từ phần ngôn ngữ đích của mẫu đó. Hình 3 biểu diễn mô hình của một hệ dịch D3, giống như một hệ dịch ExampleBased tổng quát hệ dịch D3 sử dụng 3 nguồn dữ liệu sau  Kho dữ liệu song ngữ Bilingual Corpus Tham gia vào giai đoạn “Tìm kiếm ngữ liệu tương tự”, đây là kho dữ liệu quan trọng nhất.  Từ điển đồng nghĩa Thesauri Sử dụng trong hai giai đoạn “Tìm kiếm ngữ liệu tương tự” và “Sản sinh mẫu”.  Từ điển song ngữ Bilingual Dictionary dùng trong 2 giai đoạn “Sản sinh mẫu” và “Thay thế”. Trong khối Retrieval và Adjustment bao gồm 4 bước

dịch tiếng k ho