Dùng AI để dịch sách: có nên không?
Bản dịch AI: trơn tru, chính xác, nhưng văn chương liệu còn gì ngoài những bản template văn phòng
TL;DR: Khi sách dịch biến thành những “template” trơn tru và vô hồn, điều mất mát lớn nhất không phải là nghĩa mà chính là trải nghiệm thẩm mỹ khiến ta đọc chậm lại, suy nghĩ và thực sự thưởng thức.
Mấy hôm trước, tôi lần dò mấy nhà xuất bản quen biết để tìm chỗ in cho ông bác tôi bản dịch một cuốn sách về Manhattan Project. Sách in đã lâu, của một nhà báo có quan hệ sâu với các nhà khoa học từng tham gia vào công đoạn lõi để chế tạo bom nguyên tử. Bác tôi dịch từ tiếng Tiệp, trong khi sách gốc viết bằng tiếng Đức. Vì vấn đề lằng nhằng bản quyền này nên có lẽ còn lâu bản dịch mới được ra mắt. Bác tôi không quan tâm lắm đến thù lao và lợi nhuận. Trong ngôn ngữ dân dã của vài người bạn tôi vẫn còn dính dáng đến công việc xuất bản, đó gọi là “dịch vì đam mê”.
Tôi đã từng viết về cách nói “dịch vì đam mê” như là một myth, một huyền thoại. Với một người dịch tay ngang như ông bác tôi, có thể điều đó đúng (ở một vài thời điểm); tức là, dịch vì một ý thích nhất thời (vì hoàn toàn chưa nghĩ tới việc được trả công), hay dịch vì cuốn sách ấy do một người bạn thân tặng, v.v. Nhưng một khi ai đó dịch cuốn thứ hai, thứ ba, tôi nghĩ cần phải nhìn vào việc dịch dưới góc độ “gắn bó”.
Có người bảo những ai làm việc dịch, làm điều đó vì đam mê. Nghĩ kĩ, tôi không nghĩ đó chính xác là đam mê. Khi có kinh nghiệm với những việc này ở mức độ nào đó, nó đúng hơn là sự gắn bó. Gắn bó với một cách soi rọi, một cách phóng to những điều mà chỉ mình có thể làm, theo cách của riêng mình. Giống như birdwatching, đi vào rừng và ngắm những con chim. Niềm đam mê dù sao cũng rất gần với những thứ trái ngược với nó: nỗi ghét bỏ đến từ sự khao khát. Trái lại, dịch với đồng lương rẻ mạt, thực ra gần với sự diệt dục. Thù lao thấp đến mức tốt hơn ta không nên nghĩ về nó. (Dịch thuật như là tự sự (1))
Ở chiều ngược lại, dịch như là công việc thân thuộc được trả công, tôi có đứa bạn, nó “gắn bó” tới mức giữa thời điểm khó khăn nhất trong cuộc sống, không kiếm ra tiền, nó muốn quay trở lại dịch sách để vừa kiếm được đồng ra đồng vào, vừa như một cách chống chọi những bức bối, ngột ngạt trong cuộc sống. Và cả những sao nhãng từ thế giới mạng nữa; thời bây giờ, đâu dễ gì tập trung hơn hai mươi phút vào cùng một văn bản.
***
Thế nhưng, tôi bảo bạn tôi thế này: nếu là đứa thích viết lách, thì nên dành thời gian, công sức để viết báo - kể cả, và nhất là nếu, kiếm tiền là mối lo trước mắt. Thời buổi của AI (dịch free trong vài nốt nhạc) và đồng tiền trượt giá, dịch không còn là một nghề danh giá, là cái gì mà “bắc cầu văn hóa” như thời cách đây hai mươi, ba mươi năm. Tôi cũng thử tưởng tượng: nếu như tôi nai lưng ra dịch mỗi năm hai cuốn, dịch xong còn phải đợi biên tập, xuất bản rồi mới nhận thù lao, thì sau độ trễ tầm một năm (tính dôi ra), tôi lãnh được tầm hai lăm triệu (cũng tính dôi ra nốt hehe). Cầm hai lăm triệu đó trên tay, tôi nghĩ mình sẽ lên cơn trầm cảm sùi bọt mép mất.
Nhưng nếu như một năm tôi viết mười bài báo, có sự tìm tòi, đào sâu (và cũng phải nai lưng ra viết), cuối năm lãnh được hai mươi triệu, tôi sẽ thấy hài lòng hơn với bản thân. Vì viết báo và học cách dàn trải tư duy ra mặt giấy cũng là thực hành cho một lối viết tử tế; “tử tế” ở đây nằm trong khuôn khổ của thực hành: viết như những gì mình nghĩ, viết như là kinh nghiệm đối thoại; viết, trước tiên, vì một đời sống thực.
Tôi nói với bạn tôi y như vậy: hãy dành thời gian viết báo. Nhuận bút chảy vào sau đôi tuần và khi có tiền rồi, có thể dành cho mình một ít xa xỉ, là viết gì cũng được, viết mà không sinh ra tiền. Nghe có vẻ cuộc sống bế tắc và vô nghĩa nhỉ? Nhưng nói theo nguyên tắc “dao cạo Ockham”, thì cứ việc gì càng ít giả thuyết, lại càng xác đáng.
***
Tôi có theo dõi một số cuộc thảo luận về việc dùng AI để dịch sách. Kể từ bài đầu tiên tôi viết về AI khi ChatGPT mới ra đời, cho tới bài báo gần nhất về văn học dịch (ở bài đó, tôi có nói ướm chuyện sách của Rebecca F. Kuang được dịch bằng AI và chia sẻ tự do trên mạng, nhưng dĩ nhiên, khi viết trên báo chính thống thì tôi tránh không nhắc đến những cách làm sai luật như thế).
Nhiều người đã bắt đầu thử dùng AI để dịch Kim Bình Mai cho đỡ nhớ. Có người còn nêu lo ngại rằng với độ chính xác hiện nay, AI đã vượt trội khoảng 90% dịch giả trên thị trường, và thực tế nhiều công ty xuất bản ở Việt Nam đã bắt đầu dùng AI thay cho người dịch. Câu hỏi đặt ra là: liệu nghề dịch sách có sớm bị thay thế hoàn toàn bởi mô hình AI + người hiệu đính. Nếu điều đó xảy ra, đây sẽ là một thảm họa cho văn học hay một bước tiến tích cực cho độc giả?
Mô hình AI + người hiệu đính thực ra trên thế giới, ở nhiều ngành nghề người ta đã làm, gọi một cách hay ho là human in the loop. Tức là, vẫn giao cho AI một công việc lao động “chân tay” hì hục, người làm thì bạc mặt (càng nhọc với chữ càng tốt vì AI không bao giờ than khó), nhưng trong quá trình đó, vẫn có người đi theo sâu sát, và cuối cùng, vẫn là do người thẩm định.
Xét trong thị trường Việt Nam, khi mà người dịch ngày càng bị trả lương thấp (theo mức độ trượt giá) và không có sự hỗ trợ nào của hội đoàn (người làm cùng nghề với nhau) khi bị bully, tôi cảm thấy hoài nghi với mọi cách làm ăn không minh bạch.
Đây là một comment của tôi trong cuộc tranh luận:
nếu chất lượng dịch được cải thiện, có ích cho người đọc, đó là điều tích cực. nhưng xuất bản sách dịch bằng AI sẽ luôn là một business không minh bạch: người tham gia vào công đoạn nào? người có được trả công xứng đáng không khi mà việc dịch đã free rồi? và người edit cũng chính là những người dịch trước kia nhưng bây giờ tham gia vào ở một mức độ khác, họ có thẩm quyền và trách nhiệm ra sao?
nên suy cho cùng, thứ được xem là tích cực chưa hẳn là điều tốt, khi mà (1) nhà làm sách kiếm tiền dễ dàng hơn, nhưng mất đi thẩm quyền trong cuộc đối thoại giữa sản phẩm của họ và người đọc. (một bản dịch tốt nhưng vô hồn cũng là vì thế);
và (2) việc dịch bằng AI sẽ dẫn đến hệ quả này: “kinh nghiệm nghệ thuật” của việc dịch không còn quan trọng nữa, vì người đọc không còn nhận ra/quan tâm cuốn của tác giả A, B, C là do chị X, anh Z dịch. như thế, theo mình, rõ ràng là tàn phá giá trị của sách và văn chương. các bản văn khác nhau sẽ không khác mấy các văn bản template trong văn phòng luật. và đến lúc đó, người ta cũng sẽ dùng AI để đọc nốt, chứ tự mình đọc để làm gì đâu. nên mình nghĩ, cần xét đến AI ethics ở trong khía cạnh này (việc tiếp nhận nghệ thuật đến từ kinh nghiệm chứ không phải chỉ từ đối tượng).
Ở đây, tôi diễn giải theo hai ý.
Một là, hình thức kinh doanh ấy (dịch sách bằng AI) có đàng hoàng không, có minh bạch không? Từ xưa đến giờ, lợi nhuận chảy vào túi nhà xuất bản; nhưng khi có phốt thì đắng cay dịch giả chịu. Bây giờ, việc dịch đã free rồi, nhà xuất bản có chịu công khai quy trình human in the loop của mình không; thẩm quyền, trách nhiệm và quyền lợi của những người edit (sẽ là những người chuyên dịch ngày trước chuyển nghề sang) tới đâu. Các bạn có hình dung được thù lao cho người biên tập một cuốn sách thấp tới chừng nào không?
Nói một cách cấp tiến hơn, nếu việc kinh doanh sách dịch nhờ AI là cỗ máy kiếm tiền dễ, người ta có nên chia lợi nhuận đó cho các dịch giả ngày xưa đã từng nai lưng ra dịch từng câu văn, con chữ và đem lại thị trường cho việc đọc không? Hay là (như trước giờ vẫn thế), trả thù lao xong là “Tschüss quả quýt!” (Một đi không trở lại; ngôn ngữ bây giờ gọi là bị “ghosted”.)
Hai là, tôi muốn nói đến ngôn ngữ bị cào bằng. Một vấn đề của thị trường trong nước là người đọc vốn vẫn bị định hướng (theo cách toxic) là dịch thế nào mới là tín, đạt, nhã; dịch như thế mới là hay, là chuẩn; dịch thế kia là dở, là dốt; và những tranh cãi dịch thuật cho tới giờ vẫn chỉ loay hoay cãi nhau từng chữ cũng là khuếch đại xu hướng này. Như thế, khi AI dịch chuẩn hơn, trơn tru hơn, mượt mà hơn, dĩ nhiên là điều tích cực. Song cái mất là kinh nghiệm của người dịch, đồng thời ngôn ngữ bị cào bằng và đi về phía trung tâm hóa. Kinh nghiệm đọc trở thành kinh nghiệm tập thể.1 Về lâu dài, tiếng Việt là ngôn ngữ thiểu số, nếu cứ dựa dẫm vào máy dịch, rồi sẽ tới lúc bị máy và AI bully.
***
Trước mắt, tôi nghĩ là có hai cách để tiếp cận việc ngôn ngữ bị cào bằng khi ta lạm dụng mô hình ngôn ngữ lớn trong việc dịch thuật, nhất là ở mảng dịch hư cấu (là khu vực cần sự phong phú về mặt representation, tức giọng nói, sắc thái, và kinh nghiệm, hơn cả).
Khi ngôn ngữ bị cào bằng
A. Về mặt thống kê
Vấn đề công bằng (fairness) trong các mô hình ngôn ngữ lớn có một nghịch lý căn bản: cho dù dữ liệu huấn luyện có lớn đến đâu, tính đại diện của nó vẫn luôn giới hạn. Lý do nằm ở bản chất của phân phối ngôn ngữ và dữ liệu: trong mọi phân phối đều tồn tại phần đuôi (tail), là những vùng hiếm gặp, ít dữ liệu, tần suất thấp.
Khi mô hình được huấn luyện trên một kho ngữ liệu khổng lồ, nó sẽ tái hiện rất tốt phần trung tâm của phân phối (những mẫu ngôn ngữ phổ biến, xuất hiện nhiều lần). Nhưng càng đi về phía đuôi ở hai bên, i.e., những phương ngữ hiếm, giọng nói thiểu số, cách viết lệch chuẩn, thì mô hình càng kém chính xác. Phần đuôi luôn tồn tại, và khi tập dữ liệu càng lớn thì độ dài của đuôi thậm chí còn mở rộng, khiến những nhóm vốn đã ở rìa “ngữ vực xã hội” tiếp tục bị đặt ở rìa của mô hình.
Điều này dẫn đến một nghịch lý: càng mở rộng dữ liệu, ta càng có cảm giác “đại diện toàn diện”, nhưng thực ra những tiếng nói ở vùng đuôi vẫn bị gạt ra ngoài biên. Lập luận theo cách này, ta thấy rõ sự bất công cấu trúc: những cộng đồng nhỏ, ngôn ngữ thiểu số hay trải nghiệm ngoại biên sẽ bị mô hình tái tạo một cách mờ nhạt hoặc sai lệch, bất kể quy mô tập dữ liệu lớn đến mức nào.
Trong hình phân phối chuẩn dưới đây, phần lớn dữ liệu tập trung ở trung tâm (mean), còn đuôi hai bên là nơi các giá trị hiếm gặp nằm rải rác. Dữ liệu càng nhiều thì đỉnh trung tâm càng sắc nét, nhưng phần đuôi không bao giờ biến mất; đó chính là nơi nhóm yếu thế, thiểu số thường bị bỏ quên.
Biểu đồ trên minh họa hai khu vực của phân phối chuẩn:
Phần trung tâm (màu trắng rỗng) tượng trưng cho những dữ liệu phổ biến, thường gặp, tương ứng với những cách dùng ngôn ngữ quen thuộc, chuẩn mực, được mô hình AI học rất tốt.
Hai đuôi màu đỏ chính là các vùng hiếm gặp: những phương ngữ, cách diễn đạt lạ, giọng nói thiểu số, hoặc những quan điểm ngoại biên.
Mô hình càng lớn thì trung tâm càng vững chắc, nhưng đuôi vẫn bị “gạt ra ngoài lề”: Đây chính là trở ngại lớn cho vấn đề “fairness of representation” trong AI: các nhóm, tiếng nói và kinh nghiệm sống vốn đã thiểu số trong xã hội sẽ tiếp tục bị coi nhẹ trong không gian ngôn ngữ của mô hình.
B. Quá trình tiếp nhận như là kinh nghiệm
Văn chương hư cấu trước hết là một tác phẩm nghệ thuật. Cũng như mọi hình thức nghệ thuật khác (hội họa, điêu khắc, nhiếp ảnh), cái làm nên bản chất nghệ thuật không nằm ở “đối tượng” được tái hiện mà ở cách nó được trình bày. Viktor Shklovsky2 có phát biểu một câu hay được quote: “Art is a way of experiencing the artfulness of an object: the object is not important.” Nghệ thuật, bằng kỹ thuật của riêng nó, khiến sự vật trở nên lạ lẫm, khó nắm bắt, khiến việc tri nhận không còn là thao tác tức thời mà trở thành một quá trình kéo dài, đôi khi rất nhiều agony.
Chính sự trì hoãn và căng thẳng trong tri giác này mới làm nên giá trị thẩm mỹ. Và hiểu như thế, người dịch, cùng với sự trì hoãn và căng thẳng trong tri giác của họ, cũng là mắt xích mấu chốt trong quá trình tạo nghĩa đó.
Như vậy, dịch văn chương hư cấu không bao giờ chỉ là “chuyển nghĩa”, hoặc là đưa từ ngôn ngữ nguồn sang ngôn ngữ đích sao cho tín-đạt-nhã. Nó nên được hiểu là sự tham dự vào quá trình tạo ra một trải nghiệm thẩm mỹ mới trong một ngôn ngữ khác. Người dịch, với vốn từ vựng, kinh nghiệm đọc, và nhạy cảm nghệ thuật của họ, không chỉ truyền đạt mà còn tái thiết lập độ khó và nhịp điệu của việc đọc. Họ giữ lại tinh thần “lạ hóa” của văn bản.3
Nhưng khi dùng AI để dịch, ngôn ngữ bị cào bằng. AI có thể cho ra một bản văn trôi chảy, đúng nghĩa, nhưng sự đa dạng về giọng điệu, về cách lựa chọn từ ngữ và nhất là kinh nghiệm cảm thụ cá nhân của người dịch sẽ biến mất. Cái bị mất không chỉ là ngôn ngữ của người dịch (từ vựng, phong cách, giọng cá nhân) mà còn là kinh nghiệm tiếp nhận và tương tác của người dịch với tác phẩm; kinh nghiệm đó được thể hiện trong từng lựa chọn ngôn từ, từng nhịp câu, từng dấu chấm, dấu phẩy.4
Khi thiếu vắng điều này, tác phẩm đích trở nên vô hồn, vô giọng. Nó có thể là một bản dịch “đúng” nhưng không thuộc về ai cả; một văn bản (hoặc một phiên bản không con số của văn bản đó) mà bất cứ hệ thống AI nào cũng có thể tạo ra nếu đủ dữ liệu, và bởi thế, không còn mang dấu ấn của bất kỳ cá nhân cụ thể nào. Nói cách khác, nó là bản dịch của “mọi người” và đồng thời là của “không ai cả”. Chính sự vô danh này làm cho văn chương mất đi cái lõi nghệ thuật: trải nghiệm thẩm mỹ độc đáo bị đánh mất, trên bề mặt chỉ còn là thông tin được chuyển giao trơn tru.
AI dịch văn chương thành “template văn phòng”
Văn chương, khi bị dịch hoàn toàn bằng AI, dù có human in the loop chăng nữa, sẽ dễ dàng trở thành một thứ “template văn phòng”: chính xác, gọn ghẽ, trơn tru, dễ hiểu, nhưng vô cảm. Giống như bản hợp đồng hay một báo cáo hành chính, văn bản ấy có thể đáp ứng yêu cầu thông tin nhưng không còn giữ lại chiều sâu thẩm mỹ. Điều này xảy ra bởi (ta lại quay về mặt thống kê) AI vốn được tối ưu hóa để loại bỏ sự bất thường, chuẩn hóa cú pháp, làm trơn nhịp câu, trong khi bản chất của văn chương lại là tạo ra sự “lạ hóa”, kéo dài và làm khó quá trình cảm nhận.
Như Natalia Ginzburg, đâu phải tự nhiên bà dùng nhiều dấu chấm phẩy. (Và thú thực, từ khi viết Substack, tôi lại lên cơn ghiền dấu chấm phẩy!) Cái mất từ việc template hóa không chỉ là sự độc đáo của người dịch nằm xếp lớp trên sự độc đáo của văn bản gốc; cái mất lớn hơn cả là cơ hội để người đọc đối diện với một văn bản mang cá tính, buộc họ đọc chậm lại, suy nghĩ, và thưởng thức. Sách sinh ra để làm gì, nếu không phải để cho phép ta những thứ xa xỉ nhỏ nhặt, như là đọc chậm lại, suy nghĩ, và thưởng thức?
Hệ quả sau cùng chính là sự triệt tiêu chức năng nghệ thuật của văn học dịch. Khi mọi bản dịch đều có thể do bất cứ mô hình nào tạo ra, mọi “phiên bản” dịch, tuy có thể khác nhau về từng chữ và cú pháp, đều giống nhau ở mức “đúng” và “trôi chảy”, văn học sẽ mất đi giọng nói riêng, mất đi khả năng đối thoại với độc giả ở tầng thẩm mỹ. Người đọc được cung cấp nghĩa, nhưng họ không còn trải nghiệm thẩm mỹ, vốn đến từ sự va chạm giữa người viết, người dịch và người đọc.5
Đó chính là nguy cơ lớn nhất: văn chương biến thành văn bản công cụ, còn việc đọc chẳng khác gì xử lý một tệp dữ liệu. Rồi sớm muộn, việc đọc cũng bị đẩy cho AI.
Xu hướng này thật ra đi ngược với xu hướng văn chương hiện đại bây giờ (chú trọng ngôi thứ nhất, tính cá nhân và kinh nghiệm riêng; autofiction đang hot trở lại...).
Viktor Shklovsky (1893-1984), nhà lý thuyết văn học Nga, người sáng lập trường phái Hình thức luận, nổi tiếng với khái niệm “lạ hóa” (ostranenie); tức là, xem nghệ thuật như cách làm cho sự vật trở nên xa lạ nhằm kéo dài và làm mới trải nghiệm thẩm mỹ.
Chẳng hạn, ta có trường hợp dịch giả Lê Quang bị chỉ trích với bản dịch Tình ơi là tình của nhà văn Áo Elfriede Jelinek vì không viết hoa, không thụt đầu dòng, dùng những từ bị cho là thô tục.
Ta có thể vặn lại rằng: “thời bây giờ đọc bản dịch, không còn phân biệt được đâu là AI dịch, đâu là người dịch, thì giọng và phong cách đâu còn quan trọng nữa”, nhưng đây là lập luận đi vào ngõ cụt. Khi ta chỉ dừng ở việc hỏi “có phân biệt được không”, tức là đang coi dịch thuật như một trò chơi đoán định kỹ thuật, thay vì đặt câu hỏi quan trọng hơn: bản dịch này có tạo ra trải nghiệm thẩm mỹ, có mang dấu ấn đối thoại giữa tác giả - dịch giả - độc giả hay không?
Thêm nữa, nếu đã đến lúc “không phân biệt được nữa”, thì vấn đề lớn hơn chính là: bản dịch đang bị cào bằng đến mức vô giọng. Như vậy, cách nói như trên chỉ đang che lấp mâu thuẫn.
Người hóng gossip cũng mất đi những cuộc tranh cãi dịch thuật vô bổ; gossip dịch thuật trở thành món hàng xa xỉ.
Hay quá, cảm ơn tác giả.