Entretien avec l’informaticien Jorge Gracia

1595

Le 23 octobre, la direction générale de la traduction de la Commission européenne à Luxembourg a organisé un séminaire sur les données ouvertes linguistiques liées à la terminologie, présenté par les éminents scientifiques Elena Montiel-Ponsoda et Jorge Gracia.

Les traducteurs, terminologues et stagiaires de la Commission et du Parlement ont eu l’occasion d’assister à ce séminaire et d’en apprendre davantage sur les données liées. Cela incluait les avantages d’une telle technologie pour les ressources linguistiques ainsi que d’en savoir plus sur les modèles existants d’information linguistique représentés sous forme de données liées.

Inspirés par cette présentation, deux des stagiaires actuels de l’unité de coordination terminologique ont interviewé chacun des deux intervenants. Aujourd’hui, TermCoord publie le premier d’entre eux, avec l’informaticien Jorge Gracia.

Le champ d’intérêt de M. Gracia s’étend, entre autres, à l’appariement linguistique des données ouvertes et de l’Ontologie. Des recherches comme celle-ci pourraient changer la façon dont nous compilons, stockons et travaillons avec des bases de données terminologiques, et c’est la raison pour laquelle nous avons décidé d’inclure cette interview dans la série de publications «Pourquoi la terminologie vous passionne?» Une interview tout aussi intéressante avec la co-présentatrice du séminaire susmentionné, Mme Elena Montiel-Ponsoda, sera également en ligne prochainement.


Jorge Gracia titulaire d’un diplôme en physique de l’Université de Saragosse, où il a également obtenu un doctorat en informatique avec une thèse intitulée «Techniques d’intégration et de désambiguation pour la réduction de l’hétérogénéité sémantique sur le Web» (2009). Il travaille actuellement comme professeur adjoint à l’Université de Saragosse. Auparavant, il a travaillé dans le conseil en informatique à Barcelone et, plus récemment, en tant que chercheur postdoctoral à l’Université Politécnica de Madrid, participant à des projets de recherche de pointe sur la sémantique et l’ingénierie du savoir. Il a été chercheur invité dans des centres de recherche de premier plan tels que le Knowledge Media Institute (Open University, UK), INRIA (Grenoble, France), Università di Roma «La Sapienza» (Italie) et CITEC à l’Université de Bielefeld (Allemagne). Ses principaux domaines de recherche sont le Web sémantique, les données linguistiques liées, le jumelage de l’ontologie et l’interprétation des requêtes. Il a été coprésident du W3C Best Practices for Multilingual Linked Open Data Community Group et est actuellement coprésident du groupe communautaire Ontology Lexica du W3C. citron-Ontolex le modèle a été développé.


1. Vous êtes informaticien et la plupart de vos derniers projets de recherche portent sur le traitement du langage naturel et les ressources linguistiques sur le Web de données. Qu’est-ce qui vous fascine le plus dans ces projets?

La compréhension du langage naturel par les machines est un objectif à long terme de l’Intelligence Artificielle. Notre recherche, à l’intersection de la linguistique et du Web sémantique, a des objectifs plus modestes, mais c’est toujours un pas dans cette direction. Ce que je considère comme le plus difficile et le plus fascinant, c’est la nature intrinsèquement imprécise du langage humain, si différente des langages formels et structurés que les ordinateurs utilisent pour exécuter leurs programmes. Il est donc très gratifiant quand, par le biais d’un programme informatique, vous êtes en mesure d’extraire des informations de données linguistiques, de formaliser la sémantique de certaines entités, ou de déduire de nouvelles connaissances.

2. Qu’est-ce que Linked Data et pourquoi est-il utile pour les ressources linguistiques, la terminologie et les dictionnaires?

Les données liées font référence à un ensemble de bonnes pratiques pour exposer, partager et connecter des données sur le Web. Ces données peuvent se référer à pratiquement n’importe quoi, y compris les documents, les personnes, les objets physiques et les concepts abstraits. En conséquence, un «Web of Data» est en train d’émerger dans lequel les liens sont au niveau des données, en tant que contrepartie du Web «traditionnel», dans lequel des liens sont établis au niveau des documents (par exemple, des liens hypertextes entre les pages Web). Lorsqu’ils sont appliqués aux ressources linguistiques, nous représentons et connectons des données linguistiques, et contribuons à la croissance du cloud de données ouvertes lié linguistique.

La publication de ressources linguistiques telles que Linked Data offre des avantages évidents aux propriétaires de données et aux utilisateurs de données, tels qu’une plus grande indépendance vis-à-vis des formats de données spécifiques au domaine ou des API spécifiques au fournisseur (les normes bien établies du World Wide Web Consortium sont utilisées à la place), ainsi qu’un accès plus facile et une réutilisation des données linguistiques par des logiciels sensibles à la sémantique. En fait, Linked Data permet de connecter plus facilement des ensembles de données créés par différentes personnes et à des fins différentes dans un graphique unifié, de sorte que les informations combinées peuvent être plus facilement traversées, interrogées et analysées.

3. Pourriez-vous nous donner quelques exemples de données liées en terminologie? Quels résultats les terminologues peuvent-ils obtenir si nous utilisons Linked Open Data, et comment diffèrent-ils des résultats que nous obtenons à travers les bases de données traditionnelles que nous utilisons aujourd’hui?

Un exemple intéressant de Linked Data en terminologie est Terminoteca RDF, un effort que nous avons commencé lorsque j’ai fait partie du groupe Ontology Engineering Group (Universidad Politécnica de Madrid), axé sur la conversion d’un certain nombre de terminologies multilingues en Espagne en données liées. En conséquence, nous avons obtenu un graphique unifié où les données terminologiques initialement déconnectées étaient faciles à découvrir avec de simples requêtes. Les mêmes types de requêtes ne sont pas impossibles par le biais des bases de données traditionnelles, mais sont loin d’être simples et elles ont lieu au prix de la perte d’aspects centrés sur le Web (dans le Web of Data, les termes sont définis d’une manière unique à l’échelle du Web et peuvent être découverts/requés par le biais de normes Web).

4. Selon vous, quelles compétences informatiques un terminologue a-t-il besoin d’avoir?

À mon avis, les terminologues modernes n’ont pas besoin d’être des experts en informatique, mais au moins d’être conscients des nouvelles technologies qui peuvent avoir un impact sur leur travail et d’être ouverts d’esprit à leur égard. Cela leur donnera la compétence de choisir ce qui est le mieux pour leur travail ainsi que la capacité de mieux communiquer leurs besoins aux technologues.

5. IATE est une base de données de plus d’un million d’entrées multilingues et certains ensembles de données de son contenu sont Linked Data. Que faudrait-il pour transformer l’ensemble de la base de données en données liées et quels seraient les avantages de le faire?

Le démonstrateur de données liées d’IATE qui a été construit dans le cadre du projet européen LIDER a montré la faisabilité de l’application des techniques de Linked Data à une ressource aussi importante, mais elle était basée sur un sous-ensemble ouvert des données. L’état de l’ensemble des données en termes de licences et de réutilisabilité devrait être vérifié afin de permettre une migration complète. Si cette conversion a lieu, les données IATE seraient prêtes à être réutilisées par des agents logiciels et applications compatibles avec les données liées et pour leur interconnexion avec d’autres ressources sur le cloud de données ouvertes lié linguistique.

6. Vous avez travaillé sur le citron modèle, un modèle d’information linguistique en tant que données liées. Comment utiliser l’interopérabilité de ce modèle pour la traduction et/ou la terminologie, notamment pour IATE?

citron, Lorsqu’il est utilisé pour représenter les traductions, peut être utile à deux niveaux: premièrement, au niveau de la représentation des connaissances, et deuxièmement, au niveau de l’interopération des données.

Tout d’abord, l’un des aspects de citron dans laquelle j’ai été plus impliqué, conjointement avec mes collègues de l’Université Politécnica de Madrid, a été dans le développement d’un module de représentation des traductions et des variations terminologiques. Ce module, appelé «vartrans», couvre les besoins de représentation lors de la prise en compte des traductions et des variations. Si quelqu’un a besoin d’une représentation riche des relations de traduction en tant que données liées, par exemple, pour enregistrer la provenance de la traduction, la directionalité (langues source/cible) ou le type de traduction (par exemple, «traduction directe», «équivalent culturel», etc.), ce module peut être très utile.

Deuxièmement, les données liées vous permettent de connecter des traductions de différentes sources de données multilingues/bilingues et dictionnaires dans un graphique unifié, permettant ainsi de déduire facilement de nouvelles traductions entre des langues initialement déconnectées qui n’étaient pas explicitement définies dans les données originales. Dans ce sens, je co-organise une tâche partagée «Translation Inférence Across Dictionaries» (https://tiad2019.unizar.es/) avec l’idée d’explorer et de comparer des techniques qui induisent de telles traductions indirectes.

7. Un autre projet auquel vous avez participé s’appelle Apertium, une plateforme de traduction automatique. Pourriez-vous nous expliquer un peu plus sur ce projet?

Apertium est une plate-forme open source pour le développement de la traduction automatique basée sur des règles, initialement développée par Universitat d’Alacant en Espagne, et maintenant entre les mains d’une communauté plus large et très active. Je n’ai pas participé directement à ce projet passionnant, mais j’ai pris certaines de leurs ressources et les ai transformées afin d’enrichir le cloud de Linguistic Linked Open Data. Par exemple, une famille de dictionnaires bilingues a été construite dans le cadre de Apertium, qui a été exploité par les systèmes de traduction. Ce que nous avons fait, c’est de convertir vingt-deux de ces dictionnaires en RDF (le formalisme de base pour représenter les données en tant que données liées) et de les publier sur le Web. Nous avons nommé cette initiative «Apertium RDF», qui est une belle démonstration de l’utilisation de citron représenter et interconnecter les dictionnaires bilingues sur le Web des données.

8. Vous gardez un blog où vous écrivez sur l’informatique et le Web sémantique. Dans quelle mesure croyez-vous que le blog et d’autres médias sociaux aident à ce que les gens vous atteignent et les connaissances que vous partagez?

Malheureusement, je ne consacre pas beaucoup de temps au blog, bien que je prévois de changer cela dans un avenir proche. Je considère ce format comme un moyen de partager les connaissances qui complètent très bien les articles scientifiques, qui sont plus difficiles à consommer par les non-experts. En plus de cela, écrire une entrée de blog est un très bon exercice pour mettre vos idées en ordre et les formuler de manière plus accessible.

9. Lynx C’est le nouveau projet sur lequel vous et votre équipe travaillez. Pourriez-vous décrire quel est l’objectif du projet?

En un mot, l’idée de Lynx L’objectif est de créer un graphique de connaissances juridiques qui intégrera et reliera des sources de données hétérogènes sur la conformité, y compris la législation, la jurisprudence, les normes et d’autres contrats privés, afin de soutenir le développement de services intelligents pour la conformité juridique. L’aspect multilingue est très important dans le projet, étant donné que les principaux problèmes de conformité juridique ont généralement lieu au-delà des frontières et des langues. Les techniques de Linked Data sont au cœur de ce projet, qui sont utilisés à la fois pour représenter les connaissances et les relier.

10. Comment envisagez-vous l’avenir des ressources linguistiques et terminologiques ainsi que des dictionnaires?

Je pense que les dictionnaires et les terminologies doivent se débarrasser de leurs frontières physiques pour devenir nativement numériques. Bien qu’il existe de nombreux dictionnaires électroniques, la plupart d’entre eux s’en tiennent toujours à la version imprimée et imitent les structures hiérarchiques que l’on peut trouver dans le papier. Mais ce n’est qu’un des nombreux arrangements possibles de l’information lexicale. Dans le paradigme des données liées, tout élément du lexique (entrée lexicale, sens lexical, traduction, forme, etc.) peut être un «citoyen de première classe» et devenir le centre d’une structure à base de graphes, ce qui permettra de nombreuses autres dispositions et vues possibles sur l’information.

Linked Data s’est avéré utile pour les ressources linguistiques en général, en particulier en ce qui concerne les terminologies et les dictionnaires. Grâce à ces technologies, nous prévoyons des graphiques plus unifiés/liés de terminologies et de dictionnaires sur le Web, enrichis par leur lien avec d’autres ressources. Un défi en suspens est de construire des dictionnaires/terminologies «Linked Data natives» (jusqu’à présent, nous avons converti des dictionnaires existants), ce qui ouvrira le champ à de nouvelles possibilités passionnantes et à de nouvelles formes (non envisagées encore) de travailler avec des données lexicographiques.


Interviewée par Olga Vamvaka — stagiaire en terminologie à l’unité de coordination terminologique du Parlement européen (Luxembourg).

Elle est titulaire d’un baccalauréat en relations internationales et d’une maîtrise en traduction et a travaillé dans l’enseignement des langues. Elle parle grec, anglais, tchèque et français.