Mohamed Khemakhem

VITA

Zusammenfassung

Dieses Projekt ist motiviert durch die bestimmende Rolle lexikalischer Ressourcen in verschiedenen Disziplinen, die sich mit natürlichen Sprachen befassen. Insbesondere die Digitalisierung lexikalischer Ressourcen in den letzten Jahrzehnten hat die Frage der Strukturierung ihrer zu dekodierenden und zu nutzenden Inhalte aufgeworfen. Eine umfangreiche Arbeit wurde bereits von Standardisierungsorganisationen geleistet, um spezielle Modelle und Praktiken für die Darstellung dieser wichtigen Sprachressourcen zu finden. Die führenden Standards in dieser Richtung sind die Text Encoding Initiative (TEI) und das Lexical Markup Framework (LMF). Während TEI einen gut etablierten Rahmen für die Strukturierung einer Vielzahl von Texten bietet und ein ganzes Kapitel für lexikalische Ressourcen widmet, hat LMF einen fokussierten Modellierungsbereich für lexikalische Ressourcen und bietet ein Metamodell für die Darstellung verschiedener linguistischer Ebenen. Angesichts der Ähnlichkeiten und Besonderheiten ihrer Ansätze und der von ihnen vorgeschlagenen Kodierungsalternativen unterstütze ich die Hypothese der gegenseitigen Verbesserung, die TEI und LMF füreinander darstellen. Darüber hinaus besteht nach wie vor ein großer Bedarf an Techniken zur Anwendung dieser Normen für die Strukturierung bestehender digitalisierter lexikalischer Ressourcen. Dieser Forschungsschwerpunkt erfordert mehr Anstrengungen, um die komplexen Herausforderungen zu bewältigen, die er für die damit verbundenen Aufgaben des Language Engineering darstellt. Ziel dieses Projekts ist es, die Forschung auf dem Gebiet der Standardisierung und Strukturierung lexikalischer Ressourcen voranzutreiben. Ich plane, eine TEI-LMF-Anpassung vorzuschlagen, indem ich die Zuordnung zwischen den beiden Standards studiere. Darüber hinaus werde ich den Einsatz von maschinellen Lerntechniken untersuchen, um automatisch Strukturen in verschiedenen Dictionary-Stichproben zu erkennen und TEI-LMF-spezifische Ressourcen zu generieren.  ;

Ce projet est motivé par le rôle déterminant des ressources lexicales dans diverses disciplines traitant des langues naturelles. En particulier, la numérisation des ressources lexicales au cours des deux dernières décennies a soulevé la question de la structuration de leur contenu à décoder et à exploiter. Les organismes de normalisation ont déjà effectué un travail considérable pour trouver des modèles et des pratiques dédiés à la représentation de ces ressources linguistiques clés. Les principales normes en ce sens sont l'Initiative de codage de texte (TEI) et le Cadre de balisage lexical (LMF). Tandis que TEI offre un cadre bien établi pour structurer un large éventail de textes et consacre un chapitre entier aux ressources lexicales, LMF a une portée ciblée pour la modélisation des ressources lexicales et offre un méta-modèle pour présenter différents niveaux linguistiques. Compte tenu des similitudes et des spécificités de leurs approches et des alternatives d'encodage qu'elles proposent, je soutiens l'hypothèse de l'amélioration mutuelle que TEI et LMF présentent l'une pour l'autre. En outre, il existe encore un besoin important de techniques pour appliquer ces normes à la structuration des ressources lexicales numérisées existantes. Cet axe de recherche nécessite plus d'efforts pour surmonter les défis complexes qu'il présente pour les tâches d'ingénierie linguistique connexes. L'objectif de ce projet est de faire progresser la recherche dans le domaine de la normalisation et de la structuration des ressources lexicales. J'envisage de proposer une personnalisation de TEI-LMF en étudiant la correspondance entre les deux standards. De plus, j'étudierai l'utilisation de techniques d'apprentissage automatique dans le but de détecter automatiquement des structures dans divers échantillons de dictionnaires et de générer des ressources personnalisées TEI-LMF.    ;

This project is motivated by the determinant role of lexical resources in various disciplines dealing with natural languages. In particular, the digitization of lexical resources in the past couple of decades has raised the issue of structuring their content to be decoded and exploited.   A substantial work has been already carried out by standardization organisms to find dedicated models and practices for representing these key language resources. The leading standards in this direction are Text Encoding Initiative (TEI) and Lexical Markup Framework (LMF). While TEI offers a well established framework for structuring a wide range of texts and dedicates a whole chapter for lexical resources, LMF has a focused scope for modelling lexical resources and offers a meta-model for presenting different linguistic levels. Given the similarities and the specificities in their approaches and the encoding alternatives they propose, I support the hypothesis of the mutual improvement that TEI and LMF present for each other. Moreover, there is still a serious need for techniques to apply these standards for structuring existing digitized lexical resources. This research axis requires more efforts to be invested to overcome the complex challenges that it presents for the related language engineering tasks. The goal of this project is to advance research in the field of standardization and structuring of lexical resources. I plan to propose a TEI-LMF customization by studying the mapping between the two standards. In addition, I will investigate the use of machine learning techniques for the purpose of detecting automatically structures in varied dictionary samples and generating TEI-LMF customized resources.  

Mutterinstitut:

Paris Diderot University - Paris 7

Forschung

Titel der Dissertation:

Standardbasierte lexikalische Modelle für automatisch strukturierte Dictionaries; Modèles lexicaux normalisés pour la structuration automatiques des dictionnaires numérisés; Standard-based lexical models for automatically structured dictionaries

Betreuer*in

Dr. Laurent Romary

Publikationen

Eine vollständige Liste meiner wissenschaftlichen Publikationen finden Sie unter meinem HAL-Profil.