Extracció de terminologia: elements per a la construcció d'un SEACUSE (Sistema d'Extracció Automàtica de Candidats a Unitats de Significació Especialitzada)

Estopà Bagot, Rosa

Extracció de terminologiaelements per a la construcció d'un SEACUSE (Sistema d'Extracció Automàtica de Candidats a Unitats de Significació Especialitzada)

Estopà Bagot, Rosa

Dirigida por:

María Teresa Cabré Director/a

Universidad de defensa: Universitat Pompeu Fabra

Fecha de defensa: 19 de marzo de 2002

Tribunal:

Toni Badia Cardús Presidente/a
Christian Jacquemin Secretario/a
Josep Lluís Barona Vocal
Mercè Lorente Casafont Vocal
Horacio Rodríguez Hontoria Vocal

Tipo: Tesis

Teseo: 188544 DIALNET TDX editor

Resumen

Lobjectiu principal daquesta tesi és dissenyar un model dun Sistema dExtracció Automàtica de Candidats a Unitats de Significació Especialitzada (SEACUSE) basat en fonaments lingüístics de diferents tipus i adequat a les necessitats dunes activitats professionals concretes. Per fer-ho, en el primer capítol es descriu els sistemes dextracció automàtica de candidats a terme (SEACAT) i sanalitza i valora els principals SEACAT amb lobjectiu delaborar un estat de la qüestió en aquest camp que evidenciï les característiques i sobretot les limitacions daquests sistemes. En el segon capítol, en primer lloc, es validen les hipòtesis que vam postular en el treball de recerca sobre els patrons estructurals de les UTP i en segon lloc a comprovar les principals limitacions dels SEACAT que es basen en patrons morfosintàctics. Aquestes limitacions es manifesten en dos aspectes: el silenci (unitats pertinents no detectades per lextractor) i el soroll (unitats no pertinents presentades com si ho fossin). Les dades que es desprenen de lanàlisi del silenci i el soroll sestudien en el tercer i quart capítol, respectivament. Així, primer sanalitzen els tipus i les causes de silenci que produeixen els SEACAT, i tot seguit els tipus i les causes del soroll generat per aquests sistemes. El cinquè proposa elements i estratègies perquè un sistema dextracció automàtica redueixi el silenci i el soroll, i daquesta manera aconsegueixi que els seus resultats sacostin més al reconeixement i delimitació manuals de les unitats de significació especialitzada. El sisè capítol introdueix el punt de vista de lusuari i planteja el fet que no totes les activitats professionals requereixen els mateixos tipus ni el mateix nombre dunitats especialitzades dun text. Aquesta hipòtesi és verificada a través duna prova experimental basada en les necessitats de quatre activitats professionals diferents. I, finalment, en el setè capítol, sexposa una proposta de model de SEACUSE que, a més de les estratègies plantejades en el capítol cinquè, té en compte les finalitats dels professionals a lhora de presentar els resultats. RESUMEN El objetivo principal de esta tesis es diseñar un modelo de un Sistema de Extracción Automática de Candidatos a Unidades de Significación Especializada (SEACUSE) basado en fundamentos lingüísticos diferentes y adecuado a las necesidades de unas actividades profesionales concretas. En el primer capítulo se describen los sistemas de extracción automática de candidatos a término (SEACAT) y se analizan y valoran los principales SEACAT con el objetivo de elaborar un estado de la cuestión en este campo que evidencie las características y sobre todo las limitaciones de estos sistemas. En el segundo capítulo, primeramente, se validan las hipótesis que postulamos en el proyecto de investigación previo a la tesis doctoral sobre los patrones estructurales de las UTP y después se comprueba las principales limitaciones de los SEACAT que se basan en patrones morfosintácticos. Estas limitaciones se manifestar en dos aspectos: el silencio (unidades pertinentes no detectadas por el extractor) y el ruido (unidades no pertinentes presentadas como si lo fueran). Los datos que se desprenden del análisis del silencio y del ruido se estudian en los capítulos tercero y cuarto, respectivamente. Así, primero se analizan los tipos y las causas de silencio que producen los SEACAT, y seguidamente los tipos y las causas del ruido generado por estos sistemas. El quinto propone elementos y estrategias para que un sistema de extracción automática reduzca el silencio y el ruido, y de esta manera consiga que sus resultados se aproximen más al reconocimiento y delimitación manuales de las unidades de significación especializada. El sexto capítulo introduce el punto de vista del usuario y plantea el hecho de que no todas las actividades profesionales requieren los mismos tipos ni el mismo número de unidades especializadas de un texto. Esta hipótesis se verifica a través de una prueba experimental basada en las necesidades de cuatro actividades profesionales diferentes. Y, finalmente, en el último capítulo, se expone una propuesta de un modelo de SEACUSE que, además de las estrategias planteadas en el quinto capítulo, tiene en cuenta las finalidades de los profesionales en la presentación de los resultados.