DSpace Repository

Evaluación de sistemas españoles de recuperación de información distribuída en Internet

Show simple item record

dc.contributor Cueva, Alejandro de la
dc.contributor Canet, Josep Lluís
dc.creator Amat, Carlos B.
dc.date 2008-05-15T20:14:07Z
dc.date 2008-05-15T20:14:07Z
dc.date 2005
dc.date.accessioned 2017-01-31T01:20:15Z
dc.date.available 2017-01-31T01:20:15Z
dc.identifier http://hdl.handle.net/10261/4290
dc.identifier.uri http://dspace.mediu.edu.my:8181/xmlui/handle/10261/4290
dc.description Tesis doctoral, Universidad de Valencia, Departamento de Historia de la Ciencia y Documentación.-- Fecha de defensa: 14/02/2005.
dc.description [EN] The set of information spaces collectively referred as Internet poses serious problems to information retrieval tasks. Content evolution of Internet spaces and documents is reviewed and distinctive features of web documents are empathized. Web search engines are classified according to their scope, functionalities and retrieval philosophy. A chapter is devoted to the characterization of Spanish web though the study of a random set of web sites, their quantitative composition and their qualitative features.
dc.description The analysis of search engines of the Spanish web begins with a study of coverage, methods of crawling, data schema and indexing mechanisms. Finally, eight search engines (AltaVista, EnlaWeb, Lycos, Olé/Terra, Ozú, Sol, Ya and Yahoo) were evaluated in retrieving information from Spanish web space. Indicators chosen were their relative coverage, specific offering, proportion of dead links and accessibility of Spanish websites. Performance was determined by relative recall and precision in retrieval during the first quarter in 2003. Search topics and relevance of results were determined by the end users. 12,4% of the searches led to dead links and 76% of the pages were returned by only a single system. System performance, expressed in terms of recall ranged from 7% (AltaVista) to 14% (Ozú) and precision between 9% (Sol) and 30% (Ozú). Only Yahoo displayed typical inverse relationship between recall and precision figures. The rest of the systems invariably showed an increase in precision figures starting with the second or third search result, suggesting problems with the sorting algorithm.
dc.description [ES] El conjunto de espacios informativos que, colectivamente, se denomina Internet, plantea serios desafíos desde el punto de vista de la documentación y la recuperación de información. Parece conveniente introducir este conjunto de problemas con una revisión de la evolución de Internet que, más que centrarse en los desarrollos técnicos, atienda a la progresiva configuración de su contenido informativo. Desde este punto de vista, Internet parece haber evolucionado en sentido centrífugo desde un estado de homogeneidad temática hasta un universo de gran heterogeneidad. Este acercamiento permite caracterizar de forma conveniente el universo documental que alberga y sus propiedades, que lo diferencian mucho del universo documental tradicional, alrededor de documentos y fuentes de información estructurados. Tras esta revisión, se examinan los sistemas para la recuperación de la información distribuida desarrollados en cada uno de los espacios que han venido integrándose en Internet y, especialmente, los del espacio Web. Más que disponerlos en orden cronológico, se propone una clasificación funcional de estos sistemas y se atiende a las ventajas e inconvenientes de cada modelo. Por último, se revisan los trabajos que han intentado evaluar los sistemas de recuperación de información distribuida como paso previo a establecer un plan de trabajo que permita evaluar los sistemas españoles de recuperación de información en Internet.
dc.description El examen de la evolución de Internet, el análisis de las características de la información y los documentos que contiene, el establecimiento de una taxonomía de sistemas para su recuperación y los métodos de evaluación de estos mismos sistemas se basan en una revisión de la literatura amplia, pero especialmente centrada en las aportaciones más recientes y procedentes con frecuencia de campos no estrictamente relacionados con la documentación tradicional.
dc.description Peer reviewed
dc.format 3620022 bytes
dc.format application/pdf
dc.language spa
dc.publisher Universidad de Valencia
dc.rights openAccess
dc.subject Search Engines
dc.subject Web search
dc.subject Retrieval evaluation
dc.title Evaluación de sistemas españoles de recuperación de información distribuída en Internet
dc.type Tesis


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account