viernes, 24 de mayo de 2013

BÚSQUEDA Y RECUPERACIÓN DE INFORMACIÓN



La búsqueda y recuperación de información es una ciencia encargada de buscar información en cualquier medio de la red con el fin de recuperar textos, imágenes, sonidos, etc.
Tenemos que tener ciertos factores en cuenta, como palabras clave, el ruido y el silencio documental.

·         Ruido documental: aparece en la búsqueda y recuperación de información, valorando los sistemas de recuperación en relación con la cantidad de documentos recuperados al realizar la búsqueda, en la que hay muchos documentos que no son de nuestra necesidad, esto es a lo que llamamos  ruido, todo aquello que no nos servirá demasiado en nuestro proceso de recuperación.

·         Silencio documental: Es aquella información que se queda recogida en la base de datos de nuestro equipo, la cual no ha sido recuperada, ya sea porque la información que quisimos buscar no era muy adecuada para concretar nuestra búsqueda.

Para recuperar la información que deseamos, iniciamos un proceso de búsqueda.

El buscador nos mostrará las entradas en función de su PageRank, es decir, en función del número de visitas que tengan esos artículos. 
Una vez hecho esto, nuestro buscador extrae de la página su código HTML organizándolo de tal forma que el usuario disponga de la información más importante y relevante
.

Al tener una página web tantos apartados y al ejercer una búsqueda, utilizando ciertas palabras denominadas palabras clave, el buscador nos mostrará por pantalla las páginas web en las que aparecen esas palabras.
  
Por otro lado, está la depuración del texto, en la cual se llevan a cabo una serie de técnicas:
1.   Eliminación del código HTML irrelevante.
2.   Dividir la información.
3.   Eliminación de las palabras con información que no sea importante ni relevante.
4.   Ley de Zipf: muestra la aparición de distintas palabras en una lengua concreta.
5.   Técnica de cortes de Luhn: para eliminar aquellas palabras que aparecen, o bien muy repetidas  o aquellas que aparecen muy poco.
Después de hacer todo, nos ponemos a hacer un proceso de ponderación de los términos del texto, eliminando aquellos términos innecesarios gracias a la técnica de cortes de Luhn.
Una vez hecho todo esto, tenemos que colocar por orden los resultados de la búsqueda que más se acerquen a lo que nosotros queremos, dando prioridad a los primeros resultados.

Como resultado de todo esto obtenemos el valor discriminatorio, el cual nos proporciona una clasificación, en la que destaca por encima de otros procedimientos el  “clustering”, que es un procedimiento de agrupación de una serie de vectores con un criterio, en el que los resultados se agrupan según sus características.
 
Una vez que tenemos la información que queríamos, almacenamos todo. Este almacenamiento se realiza mediante servidores especializados.

Para terminar, representaremos la información con un ranking decidiendo el orden y la agrupación de los resultados y el modo en que mostrarán esos resultados al usuario.

No hay comentarios:

Publicar un comentario