La búsqueda y recuperación de
información es una ciencia encargada de buscar información en cualquier medio
de la red con el fin de recuperar textos, imágenes, sonidos, etc.
Tenemos que tener ciertos factores en
cuenta, como palabras clave, el ruido y el silencio documental.
·
Ruido documental: aparece en la búsqueda y recuperación de información, valorando los sistemas de
recuperación en relación con la cantidad de documentos recuperados al realizar
la búsqueda, en la que hay muchos documentos que no son de nuestra necesidad,
esto es a lo que llamamos ruido, todo
aquello que no nos servirá demasiado en nuestro proceso de recuperación.
·
Silencio documental: Es aquella información que se queda recogida en la base de datos de nuestro
equipo, la cual no ha sido recuperada, ya sea porque la información que
quisimos buscar no era muy adecuada para concretar nuestra búsqueda.
Para recuperar la información que
deseamos, iniciamos un proceso de búsqueda.
El buscador nos mostrará las entradas en función de su PageRank, es decir, en función del número de visitas que tengan esos artículos.
Una vez hecho esto, nuestro buscador extrae de la página su código HTML organizándolo de tal forma que el usuario disponga de la información más importante y relevante.
Al tener una página web tantos apartados
y al ejercer una búsqueda, utilizando ciertas palabras denominadas palabras
clave, el buscador nos mostrará por pantalla las páginas web en las que
aparecen esas palabras.
Por otro lado, está la depuración del texto, en la cual se llevan a cabo una serie de técnicas:
Por otro lado, está la depuración del texto, en la cual se llevan a cabo una serie de técnicas:
1. Eliminación del
código HTML irrelevante.
2. Dividir la información.
3. Eliminación de las palabras con
información que no sea importante ni relevante.
4. Ley de Zipf: muestra la aparición de distintas
palabras en una lengua concreta.
5. Técnica de cortes de Luhn: para eliminar
aquellas palabras que aparecen, o bien muy repetidas o aquellas que
aparecen muy poco.
Después de hacer todo, nos ponemos a
hacer un proceso de ponderación de los términos del texto, eliminando aquellos
términos innecesarios gracias a la técnica de cortes de Luhn.
Una vez hecho todo esto, tenemos que
colocar por orden los resultados de la búsqueda que más se acerquen a lo que
nosotros queremos, dando prioridad a los primeros resultados.
Como resultado de todo esto obtenemos el
valor discriminatorio, el cual nos proporciona una clasificación, en la que
destaca por encima de otros procedimientos el
“clustering”, que es un procedimiento de agrupación de una serie de
vectores con un criterio, en el que los resultados se agrupan según sus
características.
Una vez que tenemos la información que queríamos, almacenamos todo. Este almacenamiento se realiza mediante servidores especializados.
Una vez que tenemos la información que queríamos, almacenamos todo. Este almacenamiento se realiza mediante servidores especializados.
Para terminar, representaremos la
información con un ranking decidiendo el orden y la agrupación de los
resultados y el modo en que mostrarán esos resultados al usuario.