viernes, 24 de mayo de 2013

BÚSQUEDA Y RECUPERACIÓN DE INFORMACIÓN



La búsqueda y recuperación de información es una ciencia encargada de buscar información en cualquier medio de la red con el fin de recuperar textos, imágenes, sonidos, etc.
Tenemos que tener ciertos factores en cuenta, como palabras clave, el ruido y el silencio documental.

·         Ruido documental: aparece en la búsqueda y recuperación de información, valorando los sistemas de recuperación en relación con la cantidad de documentos recuperados al realizar la búsqueda, en la que hay muchos documentos que no son de nuestra necesidad, esto es a lo que llamamos  ruido, todo aquello que no nos servirá demasiado en nuestro proceso de recuperación.

·         Silencio documental: Es aquella información que se queda recogida en la base de datos de nuestro equipo, la cual no ha sido recuperada, ya sea porque la información que quisimos buscar no era muy adecuada para concretar nuestra búsqueda.

Para recuperar la información que deseamos, iniciamos un proceso de búsqueda.

El buscador nos mostrará las entradas en función de su PageRank, es decir, en función del número de visitas que tengan esos artículos. 
Una vez hecho esto, nuestro buscador extrae de la página su código HTML organizándolo de tal forma que el usuario disponga de la información más importante y relevante
.

Al tener una página web tantos apartados y al ejercer una búsqueda, utilizando ciertas palabras denominadas palabras clave, el buscador nos mostrará por pantalla las páginas web en las que aparecen esas palabras.
  
Por otro lado, está la depuración del texto, en la cual se llevan a cabo una serie de técnicas:
1.   Eliminación del código HTML irrelevante.
2.   Dividir la información.
3.   Eliminación de las palabras con información que no sea importante ni relevante.
4.   Ley de Zipf: muestra la aparición de distintas palabras en una lengua concreta.
5.   Técnica de cortes de Luhn: para eliminar aquellas palabras que aparecen, o bien muy repetidas  o aquellas que aparecen muy poco.
Después de hacer todo, nos ponemos a hacer un proceso de ponderación de los términos del texto, eliminando aquellos términos innecesarios gracias a la técnica de cortes de Luhn.
Una vez hecho todo esto, tenemos que colocar por orden los resultados de la búsqueda que más se acerquen a lo que nosotros queremos, dando prioridad a los primeros resultados.

Como resultado de todo esto obtenemos el valor discriminatorio, el cual nos proporciona una clasificación, en la que destaca por encima de otros procedimientos el  “clustering”, que es un procedimiento de agrupación de una serie de vectores con un criterio, en el que los resultados se agrupan según sus características.
 
Una vez que tenemos la información que queríamos, almacenamos todo. Este almacenamiento se realiza mediante servidores especializados.

Para terminar, representaremos la información con un ranking decidiendo el orden y la agrupación de los resultados y el modo en que mostrarán esos resultados al usuario.

domingo, 12 de mayo de 2013

BUSINESS INTELLIGENCE


El Business intelligence o, en español, inteligencia artificial tiene como fin analizar la información para más tarde tomar una decisión y solucionar un problema. Todo esto es posible gracias a que el Business intelligence está constituido por un conjunto de estrategias y herramientas transformando los datos o información para conseguir alguna ventaja que otra en la empresa.

Las empresas invierten parte de su dinero en habilitar un área específica para el Business intellingence, es decir, que en esa área es donde se estudian las nuevas oportunidades del negocio, se toman las decisiones o soluciones de algún problema, la búsqueda de la rentabilidad, proteger la información de la empresa…

A partir de estos aspectos, aparecen diferentes sistemas informáticos, cuya funcionalidad está vinculada a la administración de la empresa, para no tener puntos débiles y, si hubiera alguno, ocultarlo, además de conseguir una mayor información beneficiaria para la empresa, ya que así esta podría, como ya hemos dicho antes, conseguir alguna ventaja que otra sobre otras empresas.

Algunos de los productos o aplicaciones más importantes del Business intelligence son:

·                     Cuadros de mando integrales: fueron presentados por la revista Harvard Business Review en 1992 y su funcionalidad es la de medir  la actividad de una empresa según su estrategia.
·                     Sistemas de soporte a la decisión: presentado en 1971 y creado para orientar a la toma de decisiones gerenciales. 
·                        Sistema de información ejecutiva: fue creada para indicar a los ejecutivos y responsables de la empresa datos de la compañía que resultan relevantes, mostrándoles los objetivos a tener en cuenta y cuáles no. Este sistema ayudará a los ejecutivos y responsables de la empresa a escoger determinadas decisiones.
Dejando esto a un lado, nos encontramos con los principales componentes de orígenes de datos del Business Intelligence:

·                       Datawarehouse: en ella está toda la fuente de datos de una empresa. Los datos de dicha fuente se encargan de ayudar a los componentes de una empresa a escoger ciertas decisiones, todas ellas con un fin beneficiosa para la empresa. La construcción del datawarehouse se compone de varios procesos (ETL):
                         -   Extracción: consiguiendo la información de nuestras fuentes internas y externas de datos.
                         -  Transformación: modificando, seleccionando y depurando nuestra información.
                         -  Carga: Optimizando y actualizando los datos.  

           Los datawarehouse a su vez se dividen en datamarks específicos.

·                        Datamark: se trata de una base de datos que almacena información en un área específica de la empresa. Hay datamarks para los diferentes departamentos: nóminas, clientes, proveedores etc.
·                        Cuadro de mando: es aquella herramienta por la que  se establecen unos objetivos específicos en cada una de las áreas de una empresa. Permitiéndonos tomar nuestras propias decisiones y poder ver ciertos aspectos de la empresa, para poder corregir rápidamente algún fallo,  en el caso de que lo hubiera.

Por último, todo lo explicado relacionado con el datawarehouse está diseñado para facilitar al cliente la información que necesite.