SERGIO ESCOBAR

viernes, 24 de mayo de 2013

BÚSQUEDA Y RECUPERACIÓN DE INFORMACIÓN

La búsqueda y recuperación de información es una ciencia encargada de buscar información en cualquier medio de la red con el fin de recuperar textos, imágenes, sonidos, etc.

Tenemos que tener ciertos factores en cuenta, como palabras clave, el ruido y el silencio documental.

· Ruido documental: aparece en la búsqueda y recuperación de información, valorando los sistemas de recuperación en relación con la cantidad de documentos recuperados al realizar la búsqueda, en la que hay muchos documentos que no son de nuestra necesidad, esto es a lo que llamamos ruido, todo aquello que no nos servirá demasiado en nuestro proceso de recuperación.

· Silencio documental: Es aquella información que se queda recogida en la base de datos de nuestro equipo, la cual no ha sido recuperada, ya sea porque la información que quisimos buscar no era muy adecuada para concretar nuestra búsqueda.

Para recuperar la información que deseamos, iniciamos un proceso de búsqueda.

El buscador nos mostrará las entradas en función de su PageRank, es decir, en función del número de visitas que tengan esos artículos.
Una vez hecho esto, nuestro buscador extrae de la página su código HTML organizándolo de tal forma que el usuario disponga de la información más importante y relevante.

Al tener una página web tantos apartados y al ejercer una búsqueda, utilizando ciertas palabras denominadas palabras clave, el buscador nos mostrará por pantalla las páginas web en las que aparecen esas palabras.

Por otro lado, está la depuración del texto, en la cual se llevan a cabo una serie de técnicas:

1. Eliminación del código HTML irrelevante.

2. Dividir la información.

3. Eliminación de las palabras con información que no sea importante ni relevante.

4. Ley de Zipf: muestra la aparición de distintas palabras en una lengua concreta.

5. Técnica de cortes de Luhn: para eliminar aquellas palabras que aparecen, o bien muy repetidas o aquellas que aparecen muy poco.

Después de hacer todo, nos ponemos a hacer un proceso de ponderación de los términos del texto, eliminando aquellos términos innecesarios gracias a la técnica de cortes de Luhn.

Una vez hecho todo esto, tenemos que colocar por orden los resultados de la búsqueda que más se acerquen a lo que nosotros queremos, dando prioridad a los primeros resultados.

Como resultado de todo esto obtenemos el valor discriminatorio, el cual nos proporciona una clasificación, en la que destaca por encima de otros procedimientos el “clustering”, que es un procedimiento de agrupación de una serie de vectores con un criterio, en el que los resultados se agrupan según sus características.

Una vez que tenemos la información que queríamos, almacenamos todo. Este almacenamiento se realiza mediante servidores especializados.

Para terminar, representaremos la información con un ranking decidiendo el orden y la agrupación de los resultados y el modo en que mostrarán esos resultados al usuario.

domingo, 12 de mayo de 2013

BUSINESS INTELLIGENCE

El Business intelligence o, en español, inteligencia artificial tiene como fin analizar la información para más tarde tomar una decisión y solucionar un problema. Todo esto es posible gracias a que el Business intelligence está constituido por un conjunto de estrategias y herramientas transformando los datos o información para conseguir alguna ventaja que otra en la empresa.

Las empresas invierten parte de su dinero en habilitar un área específica para el Business intellingence, es decir, que en esa área es donde se estudian las nuevas oportunidades del negocio, se toman las decisiones o soluciones de algún problema, la búsqueda de la rentabilidad, proteger la información de la empresa…

A partir de estos aspectos, aparecen diferentes sistemas informáticos, cuya funcionalidad está vinculada a la administración de la empresa, para no tener puntos débiles y, si hubiera alguno, ocultarlo, además de conseguir una mayor información beneficiaria para la empresa, ya que así esta podría, como ya hemos dicho antes, conseguir alguna ventaja que otra sobre otras empresas.

Algunos de los productos o aplicaciones más importantes del Business intelligence son:

· Cuadros de mando integrales: fueron presentados por la revista Harvard Business Review en 1992 y su funcionalidad es la de medir la actividad de una empresa según su estrategia.

· Sistemas de soporte a la decisión: presentado en 1971 y creado para orientar a la toma de decisiones gerenciales.

· Sistema de información ejecutiva: fue creada para indicar a los ejecutivos y responsables de la empresa datos de la compañía que resultan relevantes, mostrándoles los objetivos a tener en cuenta y cuáles no. Este sistema ayudará a los ejecutivos y responsables de la empresa a escoger determinadas decisiones.

Dejando esto a un lado, nos encontramos con los principales componentes de orígenes de datos del Business Intelligence:

· Datawarehouse: en ella está toda la fuente de datos de una empresa. Los datos de dicha fuente se encargan de ayudar a los componentes de una empresa a escoger ciertas decisiones, todas ellas con un fin beneficiosa para la empresa. La construcción del datawarehouse se compone de varios procesos (ETL):

   -   Extracción: consiguiendo la información de nuestras fuentes internas y externas de datos.
-  Transformación: modificando, seleccionando y depurando nuestra información.
- Carga: Optimizando y actualizando los datos.

Los datawarehouse a su vez se dividen en datamarks específicos.

· Datamark: se trata de una base de datos que almacena información en un área específica de la empresa. Hay datamarks para los diferentes departamentos: nóminas, clientes, proveedores etc.

· Cuadro de mando: es aquella herramienta por la que se establecen unos objetivos específicos en cada una de las áreas de una empresa. Permitiéndonos tomar nuestras propias decisiones y poder ver ciertos aspectos de la empresa, para poder corregir rápidamente algún fallo, en el caso de que lo hubiera.

Por último, todo lo explicado relacionado con el datawarehouse está diseñado para facilitar al cliente la información que necesite.

domingo, 21 de abril de 2013

BUSCADORES DE INTERNET

Google fue creado por los informáticos Larry Page y Sergey Brin el 7 de septiembre de 1998. En junio de 2000, debido a su expansión, Google se vio atraído por un cliente importante: Yahoo! Hasta esa fecha Google ya ofrecía acceso a mil millones de páginas web.

A día de hoy, Google es el buscador más utilizado del mundo en Internet y presta servicios de búsqueda en la Web a más de 100 países. Además está disponible en más de 120 idiomas diferentes y con un total de 128.168 millones de páginas web aproximadamente.

Respecto a su interfaz, es muy cómoda a la hora de utilizar Google, ya que nos da la opción de elegir entre búsqueda normal y la opción “Voy a tener suerte”, la cual nos muestra los resultados más concretos, dirigiéndonos el buscador a la primera página, vinculado al término buscado.

En la parte superior, Google nos ofrece una serie de herramientas, las cuales son: Búsqueda, Imágenes, Maps, Play, Youtube, Noticias, Gmail, Drive, Calendar y Más.

Una de las desventajas de Google es que los resultados de nuestra búsqueda no son clasificados por la calidad de la información, sino que por su popularidad. Otra desventaja es la vulnerabilidad que tiene para mostrar páginas que causan “spam publicitario”.

Yahoo! Es uno de los buscadores más utilizados de Internet fundada por David Filo y Jerry Yang. Fue creado en 1995 y desde entonces es usado por millones de personas. En 2006 comprendía sitios web asociados en 13 idiomas y 25 países, datos que se han incrementado hasta nuestros días.

En 2008 Yahoo! Rechazó una oferta de compra de Microsoft. Pero en junio de 2009 llegó a un acuerdo con Bing (otro buscador y de propiedad de Microsoft), en el que Yahoo! Search quedaría reemplazado por Bing y cuyo cambio se implementaría en 2012.

Su principal fuente de ingresos es la publicidad. Además ofrece una serie de servicios en línea para usuarios de Internet como el correo electrónico y mensajería instantánea, salas de charla, mapas y rutas de carretera, filtros como correo basura y programas antivirus. A parte de: Web, Imágenes, Vídeo, Noticias, Compras, etc.

Bing es un buscador web de Microsoft, presentado por Steve Ballmer el 28 de mayo de 2009. En ese mismo de año, Microsoft y Yahoo! Anunciaron que Yahoo! Search sería reemplazada por Bing. Este reemplazamiento se produjo ya el año pasado (2012).

Respecto a la interfaz de este buscador, una de sus características que más llama la atención es que todos los días la imagen de fondo cambia. En esa imagen aparecen lugares del mundo, en las que nos aparece información de ese lugar. Además de esta característica hay otras como: el contenido de dividir resultados, el panel de navegación de lado izquierdo, sublinks y la mejorada vista donde se puede ver información del sitio de terceros dentro de Bing (cuyo funcionamiento sirve para las páginas de Wikipedia).

En la menú superior de Bing tenemos las funciones al igual que el resto de buscadores: Web, Imágenes, Vídeos, Compras, Noticias o iniciar sesión con nuestra cuenta MSN.

Las ventajas de Bing frente a otros buscadores son: las búsquedas (son más visuales), presentación de mapas y más opciones para refinir la búsqueda, los resultados son correctos, es un gran buscador de imágenes, en la búsqueda de vídeos te muestra un preview del vídeo de 30 segundos…

En cuanto a las desventajas nos encontramos con: conexiones lentas debido a tener un diseño más visual, sus mapas no tienen tanto detalle como los de Google, en la búsqueda de vídeos no suele aparecer en primer puesto Youtube…

Ask.com es un buscador también conocido como Ask Jeeves. Fue fundado en 1996 por Garrett Gruener y David Warthen.

Con el paso del tiempo, Ask Jeeves empezó a perder popularidad debido a la pérdida de sus usuarios que empezaron a utilizar otros buscadores como por ejemplo Google. Por lo que modificaron su tecnología para aceptar la búsqueda mediante palabras clave.

Varias de sus ventajas son: que es un buscador de tipo pregunta-respuesta, que soporta una amplia variedad de consultas de usuarios, que soporta búsquedas con palabras claves, entre otras.

Y sus desventajas más relevantes que Ask.com posee son: el que no sepa inglés es posible que no pueda utilizarlo, necesitan agregar más cosas para personalizar como página de inicio y ofrece varias búsquedas irrelevantes.

domingo, 24 de marzo de 2013

LOS SISTEMAS DE ALMACENAMIENTO ACTUALES

En la actualidad las personas tenemos la necesidad de almacenar información de nuestras cosas en unos dispositivos electrónicos dedicados exclusivamente al almacenamiento de datos.

Existen varios medios de almacenamiento, los cuales son físicos o virtuales. Ahora os explicaré cada uno de ellos un poco empezando por los físicos y terminando por los virtuales.

MEMORIA USB:

Es un dispositivo de almacenamiento también llamado llave de memoria y pen drive entre otros. Se compone de una memoria flash y su energía es suministrada por puerto USB. Además es el más usado en la actualidad por su tamaño y su capacidad (variable desde MB hasta 1TB).

LOS DISPOSITIVOS ÓPTICOS:

CD o disco compacto (compact disc): se trata de un sistema de almacenamiento masivo de información. Hay varias tipos: de lectura “CD-ROM”, grabable “CD-R”, regrabable “CD-RW” o de audio “CD-DA”. Los CD_DA fueron el sistema de almacenamiento de música más utilizado hasta la aparición de los MP3.

DVD (Disco de vídeo digital), también conocido en la actualidad como disco versátil digital, un dispositivo de almacenamiento de datos cuyo aspecto es idéntico al de un disco compacto, aunque contiene hasta 25 veces más información y puede transmitirla al ordenador o computadora unas 20 veces más rápido que un CD-ROM. Puede ser de solo lectura (DVD-ROM), grabable (DVD-R), regrabable (DVD-RW o DVD-RAM de acceso aleatorio) o de doble capa (DVD-DL).

Blu-ray Disc: es un disco óptico que se usa para el almacenamiento de vídeo en HD (1080p). Puede almacenar hasta 25GB si es de una cara y su 50GB si es de doble cara.

LOS DISCOS DUROS:

Disco duro magnético: es un disco duro portátil, de fácil transporte y no requiere energía constantemente. Su capacidad de almacenamiento va desde 80GB hasta 1TB. Por medio de una conexión USB o Fireware se conecta al ordenador.

SSD, también llamada unidad de estado sólido, Su capacidad de almacenamiento no supera los 160GB y además está compuesta por una memoria no volátil en vez de las unidades de disco duro convencionales.

LAS TARJETAS DE MEMORIA:

SD cuyas siglas significan “secure digital card”. Se utiliza en dispositivos portátiles como cámaras o teléfonos móviles debido a que se trata de una tarjeta de memoria pequeña que se inserta en unas ranuras especiales de su tamaño o con adaptadores USB. Su capacidad de almacenamiento llega a alcanzar los 64 GB y, además, respecto a su tamaño hay dos tipos de tarjetas: las MicroSD y las MiniSD.

Compact Flash se trata de una tarjeta de memoria cuyo tamaño es algo superior que las SD usada en cámaras de vídeo. Su capacidad de almacenamiento alcanza los 137 GB.

La Multimedia Card, también llamada MMC, es del tamaño de la SD y almacena hasta 8GB de datos.

La Memory Stick (creada por Sony) es una tarjeta de memoria cuyas características son casi idénticas a la tarjeta SD y pueden contener hasta 32GB.

MODOS DE ALMACENAMIENTO VIRTUAL:

El almacenamiento en la “nube o cloud storage” es una manera de almacenar datos usando la red de Internet y pudiéndose consultar desde cualquier terminal con acceso a Internet. Por ejemplo iCloud, Dropbox o Mega.

BASES DE DATOS

Base de datos, cualquier conjunto de datos organizados para su almacenamiento en la memoria de un ordenador o computadora, diseñado para facilitar su mantenimiento y acceso de una forma estándar. La información se organiza en campos y registros. Un campo se refiere a un tipo o atributo de información, y un registro, a toda la información sobre un individuo.

viernes, 8 de marzo de 2013

LENGUAJES DE PROGRAMACIÓN

Un lenguaje de programación es aquel, que gracias a las instrucciones operadores y reglas de sintaxis, nos permite elaborar programas desde los más sencillos a los más complicados.

En la actualidad, en el campo de la informática, los lenguajes de programación más utilizamos e importantes son C#, C, JavaScript y C++, entre otros. Sin embargo, no he mencionado los cinco lenguajes más usados, sino que el quinto lenguaje del que hablo (Basic) es uno de los primeros lenguajes que se utilizaron y del que derivan gran parte de lenguajes de programación:

C# es un lenguaje orientado a objetos creado por Microsoft para su plataforma .NET, similar al de Java pero mejorado, diseñado para combinar el control a bajo nivel de lenguajes como C y la velocidad de programación de lenguajes como Visual Basic.. Todo programa en C# no es más que un conjunto de objetos que interaccionan entre sí. Ante todo, debemos saber que deriva de C/C++.Expertos en este lenguaje aseguran que el aprendizaje de tal es esencial debido a que combina los mejores elementos de múltiples lenguajes como C++,Java, Delphi…Además, basándonos en algunos estudios, existe un gran número de ofertas de trabajo, exactamente 1.002 ofertas. Por lo tanto, podemos alegar que se trata de un lenguaje muy solicitado.
Java es un lenguaje de alto nivel orientado a objetos y similar a C++, desarrollado por la empresa Sun Microsystems en 1995. Java es un lenguaje de programación muy seguro frente a la presencia y ataque de virus informáticos y, además, gracias a su compatibilidad con la mayoría de los navegadores modernos, es el lenguaje de programación del lado del cliente más utilizado, ya que es utilizado en millones de páginas webs para validar formularios, crear cookies, detectar navegadores y mejorar el diseño, su fácil aprendizaje lo hace un lenguaje muy demandado. A parte de esto, al consultar con unos compañeros de clase, me han dicho que Java es uno de los lenguajes más utilizados para desarrollar videojuegos.
Finalmente, al igual que C# pero en menor cantidad, ofrece unas 422 ofertas de trabajo, por lo que está muy solicitado.
C++ es un lenguaje de programación derivado del lenguaje C diseñado por Bjarne Stroustrup en los años 80.

El lenguaje tiene como conceptos clave, entre otros, la clase (class), que facilita la creación de tipos de datos definidos por el usuario juntamente con funciones o métodos para tratar con ellos, la encapsulación de datos, la asignación dinámica de memoria y la sobrecarga de operadores. Se diseñó explícitamente para lograr una mayor flexibilidad en la programación avanzada, basándose para todos los efectos en el lenguaje C, de ya muy amplia difusión, y en la metodología básica del lenguaje Simula, en lo referente a la programación orientada a objetos.A partir de 1990 cuando se extendió su uso, tanto como lenguaje para el desarrollo de aplicaciones como para sistemas operativos. Muy ligado a UNIX en sus orígenes, su uso es, hoy día, prácticamente general. Las versiones más utilizadas en ordenadores personales son Visual C++ de Microsoft y Inprise Corp.. También ha tenido una gran influencia en el desarrollo del lenguaje JAVA, con el que mantiene similitudes en cuanto a la sintaxis y estructura de la programación.
C es un lenguaje de programación desarrollado en 1972 por el estadounidense Dennis Ritchie en los Laboratorios Bell. Debe su nombre a que su predecesor inmediato había sido llamado lenguaje de programación B. Aunque muchos consideran que C es un lenguaje ensamblador más independiente de la máquina que un lenguaje de alto nivel, su estrecha asociación con el sistema operativo UNIX, su enorme popularidad y su homologación por el American National Standards Institute (ANSI) lo han convertido quizá en lo más cercano a un lenguaje de programación estandarizado en el sector de microordenadores o microcomputadoras y estaciones de trabajo. C es un lenguaje compilado que contiene un pequeño conjunto de funciones incorporadas dependientes de la máquina. El resto de las funciones de C son independientes de la máquina y están contenidas en bibliotecas a las que se puede acceder desde programas escritos en C. Estos programas están compuestos por una o más funciones definidas por el programador, por lo que C es un lenguaje de programación estructurada.
BASIC es un lenguaje de programación de alto nivel desarrollado por los estadounidenses John Kemeny y Thomas Kurtz en el Dartmouth College en los años 60. BASIC se ganó su enorme popularidad gracias sobre todo a dos implementaciones, Tiny BASIC y Microsoft BASIC, que convirtieron a este lenguaje en la primera lengua franca de los microordenadores o microcomputadoras. El lenguaje ha cambiado en el transcurso de los años. Las primeras versiones eran interpretadas y no estructuradas, lo que cosechó numerosas críticas acerca de la velocidad de sus programas y de la calidad y claridad de su código. Las más recientes son estructuradas y, a menudo, compiladas. Una de las más populares es Visual Basic, comercializada por Microsoft para desarrollos de aplicaciones en entornos Windows, como lenguaje de programación de aplicaciones ofimáticas, consultas a bases de datos y creación de páginas de Internet dinámicas. El lenguaje BASIC se suele enseñar a los programadores principiantes porque es fácil de utilizar y de comprender y porque, en sus versiones más recientes, contiene muchos de los conceptos fundamentales de otros lenguajes considerados más complejos y técnicamente más potentes, como Pascal, C, C++ o JAVA.

viernes, 22 de febrero de 2013

INFORMACIÓN MULTIMEDIA

Antes de nada tenemos que tener muy claro lo que es la información y lo que es la documentación.

La información es un conjunto de datos ya supervisados y ordenados, con los que construimos mensajes, resolvemos problemas y tomamos decisiones. Con esto podemos decir que la información es la base del conocimiento.

La documentación es el conjunto de documentos que sirven para la obtención de un fin determinado.

En este tema nos centraremos en Internet, lugar en el cual encontraremos una amplia información de todos los campos existentes. A pesar de que la mayor parte de esta información es verdadera, encontramos una serie de problemas:

· La difícil asimilación de la información. Por ejemplo, si estudiamos 24 horas sobre un campo, el porcentaje de obtención de información que conseguimos obtener es del 3%.
· Su fácil acceso no implica mayor conocimiento asegurado.
· Incremento de publicaciones no implica incremento de calidad. Por ejemplo, la inflación de la documentación.
· Información restringida no accesible por todo el mundo.

A estos problemas le añadimos el de las fuentes de información, más que nada porque pueden tener información contradictoria y debemos contrarrestarlas adecuadamente para saber si es correcta la información que estamos utilizando.

Dicho esto, hay tres tipos de fuentes:

· Fuente primaria: es la información de la que parte todo, el resultado de la investigación y que no ha sido reelaborada documentalmente.
· Fuente secundaria: son los resúmenes, noticias, etc.
· Fuente terciaria: son las vías por las que encontramos la información.

Las ciencias que se encargan del estudio de la documentación son: la informática (BD,IA..), la teledocumentación (los accesos on-line a las BD nos llevan a la telecomunicación más la información y documentación), la bibliometría (aplicación de las matemáticas y métodos estadísticos para informar sobre los procesos de la comunicación. Por ejemplo: el numero de autores que se interesan en una revista por el cáncer), la terminología científica, la bibliografía, la biblioteconomía (tanto esta como la documentación recogen, analizan y difunden información), la ciencia cognitiva (estudio de los detalles del proceso del conocimiento humano, la estructura de la mente, el aprendizaje, el lenguaje…), las ciencias de la comunicación (tecnologías de comunicación visual, redes y telecomunicaciones y la comunicación y las profesiones) y la inteligencia artificial.

Teniendo en cuenta la tipología de los documentos, que se basa en el soporte físico en el que está constituido un documento independienmente de su contenido, dividen en:

· Impresos: soporte papel
· Micrográficos: microfilm
· Audiovisuales: vídeo, películas
· Magnéticos: discos magnéticos, cinta magnética
· Ópticos: CD-ROM
· Electrónicos: bases de datos “on-line”

Finalmente para que la documentación cumpla sus objetivos, es importantísimo que obedezca a unas funciones documentales determinadas. Estos procesos siguen el esquema de una cadena llamada cadena documental. La cadena documental se compone de cuatro puntos principales:

· La selección: recogiendo los documentos que necesitamos en base a fuentes externas (bibliotecas científicas, bases de datos…) y fuentes internas (boletines, revistas, etc.).
· El análisis: operaciones realizadas para representar el contenido de un documento de forma diferente al formato original. El resultado son las referencias bibliográficas. Las operaciones son: descripción bibliográfica, indización (palabras clave) y resumen.
· La búsqueda: proceso mediante medios informáticos, bibliotecas o bibliografías.
· La difusión: difundir la información que responde a las preocupaciones informativas mediante una serie de servicios específicos.