Buscar este blog

jueves, 4 de noviembre de 2010

Calidad de la recuperación

Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.

Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.

Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección

Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.

Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados

Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.

Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados

Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados.

Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección

TÉCNICAS DE RECUPERACIÓN DE INFORMACIÓN

Sistemas de recuperación de lógica difusa

Esta técnica permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento

Técnicas de ponderación de términos

Es común que unos criterios en la búsqueda tenga más valor que otros, por tanto la ponderación pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contengan el documento y la frecuencia con que se repita. De forma que, el documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y además el que más valor tenga repetidos más veces, independientemente de donde se localice en el documento.

Técnica de clustering

Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.

Técnicas de retroalimentación por relevancia

Esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados.
Algoritmo Genético: es el que se ha utilizado para llevar a cabo este tipo de técnicas de recuperación http://www.pmsi.fr/gainits.htm

Técnicas de stemming

Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz.

PALABRAS VACIAS

De acuerdo con la información encontrada en la pagina de la Universidad  de Granada, en el documento “Modelos de Sistemas de Recuperación de Información Documental Basados en Información Lingüística Difusa. 2006”  Se determina que los aspecto a tener en cuenta a la hora de seleccionar los términos consiste en eliminar las palabras vacías de significado, como pueden ser artículos, preposiciones, conjunciones, incluso en algunos casos, se pueden calificar asi algunos verbos, adverbios y adjetivos

Por tanto, estas palabras vacías de significado no nos sirven como términos de indexación, ya que, por un lado son muy frecuentes, y por otro no representan correctamente el contenido del documento. La acción habitual que se lleva a cabo con ellas es su eliminación del texto, proceso que se conoce como eliminación de palabras vacías (stopwords1 en ingles), y se pone en practica mediante la comparación de cada palabra del texto con un diccionario que contiene la lista de palabras no aptas para la indexación (tanto en  como en  se presentan dos listas completas de palabras vacías).

viernes, 29 de octubre de 2010

SISTEMAS DE GESTION DE DOCUMENTOS

Existen en el mercado  que ayuda a la organización a hacer más fácil, ágil y accesible el flujo de información e intercambio de documentos. Donde se evidencia la gestión de documentos que va mucho más allá de la simple labor de archivar. Estos sistemas permiten  clasificar, indexar y poder acceder en forma eficiente a los materiales e informaciones documentales intercambiadas.
la diversidad de formatos que pueden administrar estos sistemas hace que el intercambio de información sea mucho mas completo pues no solo se trata de comunicaciones oficiales o informes sino que dentro de dicho repositorio se incluyen presentaciones multimedia, fotos, videos, audio, metadatos entre otros

En el mercado existen sofware libres esto significa que el costo de la aplicación o software es gratis. Muchos de estos deben tener instalados con anterioridad Java, Apache (Tomcat, Ant, Maven) PostgreSQL y Perl. Afortunadamente la gran mayoría de los software de gestión de  documentos los trae y cuando se instalan en el computado se observa que todos están incluidos.

Ejemplo

ALFRESCO

Una herramienta tecnológica basada en ECM. La gestión de contenidos empresariales o ECM, es el conjunto de estrategias que permite capturar, administrar, almacenar, preservar y distribuir contenidos y documentos relacionados con procesos organizacionales ver mas http://www.alfresco.com/

ORFEO

Es un sistema de gestión de documentos (DMS) que se creó en Colombia en el año 2002  por la Superintendencia de Servicios Públicos Domiciliarios (SSPD) a raíz de la ley 594 del 2000.
Licencia Pública General GNU/GPL
 70 entidades públicas y al menos 70 privadas ver mas http://es.wikipedia.org/wiki/Orfeo

KT. O KNOWLEDGE TREE

Es un programa para la gestión de documentación que permite.
           Registrar
          Compartir
           Seguir el flujo de los documentos al interior de la organización de una manera segura.

Al ser un programa libre permite:
          Adaptación
          Mejora de sus componentes
          Adaptación a la infraestructura actual de cualquier organización, entregando así una solución flexible y de bajo costo.
LASERFICHE

Es un sistema que se encarga de administrar documentos y que provee acceso inmediato a los mismos, se compone de un conjunto de módulos y está diseñado para resolver problemas del mundo real.
Permite que los profesionales ubiquen los documentos sin esfuerzo sobre la demanda. Su característica principal es la habilidad de recuperar cualquier documento a través de palabras, frases, archivos o índices.
NUXEO
*     Es utilizado como software de gestión documental de documentos, pagina web, registros, imágenes y desarrollo colaborativo de contenidos.

*     Es utilizado como un sistema de administración de contenidos libres basados en estándares abiertos y de escala empresarial para Windows y sistemas operativos similares a Unix.

*     Está diseñado para usuarios que requieren un alto grado de modularidad y rendimiento escalable. Nuxeo está desarrollado en Java.

*     La gestión documental garantiza a los trabajadores  la información que se puede encontrar, utilizar, compartir y asegurar como contenido corporativo valioso desde la creación hasta la aprobación y publicación de un archivo.

            FUNCIONALIDAD:

*     Servidor de documentación en red
*     Espacios personales y compartidos
*     Sencilla gestión y usabilidad
*     Historial de versiones
*     Drag and drop
*     Edición y previsualización online
*     Workflow
OPENKM

Es un documento de código abierto sistema de gestión que proporciona una interfaz web para la gestión de archivos arbitrarios
*     OpenKM es una aplicación de gestión de documentos basada en web, de modo que sólo un navegador web, es necesaria para utilizarlo. Actualmente, sólo Firefox, Internet Explorer y Safari son compatibles. La interfaz web se construye a través de Google Web Toolkit, de modo que el soporte de los navegadores depende de la caja de herramientas
SHAREPOINT

Es un software de plataforma y una familia de productos de software desarrollado por Microsoft para la colaboración, intercambio de archivos y publicación web [1]

M.S. SharePoint 2010: Maneja 3 ediciones:  Fundación SharePoint 2010, SharePoint Server 2010 Standard y SharePoint Server 2010 Enterprise.

*     Una nueva interfaz.
*     Edición Web, personalización.
*     Silverligth, fácil integración con aplicaciones silverligth.
*     - Soporte para multiples navegadores (IE, Mozilla, Safari).
*     - Taxonomia de SharePoint, permite taxonomia centralizada.

M.S. SharePoint Server:  Se ejecuta sobre W. SharePoint Services (WSS).
            - Permite la organización de la información , basado en aplicaciones web: Organización Jerárquica, Navegación Mejorada, Personalización y en algunos casos edición de documentos de MS Office.

M.S. SharePoint Search Server: Se basa en las capacidades de busqueda de MS SharePoint Server.
DOCUSHARE

Permitir a los usuarios fácilmente capturar, gestionar, compartir y proteger una amplia gama de objetos desde papel a contenidos digitales en entornos seguros, centralizados y altamente escalables en cuanto a repositorio.



miércoles, 27 de octubre de 2010

Estructura para realizar Busquedas

1) Precisar la necesidad de informacion
       -Definicion o aclaracion de temas
       -Seleccion de modificadores del tema
              -Periodo a cubrir 
              - Area geografica
              - Idioma 
              - Grupos de edad
              - Sexo
              - Animale y/o humanos
2) Eleccion de terminos de busqueda
3) Seleccion de fuentes de informacion
4) Ejecucion de busquedas
      Resultados 
             Listas de referencias manuscritas
             Listas de referencias en pantalla
5) finalmente el documentos (resultado de la consulta)

lunes, 25 de octubre de 2010

Malas Practicas Spam

En el contexto de posicionamiento se llama así a las malas prácticas destinadas a forzar una alta posición de una página web para una o más palabras clave, sin que tal posición vaya acorde con la relevancia real de la página web en relación con esas palabras clave. Una de las técnicas primitivas más usadas para realizar spam en este contexto es poner repetidas veces un término como descriptor en los metadatos, de manera que el indicador del motor de búsqueda considere que trata sobre ese tema, aunque en realidad trata de otro.

Otro tipo de spam, en este caso realizado de manera externa al sitio web, es lo que se viene denominando Google bombing, que consiste en enlazar numerosas veces, desde distintas páginas, a un sitio web utilizando para ello como texto de anclaje un término o expresión que no corresponde al contenido del sitio al que se está enlazando.


http://carlosgallego.com/malas-practicas-posicionamiento.html

Relevancia


Es la capacidad que tiene un documento un sitio o una página Web de satisfacer una necesidad de información de un usuario. En otras palabras es el  grado de utilidad de un documento en relación con una pregunta concreta. En cuanto a las páginas Web existen motores de búsqueda que utilizando algoritmos que tratan de inferir la relevancia de cada página en relación con cada pregunta, de modo que entregan los resultados ordenados por el grado de probabilidad de resultar útiles para la necesidad de información expresada por el usuario.