SISTEMAS DE INFORMACION RECUPERACION DE INFORMACION UNIVERSIDAD DE LA SALLE
Con el fin de dar a conocer el contenido de la asignatura de Recuperacion de informacion del programa de Sistemas de informacion de la Universidad de la Salle, se subira la informacion que servira de gran utilidad para aquellos que esten interesados en nuestra profesion o para aquellos que solo desean compartir el conocimiento con otros profesionales que esten en proceso de formacion. Lo importante es dar a conocer que existen metodos de recuperacion de informaicon al alcance de todos
Buscar este blog
domingo, 7 de noviembre de 2010
sábado, 6 de noviembre de 2010
jueves, 4 de noviembre de 2010
Calidad de la recuperación
Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.
Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.
Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección
Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.
Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados
Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.
Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados
Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados.
Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección
TÉCNICAS DE RECUPERACIÓN DE INFORMACIÓN
Sistemas de recuperación de lógica difusa
Esta técnica permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento
Técnicas de ponderación de términos
Es común que unos criterios en la búsqueda tenga más valor que otros, por tanto la ponderación pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contengan el documento y la frecuencia con que se repita. De forma que, el documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y además el que más valor tenga repetidos más veces, independientemente de donde se localice en el documento.
Técnica de clustering
Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.
Técnicas de retroalimentación por relevancia
Esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados.
Algoritmo Genético: es el que se ha utilizado para llevar a cabo este tipo de técnicas de recuperación http://www.pmsi.fr/gainits.htmTécnicas de stemming
Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz.
PALABRAS VACIAS
De acuerdo con la información encontrada en la pagina de la Universidad de Granada, en el documento “Modelos de Sistemas de Recuperación de Información Documental Basados en Información Lingüística Difusa. 2006” Se determina que los aspecto a tener en cuenta a la hora de seleccionar los términos consiste en eliminar las palabras vacías de significado, como pueden ser artículos, preposiciones, conjunciones, incluso en algunos casos, se pueden calificar asi algunos verbos, adverbios y adjetivos
Por tanto, estas palabras vacías de significado no nos sirven como términos de indexación, ya que, por un lado son muy frecuentes, y por otro no representan correctamente el contenido del documento. La acción habitual que se lleva a cabo con ellas es su eliminación del texto, proceso que se conoce como eliminación de palabras vacías (stopwords1 en ingles), y se pone en practica mediante la comparación de cada palabra del texto con un diccionario que contiene la lista de palabras no aptas para la indexación (tanto en como en se presentan dos listas completas de palabras vacías).
viernes, 29 de octubre de 2010
SISTEMAS DE GESTION DE DOCUMENTOS
Existen en el mercado que ayuda a la organización a hacer más fácil, ágil y accesible el flujo de información e intercambio de documentos. Donde se evidencia la gestión de documentos que va mucho más allá de la simple labor de archivar. Estos sistemas permiten clasificar, indexar y poder acceder en forma eficiente a los materiales e informaciones documentales intercambiadas.
la diversidad de formatos que pueden administrar estos sistemas hace que el intercambio de información sea mucho mas completo pues no solo se trata de comunicaciones oficiales o informes sino que dentro de dicho repositorio se incluyen presentaciones multimedia, fotos, videos, audio, metadatos entre otros
En el mercado existen sofware libres esto significa que el costo de la aplicación o software es gratis. Muchos de estos deben tener instalados con anterioridad Java, Apache (Tomcat, Ant, Maven) PostgreSQL y Perl. Afortunadamente la gran mayoría de los software de gestión de documentos los trae y cuando se instalan en el computado se observa que todos están incluidos.
Ejemplo
ALFRESCO
Una herramienta tecnológica basada en ECM. La gestión de contenidos empresariales o ECM, es el conjunto de estrategias que permite capturar, administrar, almacenar, preservar y distribuir contenidos y documentos relacionados con procesos organizacionales ver mas http://www.alfresco.com/
ORFEO
Es un sistema de gestión de documentos (DMS) que se creó en Colombia en el año 2002 por la Superintendencia de Servicios Públicos Domiciliarios (SSPD) a raíz de la ley 594 del 2000.
Licencia Pública General GNU/GPL
70 entidades públicas y al menos 70 privadas ver mas http://es.wikipedia.org/wiki/Orfeo
KT. O KNOWLEDGE TREE
Es un programa para la gestión de documentación que permite.
• Registrar
• Compartir
• Seguir el flujo de los documentos al interior de la organización de una manera segura.
Al ser un programa libre permite:
• Adaptación
• Mejora de sus componentes
• Adaptación a la infraestructura actual de cualquier organización, entregando así una solución flexible y de bajo costo.
LASERFICHE
Es un sistema que se encarga de administrar documentos y que provee acceso inmediato a los mismos, se compone de un conjunto de módulos y está diseñado para resolver problemas del mundo real.
Permite que los profesionales ubiquen los documentos sin esfuerzo sobre la demanda. Su característica principal es la habilidad de recuperar cualquier documento a través de palabras, frases, archivos o índices.
NUXEO
Es utilizado como software de gestión documental de documentos, pagina web, registros, imágenes y desarrollo colaborativo de contenidos.
Es utilizado como un sistema de administración de contenidos libres basados en estándares abiertos y de escala empresarial para Windows y sistemas operativos similares a Unix.
Está diseñado para usuarios que requieren un alto grado de modularidad y rendimiento escalable. Nuxeo está desarrollado en Java.
La gestión documental garantiza a los trabajadores la información que se puede encontrar, utilizar, compartir y asegurar como contenido corporativo valioso desde la creación hasta la aprobación y publicación de un archivo.
FUNCIONALIDAD:
Servidor de documentación en red
Espacios personales y compartidos
Sencilla gestión y usabilidad
Historial de versiones
Drag and drop
Edición y previsualización online
Workflow
OPENKM
Es un documento de código abierto sistema de gestión que proporciona una interfaz web para la gestión de archivos arbitrarios
OpenKM es una aplicación de gestión de documentos basada en web, de modo que sólo un navegador web, es necesaria para utilizarlo. Actualmente, sólo Firefox, Internet Explorer y Safari son compatibles. La interfaz web se construye a través de Google Web Toolkit, de modo que el soporte de los navegadores depende de la caja de herramientas
SHAREPOINT
Es un software de plataforma y una familia de productos de software desarrollado por Microsoft para la colaboración, intercambio de archivos y publicación web [1]
M.S. SharePoint 2010: Maneja 3 ediciones: Fundación SharePoint 2010, SharePoint Server 2010 Standard y SharePoint Server 2010 Enterprise.
Una nueva interfaz.
Edición Web, personalización.
Silverligth, fácil integración con aplicaciones silverligth.
- Soporte para multiples navegadores (IE, Mozilla, Safari).
- Taxonomia de SharePoint, permite taxonomia centralizada.
M.S. SharePoint Server: Se ejecuta sobre W. SharePoint Services (WSS).
- Permite la organización de la información , basado en aplicaciones web: Organización Jerárquica, Navegación Mejorada, Personalización y en algunos casos edición de documentos de MS Office.
M.S. SharePoint Search Server: Se basa en las capacidades de busqueda de MS SharePoint Server.
DOCUSHARE
Permitir a los usuarios fácilmente capturar, gestionar, compartir y proteger una amplia gama de objetos desde papel a contenidos digitales en entornos seguros, centralizados y altamente escalables en cuanto a repositorio.
ver mas http://docushare.xerox.com/
miércoles, 27 de octubre de 2010
Estructura para realizar Busquedas
1) Precisar la necesidad de informacion
-Definicion o aclaracion de temas -Seleccion de modificadores del tema
-Periodo a cubrir - Area geografica
- Idioma
- Grupos de edad
- Sexo
- Animale y/o humanos
2) Eleccion de terminos de busqueda
3) Seleccion de fuentes de informacion
4) Ejecucion de busquedas
Resultados Listas de referencias manuscritas
Listas de referencias en pantalla
5) finalmente el documentos (resultado de la consulta)
lunes, 25 de octubre de 2010
Malas Practicas Spam
En el contexto de posicionamiento se llama así a las malas prácticas destinadas a forzar una alta posición de una página web para una o más palabras clave, sin que tal posición vaya acorde con la relevancia real de la página web en relación con esas palabras clave. Una de las técnicas primitivas más usadas para realizar spam en este contexto es poner repetidas veces un término como descriptor en los metadatos, de manera que el indicador del motor de búsqueda considere que trata sobre ese tema, aunque en realidad trata de otro.
Otro tipo de spam, en este caso realizado de manera externa al sitio web, es lo que se viene denominando Google bombing, que consiste en enlazar numerosas veces, desde distintas páginas, a un sitio web utilizando para ello como texto de anclaje un término o expresión que no corresponde al contenido del sitio al que se está enlazando.
http://carlosgallego.com/malas-practicas-posicionamiento.html
http://carlosgallego.com/malas-practicas-posicionamiento.html
Relevancia
Es la capacidad que tiene un documento un sitio o una página Web de satisfacer una necesidad de información de un usuario. En otras palabras es el grado de utilidad de un documento en relación con una pregunta concreta. En cuanto a las páginas Web existen motores de búsqueda que utilizando algoritmos que tratan de inferir la relevancia de cada página en relación con cada pregunta, de modo que entregan los resultados ordenados por el grado de probabilidad de resultar útiles para la necesidad de información expresada por el usuario.
Suscribirse a:
Entradas (Atom)