Optimización para Motores de Búsqueda (SEO) y Arquitectura de la Información (AI)
Recuperación de Información
Crawler y Algoritmos
– Política educacional del crawler: se establece un mínimo entre dos accesos.
– Algoritmo HITS: autoridades.
– Cuestiones centrales en la recuperación de información: cómo ordenar los documentos relevantes recuperados.
– Orden de operaciones en el proceso de indización: eliminación de palabras vacías – lematización…
Peso de un Término
– El peso de un término debe ser directamente proporcional a: el número de documentos que contienen el término.
Técnicas de Posicionamiento
– Objetivo de las técnicas de posicionamiento en buscadores: que el sitio web sea categorizado en los buscadores para temas relevantes.
– Afirmación cierta sobre el algoritmo PageRank: solo mide el peso de autoridad de las páginas.
Directorios y Motores de Búsqueda
– Rosenfeld y Morville: estructura, funciones y objeto.
– Diferencia entre directorio y motor de búsqueda: mayor precisión y menor exhaustividad.
– Tokenización: se realiza durante la fase de análisis lexicográfico.
Directivas y Enlaces
– Directiva User Agent: indica al crawler al que hace referencia la directiva.
– Link popularity: relacionada con la cantidad de enlaces externos de calidad que apuntan a nuestro sitio web.
– Versión preferida de un conjunto de páginas con contenido similar: página canónica.
– Objetivo del algoritmo Google Penguin: combatir las prácticas webspam, rebajando la posición de los sitios web que violan las directrices de calidad.
– Tim Berners-Lee y la Web Semántica: implica que los documentos contengan información legible por las máquinas y que se utilicen estándares para la interoperabilidad.
Web Semántica y Linked Open Data
RDF y RDFS
– Inclusión de sentencias RDF para describir contenidos de un documento XHTML: RDFs.
– Lenguaje utilizado para representar propiedades y relaciones: RDF.
– MediaWiki: utiliza RDF para representar información.
– 8 principios de la arquitectura de la información: el principio de «puertas especiales» hace referencia a que muchos visitantes llegan a un sitio desde un punto distinto a su página de inicio.
– Catálogo con sistema de navegación local (Jakob Nielsen): subsitio web.
– Página 404: una página que el usuario ve cuando intenta acceder a una página que no existe.
– Esquema de organización que divide los elementos para crear un sitio web consistente: se define en la etapa de estructura.
– Afirmación correcta respecto a RDF: las sentencias RDF están compuestas por triples del tipo sujeto-predicado-objeto.
– XML Sitemap: la respuesta del protocolo de integración.
– SPARQL endpoint: un servicio web accesible a través de una URL que permite realizar consultas sobre datos RDF.
– Limitación de XML: como modelo de datos.
– Afirmaciones ciertas respecto a DBpedia: el diseño de la ontología de DBpedia es un proceso intelectual.
– Componente del framework de extracción de DBpedia que analiza las páginas de Wikipedia: Wikiparser.
– Wikidata: es un proyecto de la Fundación Wikimedia para la creación de una base de datos colaborativa de datos estructurados.
– Afirmación falsa sobre AMP: el código AMP HTML tiene el aspecto formal de una página estándar HTML AMP.
Arquitectura de la Información (AI)
Diseño y Estrategia
– Definición y formulación de las necesidades de los usuarios y los objetivos del producto: se realizan durante la etapa de estrategia.
– Competencia necesaria para la traducción de objetivos estratégicos dentro del marco conceptual de la AI: diseño abstracto.
– Ejemplo de necesidades de información orientadas a problemas: un estudiante que necesita averiguar la diferencia entre robo y hurto.
– Sistemas de rotulación: son usados para representar la información a través de un lenguaje adecuado al sitio web.
– AI para web: consideramos estructuras de información rígida en sus formatos, como bases de datos.
– Elemento de navegación que ofrece muchas opciones de forma compacta: menús desplegables.
– Ponderación de términos: el peso de un término es inversamente proporcional al número de documentos que lo contienen.
– Sistemas de búsqueda web basados en directorios: producen resultados de mayor precisión.
– Buscadores que ejecutan la consulta contra motores de búsqueda de forma simultánea: metabuscadores.
– Estándar de exclusión de robots: se basa en la directiva User Agent, que indica al crawler a qué se refiere la directiva Disallow.
– Páginas con muchos enlaces salientes a páginas relevantes: concentradores.
– Afirmación cierta sobre PageRank: utiliza el subgrafo de páginas asociado a una consulta web para estimar el peso de la página.
– Objetivo principal del posicionamiento en buscadores: que el sitio web sea categorizado en los buscadores para las palabras clave relevantes.
– Objetivo de Google Panda: premiar a los sitios web que generan contenido original y tratan las temáticas con profundidad.
– Propuestas de Berners-Lee para Linked Open Data: utilización de estándares para proveer información, útil cuando se busca mediante URL.
– Categorizar recursos a través de una taxonomía de clases: ontología.
– Documentos XML que utilizan correctamente una DTD: documentos bien estructurados.
– Afirmación correcta sobre XML: el documento XML tiene una estructura jerárquica.
– La expresión de un grafo RDF mediante una sintaxis: serialización.
– Proyecto de Google que define un conjunto de recursos: Schema.org.
– Vocabulario controlado con valores permitidos para hacer referencia a personas: fichero de autoridad.
– Estructuras de AI con gran flexibilidad para problemas complejos: hipertexto.
– Limitación de RDFS: no es posible definir restricciones de cardinalidad.
– Etiqueta para páginas AMP: <link rel="amphtml" href="_"/>
– Criterios de calidad de los enlaces entrantes: variedad.