Optimización para Motores de Búsqueda (SEO) y Arquitectura de la Información (AI)

Recuperación de Información

Crawler y Algoritmos

Política educacional del crawler: se establece un mínimo entre dos accesos.
Algoritmo HITS: autoridades.
Cuestiones centrales en la recuperación de información: cómo ordenar los documentos relevantes recuperados.
Orden de operaciones en el proceso de indización: eliminación de palabras vacías – lematización…

Peso de un Término

– El peso de un término debe ser directamente proporcional a: el número de documentos que contienen el término.

Técnicas de Posicionamiento

Objetivo de las técnicas de posicionamiento en buscadores: que el sitio web sea categorizado en los buscadores para temas relevantes.
Afirmación cierta sobre el algoritmo PageRank: solo mide el peso de autoridad de las páginas.

Directorios y Motores de Búsqueda

Rosenfeld y Morville: estructura, funciones y objeto.
Diferencia entre directorio y motor de búsqueda: mayor precisión y menor exhaustividad.
Tokenización: se realiza durante la fase de análisis lexicográfico.

Directivas y Enlaces

Directiva User Agent: indica al crawler al que hace referencia la directiva.
Link popularity: relacionada con la cantidad de enlaces externos de calidad que apuntan a nuestro sitio web.
Versión preferida de un conjunto de páginas con contenido similar: página canónica.
Objetivo del algoritmo Google Penguin: combatir las prácticas webspam, rebajando la posición de los sitios web que violan las directrices de calidad.
Tim Berners-Lee y la Web Semántica: implica que los documentos contengan información legible por las máquinas y que se utilicen estándares para la interoperabilidad.

Web Semántica y Linked Open Data

RDF y RDFS

Inclusión de sentencias RDF para describir contenidos de un documento XHTML: RDFs.
Lenguaje utilizado para representar propiedades y relaciones: RDF.
MediaWiki: utiliza RDF para representar información.
8 principios de la arquitectura de la información: el principio de «puertas especiales» hace referencia a que muchos visitantes llegan a un sitio desde un punto distinto a su página de inicio.
Catálogo con sistema de navegación local (Jakob Nielsen): subsitio web.
Página 404: una página que el usuario ve cuando intenta acceder a una página que no existe.
Esquema de organización que divide los elementos para crear un sitio web consistente: se define en la etapa de estructura.
Afirmación correcta respecto a RDF: las sentencias RDF están compuestas por triples del tipo sujeto-predicado-objeto.
XML Sitemap: la respuesta del protocolo de integración.
SPARQL endpoint: un servicio web accesible a través de una URL que permite realizar consultas sobre datos RDF.
Limitación de XML: como modelo de datos.
Afirmaciones ciertas respecto a DBpedia: el diseño de la ontología de DBpedia es un proceso intelectual.
Componente del framework de extracción de DBpedia que analiza las páginas de Wikipedia: Wikiparser.
Wikidata: es un proyecto de la Fundación Wikimedia para la creación de una base de datos colaborativa de datos estructurados.
Afirmación falsa sobre AMP: el código AMP HTML tiene el aspecto formal de una página estándar HTML AMP.

Arquitectura de la Información (AI)

Diseño y Estrategia

Definición y formulación de las necesidades de los usuarios y los objetivos del producto: se realizan durante la etapa de estrategia.
Competencia necesaria para la traducción de objetivos estratégicos dentro del marco conceptual de la AI: diseño abstracto.
Ejemplo de necesidades de información orientadas a problemas: un estudiante que necesita averiguar la diferencia entre robo y hurto.
Sistemas de rotulación: son usados para representar la información a través de un lenguaje adecuado al sitio web.
AI para web: consideramos estructuras de información rígida en sus formatos, como bases de datos.
Elemento de navegación que ofrece muchas opciones de forma compacta: menús desplegables.
Ponderación de términos: el peso de un término es inversamente proporcional al número de documentos que lo contienen.
Sistemas de búsqueda web basados en directorios: producen resultados de mayor precisión.
Buscadores que ejecutan la consulta contra motores de búsqueda de forma simultánea: metabuscadores.
Estándar de exclusión de robots: se basa en la directiva User Agent, que indica al crawler a qué se refiere la directiva Disallow.
Páginas con muchos enlaces salientes a páginas relevantes: concentradores.
Afirmación cierta sobre PageRank: utiliza el subgrafo de páginas asociado a una consulta web para estimar el peso de la página.
Objetivo principal del posicionamiento en buscadores: que el sitio web sea categorizado en los buscadores para las palabras clave relevantes.
Objetivo de Google Panda: premiar a los sitios web que generan contenido original y tratan las temáticas con profundidad.
Propuestas de Berners-Lee para Linked Open Data: utilización de estándares para proveer información, útil cuando se busca mediante URL.
Categorizar recursos a través de una taxonomía de clases: ontología.
Documentos XML que utilizan correctamente una DTD: documentos bien estructurados.
Afirmación correcta sobre XML: el documento XML tiene una estructura jerárquica.
La expresión de un grafo RDF mediante una sintaxis: serialización.
Proyecto de Google que define un conjunto de recursos: Schema.org.
Vocabulario controlado con valores permitidos para hacer referencia a personas: fichero de autoridad.
Estructuras de AI con gran flexibilidad para problemas complejos: hipertexto.
Limitación de RDFS: no es posible definir restricciones de cardinalidad.
Etiqueta para páginas AMP: <link rel="amphtml" href="_"/>
Criterios de calidad de los enlaces entrantes: variedad.