Método Científico en Lingüística: Etapas, Datos y Modelos

Datos, Método Científico y Etapas en la Ciencia Lingüística

Ciencia lingüística: método y teoría. Etapas.

  1. Investigación científica: Proceso de descubrimiento creativo que sigue un itinerario prefijado y unos procedimientos preestablecidos y consolidados dentro de la comunidad científica.
  2. Creativo/Itinerario prefijado: Contexto de descubrimiento (idea nueva) / Contexto de justificación (comprobación y defensa de la idea nueva). La tarea es producir teorías y comprobarlas. La segunda parte tiene reglas y debe ser sometida a control; la primera parte escapa a toda lógica.
  3. Comunidad científica: La investigación es un proceso colectivo; implica: control (procedimientos estandarizados y resultados comprobables por otros investigadores) y acumulación.
  4. El marco de referencia colectivo consta de dos elementos: la estructura lógica del proceso de investigación y la instrumentación técnica que se ha de utilizar.
  5. Estructura lógica

    Recorrido cíclico que parte de la teoría, pasa por la fase de colección de datos y análisis, y vuelve a la teoría (teoría-datos-análisis).
    Se distinguen cinco fases y cinco procesos que las conectan:
    • Fases: teoría, hipótesis, producción de los datos, análisis de los datos, resultados.
    • Procesos: deducción, operacionalización (diseño de la investigación), organización de los datos (matriz de datos), interpretación, inducción.
Ejemplo:
  • Fase 1: Teoría generalidad, conceptos generales: de ella se deducen las hipótesis. Proposición teórica general: «Existe una correlación positiva entre la participación política y el prestigio social».
  • Fase 2: Hipótesis, conceptos específicos: formulación parcial de la teoría. Limitación de los conceptos teóricos. De la proposición teórica se deducen tres hipótesis (H):
    • H1 («La participación electoral es mayor en H que en M»).
    • H2 («La participación electoral es mayor en jóvenes que en adultos, ancianos»).
    • H3 («La participación electoral es mayor en personas con éxito profesional que en personas sin éxito profesional»).
    Así se limita: la participación política a la participación electoral; prestigio social a tres aspectos específicos.
  • Fase 3: Producción de datos. Se llega a ella a través de un proceso de operacionalización (=transformación de las hipótesis en afirmaciones observables empíricamente):
    • 1ª transformación de conceptos en variables (por ej., éxito profesional = renta).
    • 2ª creación de un instrumento de medida de los conceptos = variables (por ej., estadísticas sobre las tendencias de voto y su relación con el sexo, la edad, etc. de los votantes).
    Esto produce un diseño de investigación (= plan de trabajo: muestra para la investigación, área, criterios, cuestionarios, etc.).
  • Fase 4: Análisis de datos. El proceso que permite el AD es la organización previa y sistemtización de los datos, de tal forma que puedan ser sometidos a análisis.
    • Por ej., los registros orales y su transcripción (información) pasan (Plan de Codificación) a convertirse en una matriz de números filas x columnas o de casos x variables (donde cada número = valor de variable = característica o respuesta).
    • La matriz es el punto de partida del AD (= operaciones matemáticas con un programa estadístico: SPSS, R, STATA, Goldvarb, etc.).
    Plan de codificación:
    • V1. Participación. Escala 0-5. Veces que ha votado en las últimas cinco convocatorias electorales.
    • V2. Número del sujeto.
    • V3. Sexo. 0 H, 2 M.
    • V4. Edad (en años).
    • V5. Edad (recodificada). 18-20 = 0, 20-22 = 1, etc.
    • V6. Renta. 0. Sin ingresos. 1. 0-400. 2. 401-600, etc.
    Tabla: participación: 1, 2; número: 0001, 0002; sexo: 0,1; Edad: 20, 45; Edad: 0, 13; renta: 2,3.
  • 5. Resultados:
    • Mediante la interpretación del análisis estadístico se llega a la presentación de resultados.
    • A partir de ahí (inducción) se vuelve a la teoría: comparación de los resultados empíricos con las hipótesis teóricas y la teoría general (confirmación/refutación).

Datos. Modelos. Investigador

  • Kibrik, A. E. (1977): The methodology of field investigations in linguistics (Setting up the problem). La Haya: Mouton.
  • 1. Relación entre el investigador (I) y los datos (D).
  • 2. Relación entre los datos (D) y las gramáticas (dispositivos teóricos para dar cuenta del funcionamiento de una lengua o de alguno de sus componentes = G).

Datos

  • D: El tipo de datos influye mucho en el tipo de investigación (ID; DG): lengua conocida/desconocida para el investigador = introspección/fieldwork.
  • La descripción sincrónica tiene siempre por objeto un FRAGMENTO de una LENGUA a partir de la cual se elabora un MODELO IDEALIZADO.

Modelos

  1. Aspectos de la gramática idealizados; se incluyen los modelos lingüísticos de la G nuclear (la FN en español); las categorías gramaticales de una lengua (el Dyirbal, Dixon 1971); sociolingüísticos (Labov 1969, 1972): modelos idealizados de la estructura lingüística. Idealizaciones matemáticas, sociológicas y lingüísticas.
  2. Como consecuencia, la relación de la G con los D es siempre indirecta, con independencia de los objetivos, métodos, fines teóricos y supuestos.
  3. Lo que DIFERENCIA a los lingüistas (ID; DG). Paradigmas: Chomsky/Saussure; Laboviano; Interaccional
    1. Armchair linguistics
    2. Labovian (socio)linguistics
    3. Interactional sociolinguistics
  4. Lo que UNE a los lingüistas:
    1. El lenguaje es un objeto abstracto inalcanzable por observación directa. Las realizaciones concretas (enunciados efectivos) son manifestación de la competencia lingüística de los hablantes que conocen la lengua que se ha de observar.
    2. Para desarrollar una buena teoría y método es mejor partir de lo que une a los lingüistas de toda orientación para luego pasar a diferenciar tendencias y definir la propia posición.
    3. Asunciones comunes:
      • 1 Tema (subject) u objetivo de la investigación: la lengua o parte de ella.
      • 2 Objeto (object) de la investigación: un componente de la G a través de textos (corpus de textos orales o escritos).
      • 3 Producto (product): el modelo (G) del tema u objetivo (por ej., los patrones sociolingüísticos de NYC son parte de la G de la comunidad de habla de NY).
    4. Las diferencias no son del grado de abstracción de los datos (todos los modelos son abstractos y su relación con los D indirecta) sino de la articulación entre el tema, el objeto, el investigador y el modelo o producto. De ahí derivan las diferencias metodológicas.
  5. Tres modelos de relaciones S-O-P a través de los cuales el I alcanza su finalidad
    1. Modelo introspectivo. Relación I-D-G por la que I accede directamente al objetivo-lengua por medio de su propia competencia lingüística (introspección). No hay corpus de datos (objeto). No puede estudiarse una lengua desconocida por el I. Es un método normalmente usado para estudiar lenguas altamente codificadas (no vernacular). Lingüística del conocimiento. Armchair linguistics. Método cualitativo.
    2. Modelo Analítico. Generaciones inductivas basadas en un corpus de datos recogidos independientemente. Se discute si es obligatorio que I conozca la lengua objeto. Las generalizaciones no son accesibles por la intuición. Es difícil una G solo basada en corpus; suele combinarse con la intuición o con experimentos. Lingüística de la conducta. Corpus linguistics. Método descriptivo.
    3. Modelo experimental. Control del investigador sobre los datos. Se usa en combinación con datos independientes de la introspección del investigador, pero no supone generalizaciones inductivas a partir de la fuente de datos. Un hablante nativo produce tipos específicos de hechos sobre el objetivolengua o variedad. El investigador normalmente combina este método con los dos anteriores. Sociolingüística, psicolingüística. Método cuantitativo. Estos modelos experimentales implican: uso de informantes y por tanto: selección /observación / manipulación.

Teoría y Método. Conocimiento científico

Generalidad: Propiedades esenciales/universales de los objetos captadas gracias a una posición metodológica explícita.

  1. Teoría: modelo hipotético y contrastable capaz de dar cuenta de las leyes subyacentes en un corpus de fenómenos. Finalidad: formular asertos generales.
  2. Método: reglas de comportamiento con el fin de desarrollar una cierta actividad especializada o arte. Dos vías: racionalismo (métodos deductivos) y empirismo (métodos inductivos).

Cambios en la cadena

  • Movimientos o desplazamientos de elementos lingüísticos (chain-shifts).
  • Cadenas de tracción (pull chain-shifts).
  • Cadenas de propulsión (push chain-shifts).

Ley de Grimm

Mutación consonántica en las lenguas germánicas.

  • Hipótesis 1: Primera mutación de las lenguas germánicas.
  • Hipótesis 2. Verter:
    • Gót. Fadár (t > θ?) / sáns. Pitá ‘padre’.
    • Cambio normal: p à f.
    • Efecto del acento: /t/ en la raíz à [θ] /t/ fuera de la raíz à [d]
  • Hipótesis 3. Segunda mutación de las germánicas.

Cambio en cadena en las obstruyentes del español

Patrones minoritarios en la fonología del español andaluz: Variación de /x/ en el español de Málaga

  1. Elisión /x/, no en /g/, /f/, etc.
  2. Coocurrencia de cambios.
  3. Cadena. Posteriorización. Elisión.
  4. Historia: cambios en cadena.
  5. Variación: ¿quién?, ¿en qué condiciones?.

Obstruyentes no fricativas del español: Estudio fonético acústico-perceptivo

  1. /p/ : /b/ : /t/ : /d/ : /k/ : /g/
  2. Sordo/sonoro; tenso/flojo
  3. Teoría de la marcación
  4. Experimento: He dicho….. otra vez (papa, baba, bata, etc.)
  5. Test de percepción (n = 30).
Experimento:
  • Manipulación de los espectrogramas borrado secuencial de la barra de sonoridad y de pulsos glotales a 500, 1000, > 1000 Hz.
  • Test de percepción (n = 30): Identificación de las palabras (pares mínimos con p/b).
Resultados:
  • En las grabaciones en las que se eliminaron los 1000/500 primeros Hz la inteligibilidad fue muy alta. Las confusiones observadas se debieron más a la falta de transiciones vocálicas y de los formantes primeros de las vocales y no a la ausencia de la barra de sonoridad.
  • Corroboración: en español predomina la tensión sobre la sonoridad en la percepción de las consonantes obstruyentes.

Elisión de /d/ en español

  • H1. La elisión de /d/ intervocálica es más frecuente en morfemas gramaticales que en los lexemas.
  • H2. Está condicionada por la orientación de los hablantes hacia el estándar.
  • H3. El proceso se retiene entre los hablantes de más edad y de mayor nivel educacional.

Teoría y método

Ciencia: Características: Conocimiento científico

  1. Parte de los hechos.
  2. Los trasciende: crea teorías y modelos.
  3. Analítico: descompone la realidad.
  4. Verificable: plantea hipótesis y las contrasta con los datos.
  5. Metódico: exige un plan de trabajo.
  6. Sistemático: datos e hipótesis generan una teoría.
  7. General: parte de datos particulares para explicar la totalidad.
  8. Legal: busca pautas regulares de comportamiento: leyes.
  9. Explicativo: intenta comprender por qué los hechos son de determinada manera.
  10. Predictivo: partiendo del pasado se puede anticipar al futuro.
  1. Es abierto: se puede contradecir, rebatir, impugnar… Datos -> teoría -> datos.
  2. Inobservable. Modelos abstractos de la realidad.
  3. Lingüística interna/externa.
  4. Conocimiento hipotético sometido a refutación.
  5. Método: reglas de comportamiento para desarrollar una actividad especializada o arte.
  6. Teoría: modelos a escala de las leyes subyacentes en un corpus de fenómenos de la realidad.
  7. Generalización: universales que se repiten bajo los casos singulares; variables pertinentes y relaciones entre ellas (leyes).
  8. Leyes: pautas o patrones que subyacen en el aparente desorden (estructura y proceso).
  9. Casualidad: principios universales (restricciones sobre la forma y la función de los elementos).
  10. Predicción.
  11. Ciencia (refutación) vs. Metafísica.

Requisitos del conocimiento científico

  1. Generalidad. La ciencia tiene por finalidad la formulación de asertos generales; para ello se basa en una posición metodológica explícita. Lingüística histórico-comparada; Estructuralismo; Lingüística de corpus; Interlingüística/ GT. Axioma del estilo: en las situaciones más tensas (formalidad, atención, control) aumenta la frecuencia de uso de las formas prestigiosas en la comunidad de habla.
  2. Coherencia. El discurso científico no admite ni da lugar a contradicción. Lenguaje científico/lenguaje ordinario.
  3. Simplicidad. La teoría que se ajusta a los datos y los explica/predice igual que las teorías alternativas, pero con mayor simplicidad, es preferible. Parsimonia.
  4. Predictibilidad. El objetivo último de los modelos científicos es la predicción. Utilidad.
  1. Generalidad: Propiedades esenciales/universales de los objetos captadas gracias a una posición metodológica explícita.
    1. Teoría: modelos hipotético y contrastable susceptible de dar cuenta de las leyes subyacentes en un corpus de fenómenos. Finalidad: formular asertos generales.
    2. Método: reglas de comportamiento con el fin de desarrollar una cierta actividad especializada o arte. Dos vías: racionalismo (métodos deductivos) y empirismo (métodos inductivos).
Asertos generales:
  • Axioma del subordinado: en las interacciones desiguales se produce la acomodación en el sentido del dialecto superordinado (estándar).
  • Axioma del estilo: en las situaciones más tensas (formalidad, atención, control) aumenta la frecuencia de uso de las formas prestigiosas en la comunidad de habla.

Axioma del dialecto subordinado:

  • Labov. Dialecto subordinado (variedad estándar/variedad no estándar).
  • Giles. Accommodation (short/long-term accommodation).
  • Bourdieu. Langue légitime/Saussure. Langue.
  • Bernstein. Código restringido/código elaborado.
  • Hipótesis del déficit.
Círculo infernal de la pobreza:
  1. Los tests psicológicos establecen el déficit estructural/ funcional de los sujetos de clase baja (lengua “deficiente”; cognición insuficiente).
  2. El déficit lleva al fracaso escolar de estos sujetos.
  3. Los sujetos de clase media (variedad estándar) obtienen mejores resultados.
  4. Las diferencias sociales/étnicas = uso lingüístico = conceptualización.
  5. Enseñar el estándar (código elaborado) = pensar lógicamente.
  6. Éxito escolar.
Crítica del círculo infernal:
  1. Método. Los resultados de los que se parte son artefactos de laboratorio, al haber sido extraídos fuera de su contexto natural a sujetos indefensos.
  2. Teoría. El investigador se muestra como ignorante e incapaz: ignora o elude el conocimiento de la gramática subyacente a la actuación lingüística caótica que surge de los experimentos en el laboratorio: principio del dialecto subordinado.
  3. Enseñar la gramática de la variedad “legítima” (= estándar, código elaborado, variedad de la clase media) no es siempre funcional (redundancia, discurso vacío).
  4. Toda variedad es funcional. Cambiar la sociedad y la escuela; no al niño.

Axioma del estilo:

  • Axioma del estilo: en las situaciones más tensas (formalidad, atención, control) aumenta la frecuencia de uso de las formas prestigiosas en la comunidad de habla.
  • Definición: registro y estilo.

Simplicidad:

  • La teoría que se ajusta a los datos y los explica/predice igual que las teorías alternativas, pero con mayor simplicidad, es preferible. Parsimonia.
  • Evaluación de modelos.
  • Ejemplo: sistema vocálico del andaluz.
Respercusiones:

Morfología, léxico y fonología.

Chi Cuadrado: Análisis Cuantitativo de Variables, Medidas y Distribución de los Datos. Procedimientos Básicos

Contenido:

Exposición del desarrollo de una investigación real con explicación de las fases y procesos estudiados en el Bloque 2.

  • Se trabajará con variables nominales y con escalas.
  • Los cálculos se llevarán a cabo de dos formas complementarias:
    • Manualmente: calculadora.
    • Ordenador: SPSS.
Ejemplo:

Análisis de la variación de /d/ intervocálica en el español de Andalucía (Granada y Málaga).

Objetivo:

Determinación de los factores internos y externos que condicionan la elisión de la obstruyente aproximante [ð] en posición intervocálica en el español de Andalucía a través del análisis de dos corpus orales de las ciudades de Málaga y Granada.

  • Se pretende determinar si es un proceso de cambio en curso que supone su ralentización en entornos no gramaticales y por hablantes mayores de estatus medio-alto.

Preguntas de investigación:

  1. La elisión es más probable en entornos gramaticales por ser predecibles por regla.
  2. La posición de la /d/ en sílabas átonas aumenta la probabilidad de elisión.
  3. La frecuencia de uso de la palabra favorece la elisión por la mayor exposición al proceso erosivo.
  4. El registro y otros factores mecánicos condicionan la elisión: el diálogo (frente a la estructura de pregunta/respuesta) y la presencia de /d/ previa o siguiente en la palabra, secuencia o turno.
  5. El cambio en marcha tiende a revertirse. Los grupos de edad mayores, de educación media o alta y de sexo femenino tienden a moderar la elisión. Podría hablarse de un cambio desde arriba o elitista que supone la retención de /d/.
  6. Los hablantes (de cualquier sexo) de menor edad, menor nivel educacional y que tienen redes sociales personales densas con lazos intensos favorecen la elisión de /d/.
  7. La orientación del hablante hacia el prestigio de corriente dominante determina su actitud hacia la norma y, por tanto, favorece/desfavorece el cambio erosivo.

Producción de datos. Variables:

Operacionalización:

  • Variable dependiente. La elisión es la desaparición de todo segmento (ruido, formantes) entre vocales, que forman hiato, quasidiptongo o diptongo.
  • Se distinguen tres variantes: 0 elisión, 1 mantenimiento, 2 debilitada o caso dudoso.
  • Se simplifica: 0 vs 1+2: 0 (elisión), 1 (segmento).

Variables independientes:

  1. Modelo OT. Simplificación: presencia/ausencia de frontera mortifica.
  2. Acentuación: Sílaba tónica/protónica o postónica (necesidad/dedo, además).
  3. Frecuencia. Frecuencia de ocurrencia de lemas (token frequency) en el diccionario de frecuencia.
  4. Registro. Diálogo/pares adyacentes de preguntas y respuesta. Priming: turno, secuencia, palabra.
  5. Edad en años y recodificación generacional: I ( 55). Representan etapas sucesivas/cortes etarios en el tiempo aparente. Educación: indicador de estatus. Sexo.
  6. Red social personal obtenida mediante cuestionario (generador de nombres). Medida de intensidad: Escala de Intensidad (frecuencia de contactos y multiplicidad).
  7. Orientación del hablante hacia el prestigio. Escala de orientación.

Producción de los datos:

Muestra:

  • Para el diseño de la muestra lo determinante son las hipótesis que hemos postulado: condicionan las variables de prestratificación.
  • En nuestro caso, la frecuencia natural del discurso no exige pruebas especiales para las H1-H4.
  • Para H5-H7 necesitamos una muestra preestratificada por edad, sexo y posición social.
Organización de los datos: cuestionarios
  • Cuestionario de datos personales: sociológico, reticular, actitudes.
  • Cuestionario lingüístico: preguntas indirectas (onomasiológico; dibujos; respuestas).
  • Guía conversacional.
  • Variabilidad según el diseño de la investigación.

Organización de los datos

  1. Codificación de variables
    1. Cuestionario. Debe tener una forma similar a la futura base de datos.
    2. Plan de codificación. Sirve para organizar la asignación de los códigos a los valores de las variables/respuestas en el cuestionario.

Independencia de variables:

  • Variables nominales. Edad/elisión.
  • H0: x e y son independientes; las oscilaciones aparentes de las frecuencias observadas son aleatorias.
  • H1: x e y están relacionadas.

Chi cuadrado:

  • Cálculo de las frecuencias esperadas: Frecuencias en cada casilla en el supuesto de que x e y no estuviesen relacionadas. Qué frecuencias obtendríamos en ese supuesto, y para cada casilla, a partir de los datos que nos proporcionan los totales y los marginales por fila y columna.

Cálculo del Chi cuadrado

  • Para el cálculo del coeficiente Chi-cuadrado de Pearson necesitamos hallar la suma de las diferencias entre cada frecuencia obtenida y cada frecuencia esperada al cuadrado, dividida por cada frecuencia esperada.

Variables

  • Rasgo que aparece en una muestra de individuos y que siendo común a un grupo de individuos u objetos (sujetos, países, organizaciones, etc.), presenta:
    • Distintos grados de magnitud (peso, altura, CI, puntuación) o las diferentes categorías en que se presentan los datos (sexo, variante elidida, variante sibilante, etc.).
  • Se opone a constante.

Medición: proceso por el que se asignan números a las características definidas según ciertos criterios.

  • Distinguimos las variables por su (1) medida o por su (2) diseño de investigación.

Variables. Medida

  • Cualitativas: varían en tipo (rasgos que no tienen carácter numérico sino categórico).
    • Nominales
      • Categorías discretas sin orden lógico (sexo, simpaxa). Clasifican los objetos en categorías en función de una característica. Las categorías se excluyen (sexo, posición del acento).
      • Solo se clasifican. La única operación permisible es la de igualdad/desigualdad (A = B, A ≠ B).

Variables. Medida

  • Ordinales
    • Tienen orden lógico pero sus intervalos no son iguales (actitud hacia un acento o una variedad). Son también exclusivas y exhaustivas.
    • Ordenaciones (A > B, B
    • Las categorías se excluyen mutuamente, tienen orden lógico y se organizan por la cantidad del rasgo que se considera.

Variables. Medida

  • Cuantitativas: se expresan numéricamente los rasgos (medida de un depósito en Hm3, renta, altura en Hz de los F de una vocal, Db de una sibilante, etc.).
    • Variables de intervalo.
    • Variables de razón.

Variables. Medida

  • Variables de Intervalo
    • Además de las propiedades de las escalas ordinales, los números reflejan distancias relativas entre puntos a lo largo de la escala (e.g., la diferencia entre dos grados en la escala de temperatura es siempre la misma: entre 30º y 33º y 22º y 25º).
    • Las categorías se excluyen, tienen orden lógico, se organizan por la cantidad, las diferencias entre las unidades son las mismas y el cero es un punto más en la escala.

Variables. Medida

  • Variables de razón
    • Además de las propiedades anteriores:
      • (1) el cero refleja ausencia de la propiedad;
      • (2) entre dos puntos no solo hay la misma distancia sino que también es la misma la proporción del rasgo en dos entidades que la tienen: un objeto con 10 Kg pesa el doble que otro con 5 Kg.

Variables

  • Cantidades (y) que pueden tomar distintos valores (i) de momento (t1) a otro (t2) o de un objeto (p1) a otro (p2):
    • Y → yi, yj, yk
  • Estas cantidades son propiedades de los sujetos o casos que pueden tomar dichos valores.

Variables. Diseño

  • Variables dependientes (VD). Medida del efecto de las VI.
  • Variables independientes (VI). Las v. Que el investigador controla. Dos niveles al menos: presente/ausente.

Significación de las medidas de tendencia central: media