Operaciones de GUI en Data Refinery

Data Refinery da soporte a las siguientes categorías de operaciones de la GUI.

Pulse Nuevo paso para seleccionar una operación de la GUI.

Un subconjunto de las operaciones está disponible en el menú de desbordamiento de cada columna (Menú de desbordamiento). Por ejemplo, puede renombrar una columna pulsando el icono Editar en la cabecera de la columna.

LIMPIAR

Convertir tipo de columna
Cuando se abre un archivo en Data Refinery, la operación Convertir tipo de columna se aplica automáticamente como primer paso si detecta algún tipo de datos no de serie en los datos. Los tipos de datos se convierten automáticamente a tipos de datos inferidos. Para cambiar la conversión automática de una columna seleccionada, pulse el menú de desbordamiento (Menú de desbordamiento) para el paso y seleccione Editar. Al igual que con cualquier otra operación, puede deshacer el paso. La operación Convertir tipo de columna se vuelve a aplicar cada vez que se abre el archivo en Data Refinery. La conversión automática se aplica según sea necesario sólo para los orígenes de datos basados en archivos. (No se aplica a un origen de datos desde una conexión de base de datos).

Para confirmar el tipo de datos al que se han convertido los datos de cada columna, pulse Editar en el menú de desbordamiento (Menú de desbordamiento) para ver los tipos de datos. La información incluye el formato de datos de fecha o indicación de fecha y hora.

Si los datos se convierten a un tipo de datos Entero o Decimal, puede especificar el símbolo decimal y el símbolo de agrupación de millares para todas las columnas aplicables. Las series que se convierten al tipo de datos Decimal utilizan un punto para el símbolo decimal y una coma para el símbolo de agrupación de millares. De forma alternativa, puede seleccionar la coma para el símbolo decimal y el punto o un símbolo personalizado para el símbolo de agrupación de millares. El símbolo decimal y el símbolo de agrupación de millares no pueden ser el mismo.

Los datos de origen se leen de izquierda a derecha hasta que se encuentra un terminador o un carácter que no se reconoce. Por ejemplo, si convierte datos de serie 12,834 a Decimal y no especifica qué hacer con la coma (,), los datos se truncarán en 12. De forma similar, si los datos de origen tienen varios puntos (.) y selecciona el punto para el símbolo decimal, se utiliza el primer punto como separador decimal y los dígitos que siguen al segundo punto se truncan. Una serie de origen de 1.834.230,000 se convierte en un valor de 1.834.

La operación Convertir tipo de columna convierte automáticamente estos formatos de fecha e indicación de fecha y hora:

  • Fecha: ymd, ydm
  • Indicación de fecha y hora: ymdHMS, ymdHM, ydmHMS, ydmHM

Las series de fecha e indicación de fecha y hora deben utilizar cuatro dígitos para el año.

Puede aplicar manualmente la operación Convertir tipo de columna para cambiar el tipo de datos de una columna en cualquier punto del flujo de Refinería de datos. Puede crear una nueva columna que contenga el resultado de esta operación o puede sobrescribir la columna existente.

Sugerencia: el tipo de datos de una columna determina las operaciones que puede utilizar. El cambio del tipo de datos puede afectar a las operaciones que son relevantes para dicha columna.


  • Transcripción de vídeo
    1. La operación Convertir tipo de columna convierte automáticamente la primera columna de la serie en Entero. Cambiemos los tipos de datos de las otras tres columnas.
    2. Para cambiar el tipo de datos de la columna europea de serie a decimal, seleccione la columna y, a continuación, edite el paso de la operación Convertir tipo de columna.
    3. Para cambiar el tipo de datos de la columna europea de serie a decimal, seleccione la columna y, a continuación, edite el paso de la operación Convertir tipo de columna.
    4. Seleccione Decimal.
    5. La columna utiliza el delimitador de coma, por lo tanto seleccione coma (,) para el símbolo decimal.
    6. Seleccione la siguiente columna, DATETIME. Seleccione la indicación de fecha y hora y un formato.
    7. Pulse en Aplicar.
    8. Las columnas son ahora de los tipos de datos Entero, Decimal, Fecha y Indicación de fecha y hora. Se actualiza el paso Convertir tipo de columna en el panel Pasos.

Convertir valor de columna en valor que falta
Convierta los valores en la columna seleccionada a valores que faltan si coinciden con los valores de la columna especificada o coinciden con un valor especificado.


  • Transcripción de vídeo
    1. La operación Convertir valor de columna en valor que falta convierte los valores de una columna seleccionada en valores que faltan si coinciden con los valores de una columna especificada o si coinciden con un valor especificado.
    2. Un valor que falta es equivalente a un SQL NULL, que es un campo sin ningún valor. Es distinto de un valor de cero o de un valor que contiene espacios.
    3. Puede utilizar la operación Convertir valor de columna en valor que falta cuando crea que los datos estarán mejor representados como valores que faltan. Por ejemplo, cuando desea utilizar valores que faltan en una operación Sustituir valores que faltan o en una operación Filtrar.
    4. Utilice la operación Convertir valor de columna en valor que falta para cambiar los valores a valores que faltan en función de un valor coincidente.
    5. Observe que la columna DESC tiene muchas filas con el valor CANCELLED ORDER. Vamos a convertir las series CANCELLED ORDER en valores que faltan.
    6. La operación Convertir valor de columna en valor que falta está bajo la categoría CLEANSE.
    7. Escriba la serie que se ha de sustituir por valores que faltan.
    8. Los valores que antes eran CANCELLED ORDER son ahora valores que faltan.

Extraer valor de fecha u hora
Extraiga una parte seleccionada de un valor de fecha u hora de una columna con un tipo de datos de fecha o indicación de fecha y hora.


  • Transcripción de vídeo
    1. La operación Extraer valor de fecha u hora extrae una parte seleccionada de un valor de fecha u hora de una columna con un tipo de datos de fecha o de indicación de fecha y hora.
    2. La columna DATE es un tipo de datos de serie. En primer lugar, vamos a utilizar la operación Convertir tipo de columna para convertirla en el tipo de datos de fecha.
    3. Seleccione la operación Convertir tipo de columna en el menú de la columna DATE. Seleccione Date.
    4. Seleccione un formato de Date.
    5. Ahora la columna DATE es un tipo de datos de fecha.
    6. El formato de fecha ISO se utiliza cuando el tipo de datos de serie se ha convertido al tipo de datos de fecha Por ejemplo, la serie 01/08/2018 se ha convertido a la fecha 2018-01-08.
    7. Ahora podemos extraer la parte de la fecha correspondiente al año en una nueva columna.
    8. La operación del valor Extraer valor de fecha o de hora está bajo la categoría LIMPIAR.
    9. Seleccione Year para la parte de la fecha que se va a extraer y escriba YEAR para el nuevo nombre de columna.
    10. La parte de la columna DATE correspondiente al año está en la nueva columna, YEAR.
    11. El panel Pasos muestra la operación Extraer valor de fecha u hora.

Filtro
Filtre filas por las columnas seleccionadas. Mantenga las filas con los valores de columna seleccionados y oculte las demás filas con un filtro.

Para estos operadores de serie Filtro, no escriba el valor entre comillas. Si el valor contiene comillas, escape las comillas con un carácter de barra inclinada. Por ejemplo: \"text\":

  • Contiene
  • No contiene
  • Empieza con
  • No comienza con
  • Termina por
  • No termina con

Los siguientes son los operadores para las columnas numéricas, de serie y booleanas (lógicas), y de fecha e indicación de fecha y hora:

Operador Numérico Serie Booleano Fecha e indicación de fecha y hora
Contiene
No contiene
No termina con
No comienza con
Termina por
Está entre dos números
Está vacío
Es igual a
Es false
Es mayor que
Es mayor o igual que
Está en
Es menor que
Es menor o igual que
No está vacío
No es igual a
No está en
No es nulo
Es nulo
Es true
Empieza por

  • Transcripción de vídeo
    1. Utilice la operación Filtrar para filtrar las filas por las columnas seleccionadas. Puede aplicar varias condiciones en una operación Filtrar.
    2. Utilice una expresión regular para filtrar todas las filas excepto aquellas en las que la serie de la columna de ID de Emp empieza por 8.
    3. Filtre las filas por dos abreviaturas de estados.
    4. Pulse en Aplicar. Sólo las filas donde el ID de Emp empieza por 8 y el estado es AR o TX están en la tabla.
    5. Las filas se filtran ahora por AR y PA. Se actualiza el paso Filtrar en el panel Pasos.

Eliminar columna
Elimine la columna seleccionada.


  • Transcripción de vídeo
    1. Utilice la operación Eliminar columna para eliminar rápidamente una columna de un activo de datos.
    2. La forma más rápida de eliminar una columna es desde el menú de la columna.
    3. El nombre de la columna eliminada está en el panel Pasos.
    4. Elimine otra columna.
    5. El nombre de la columna eliminada está en el panel Pasos.

Eliminar duplicados
Elimine filas con valores de columna duplicados.


  • Transcripción de vídeo
    1. La operación Eliminar duplicados elimina filas que tienen valores de columna duplicados.
    2. El conjunto de datos tiene 43 filas. Muchas de las filas de la columna APPLYCODE tienen valores duplicados. Queremos reducir el conjunto de datos en las filas en las que cada valor de la columna APPLYCODE solo aparece una vez.
    3. Seleccione la operación Eliminar duplicados en el menú de la columna APPLYCODE.
    4. La operación Eliminar duplicados ha eliminado cada aparición de un valor duplicado comenzando por la fila superior. El conjunto de datos es ahora de 4 filas.

Eliminar filas vacías
Elimine las filas que tienen un valor en blanco o un valor que falta para la columna seleccionada.


  • Transcripción de vídeo
    1. La operación Eliminar filas vacías elimina filas que tienen un valor en blanco o un valor que falta para la columna seleccionada.
    2. Un valor que falta es equivalente a un SQL NULL, que es un campo sin ningún valor. Es distinto de un valor de cero o de un valor que contiene espacios.
    3. El conjunto de datos tiene 43 filas. Muchas de las filas de la columna TRACK tienen valores que faltan Queremos reducir el conjunto de datos en las filas que tienen un valor en la columna TRACK.
    4. Seleccione la operación Eliminar filas vacías desde el menú de la columna TRACK.
    5. La operación Eliminar filas vacías ha eliminado cada fila que tenía un valor en blanco o un valor que falta en la columna TRACK. El conjunto de datos es ahora de 21 filas.

Sustituir valores perdidos
Sustituya los valores que faltan en la columna por un valor especificado o con el valor de una columna especificada en la misma fila.


  • Transcripción de vídeo
    1. La operación Sustituir valores que faltan sustituye los valores que faltan en una columna por un valor especificado o por el valor de una columna especificada en la misma fila.
    2. La columna STATE tiene muchas filas con valores vacíos. Queremos sustituir estos valores vacíos por una serie.
    3. La operación Sustituir valores que faltan está bajo la categoría CLEANSE.
    4. Para la columna Estado, sustituya los valores que faltan por la serie Incompleto.
    5. Los valores que faltan ahora tienen el valor Incompleto.
    6. El panel Pasos muestra la operación Sustituir valores que faltan.

Sustituir subserie
Sustituya la subserie especificada por el texto especificado.


  • Transcripción de vídeo
    1. La operación Sustituir subserie sustituye una subserie por el texto que especifique.
    2. La columna DECLINE tiene muchas filas que incluyen la serie BANC. Queremos sustituir esta serie por BANK.
    3. La operación Sustituir subserie está bajo la categoría CLEANSE.
    4. Escriba la serie que se debe sustituir y la serie de sustitución.
    5. Todas las apariciones de la serie BANC se han sustituido por BANK.
    6. El panel Pasos muestra la operación Sustituir subserie.

Sustituir
Oculte información sensible de la vista sustituyendo una serie aleatoria de caracteres para los datos reales de la columna seleccionada.


  • Transcripción de vídeo
    1. La operación de sustitución oculta la información confidencial sustituyendo una serie aleatoria de caracteres para los datos de la columna seleccionada.
    2. La forma más rápida de sustituir los datos de una columna es seleccionar Sustituir en el menú de la columna.
    3. La operación Sustituir se muestra en el panel Pasos.
    4. Sustituir valores en otra columna.
    5. La segunda operación de sustitución se muestra en el panel Pasos.

Texto

Solo puede aplicar operaciones de texto a las columnas de serie. Puede crear una nueva columna que contenga el resultado de una operación o puede sobrescribir la columna existente.

Texto > Contraer espacios
Contraiga varios espacios consecutivos en el texto a un solo espacio.

Texto > Concatenar serie
Enlace cualquier serie al texto. Puede añadir la serie al principio del texto, después del texto o ambos.

Texto > Minúsculas
Convierta el texto a minúsculas.

Texto > Número de caracteres
Devuelva el número de caracteres del texto.

Texto > Rellenar caracteres
Rellene el texto con la serie especificada. Especifique si desea rellenar el texto a la izquierda, a la derecha, o a la izquierda y a la derecha.

Texto > Subserie
Cree subseries del texto que se inicien en la posición especificada y tengan la longitud especificada.

Texto > Tipo título
Convierta el texto en un tipo título.

Texto > Eliminar comillas
Elimine las comillas simples o dobles del texto.

Texto > Eliminar espacios
Elimine los espacios iniciales, finales y adicionales del texto.

Texto > Mayúsculas
Convierta el texto a mayúsculas.


  • Transcripción de vídeo
    1. Solo puede aplicar una operación Texto a las columnas de serie. Cree una nueva columna para el resultado o sobrescriba la columna existente.
    2. En primer lugar, concatene una serie con los valores de la columna WORD.
    3. Operaciones de texto disponibles.
    4. Concatene la serie a la derecha, añádala con un espacio y escriba up.
    5. Los valores de la columna WORD se añaden con un espacio y la palabra up.
    6. La operación Texto se muestra en el panel Pasos.
    7. A continuación, rellene los valores de la columna ANIMAL con una serie.
    8. Rellene los valores de la columna ANIMAL con símbolos de ampersand (&) a la derecha para un mínimo de 7 caracteres.
    9. Los valores de la columna ANIMAL se rellenan con el símbolo & para que cada serie tenga al menos siete caracteres.
    10. Observe que los valores de opossum, pangolin, platypus y hedgehog no tienen un carácter de relleno porque estas series ya tenían siete o más caracteres.
    11. A continuación, utilice Subserie para eliminar el carácter t de la columna ID.
    12. Seleccione la Posición 2 para iniciar la nueva serie en esta posición. Seleccione la Longitud 4 para una serie con una longitud de cuatro caracteres.
    13. El carácter t inicial de la columna de ID se elimina en la columna NEW-ID.

CALCULAR

Calcular
Realice un cálculo con otra columna o con un valor especificado. Los operadores son:

  • Suma
  • División
  • Elevación a una potencia
  • Está entre dos números
  • Es igual que
  • Es mayor que
  • Es mayor o igual que
  • Es menos que
  • Es menor o igual que
  • No es igual que
  • Módulo
  • Multiplicación
  • Resta

  • Transcripción de vídeo
    1. La operación Cálculo realiza un cálculo, por ejemplo, suma o resta, con otra columna o con un valor especificado.
    2. Seleccione la columna para comenzar.
    3. Cálculos disponibles
    4. Ahora seleccione la segunda columna para el cálculo de suma.
    5. Y aplique el cambio.
    6. La columna de ID se actualiza y el panel Pasos muestra la operación completada.
    7. También puede acceder a las operaciones desde el menú de la columna.
    8. Esta vez, seleccione entre dos números. Especifique el rango y cree una nueva columna para los resultados.
    9. La nueva columna se muestra en la tabla y la nueva operación de cálculo se muestra en el panel Pasos.
    10. Esta vez, seleccione Es igual que para comparar dos columnas y crear una nueva columna para los resultados.
    11. La nueva columna se muestra en la tabla y la nueva operación de cálculo se muestra en el panel Pasos.

Matemática

Solo puede aplicar operaciones matemáticas a las columnas numéricas. Puede crear una nueva columna que contenga el resultado de una operación o puede sobrescribir la columna existente.

Matemáticas > Valor absoluto
Obtenga el valor absoluto de un número.
Ejemplo: el valor absoluto de 4 y -4 es 4.

Matemáticas > Arcocoseno
Obtenga el arcocoseno de un ángulo.

Matemáticas > Máximo
Obtenga el entero más próximo del valor mayor, también conocido como máximo (techo) del número.
Ejemplos: el máximo de 2,31 es 3. El techo de -2,31 es -2.

Matemáticas > Exponente
Obtenga un número elevado a la potencia del valor de la columna.

Matemáticas > Mínimo
Obtenga el entero más cercano del valor menor, también conocido como mínimo del número.
Ejemplo: el mínimo de 2,31 es 2. El mínimo de -2,31 es -3.

Matemáticas > Redondear
Obtenga el número entero más cercano al valor de la columna. Si el valor de columna es un número entero, lo devuelve.

Matemáticas > Raíz cuadrada
Obtenga la raíz cuadrada del valor de la columna.


  • Transcripción de vídeo
    1. Aplique una operación matemática a los valores de una columna. Cree una nueva columna para los resultados o sobrescriba la columna existente.
    2. Operaciones matemáticas disponibles
    3. Aplique el valor absoluto a los valores de la columna.
    4. Seleccione Crear nueva columna para los resultados.
    5. La nueva columna se añade a la tabla y la operación matemática se muestra en el panel Pasos.
    6. También puede acceder a la operación desde el menú de la columna.
    7. Aplique Redondeo a los valores de la columna ANGLE.
    8. Cree una nueva columna para los resultados.
    9. La nueva columna se añade a la tabla y la nueva operación matemática se muestra en el panel Pasos.

ORGANIZAR

Agregado
Aplique cálculos de resumen a los valores de una o más columnas. Cada agregación crea una columna nueva. Opcionalmente, seleccione Agrupar por columnas para agrupar la nueva columna por otra columna que defina una característica del grupo, por ejemplo, un departamento o un ID. Puede agrupar por varias columnas. Puede combinar varias agregaciones en una sola operación.

Las operaciones de agregación disponibles dependen del tipo de datos.

Datos numéricos:

  • Recuento de valores exclusivos
  • Mínimo
  • Máximo
  • Suma
  • Desviación estándar
  • Promedio

Datos de serie:

  • Combinar valores de fila
  • Recuento de valores exclusivos

  • Transcripción de vídeo
    1. La operación Agregar aplica cálculos de resumen a los valores de una o varias columnas. Cada agregación crea una columna nueva.
    2. Las agregaciones disponibles dependen de si los datos son datos numéricos o de serie.
    3. Los operadores disponibles dependen del tipo de datos de la columna. Operadores disponibles para datos numéricos.
    4. Con la columna de texto UniqueCarrier seleccionada, puede ver los operadores disponibles para los datos de serie.
    5. Contaremos cuántos valores exclusivos hay en la columna UniqueCarrier. Esta agregación mostrará cuántas aerolíneas hay en el conjunto de datos.
    6. Tenemos 22 aerolíneas en la nueva columna Aerolíneas. Las otras columnas se suprimen.
    7. La operación Agregar se muestra en el panel Pasos.
    8. Comencemos a mostrar una agregación en datos numéricos.
    9. Mostrar el promedio (valor medio) de los retrasos de llegadas.
    10. El valor promedio de todos los retrasos de llegadas está en la nueva columna MeanArrDelay. Las otras columnas se suprimen.
    11. También puede agrupar la columna agregada por otra columna que define una característica del grupo.
    12. Vamos a editar el paso Agregar añadiendo un grupo por selección para que podamos ver el promedio de los retrasos de llegadas por parte de la aerolínea.
    13. Agrupe los resultados por la columna UniqueCarrier.
    14. El promedio de retrasos de llegadas se ha agrupado ahora por línea aérea.
    15. El panel Pasos muestra la operación Agregar.

Concatenar
Concatene los valores de dos o más columnas.


  • Transcripción de vídeo
    1. La operación Concatenar concatena los valores de dos o más columnas.
    2. La función Concatenar se encuentra bajo la categoría ORGANIZE.
    3. Seleccione las columnas que se han de concatenar.
    4. Seleccione un separador para utilizarlo entre los valores concatenados.
    5. Escriba un nombre para la columna para los valores concatenados.
    6. La nueva columna DATE muestra los valores concatenados de las otras tres columnas con un separador de punto y coma.
    7. La operación Concatenar se muestra en el panel Pasos.
    8. La columna DATE es un tipo de datos de serie. Utilice la operación Convertir tipo de columna para convertirla en el tipo de datos de fecha.
    9. Seleccione la operación Convertir tipo de columna en el menú de la columna DATE. Seleccione Date.
    10. Seleccione un formato de fecha y cree una nueva columna para el resultado.
    11. La nueva columna se muestra con el formato de fecha convertido.
    12. La operación Convertir tipo de columna se muestra en el panel Pasos.
    13. El formato de fecha ISO se utiliza cuando el tipo de datos de serie se ha convertido al tipo de datos de fecha Por ejemplo, la serie 2004; 2; 3 se ha convertido a la fecha 2004-02-03.

Sustitución condicional
Sustituya los valores de una columna en función de las condiciones.


  • Transcripción de vídeo
    1. Utilice la operación Sustitución condicional para sustituir los valores de una columna basada en condiciones.
    2. En primer lugar, especifique las condiciones para sustituir los datos de la columna de serie CODE y crear una nueva columna para los resultados.
    3. Operadores de condición disponibles para datos de serie.
    4. Añadir la primera condición - CONDITION 1: CODE Es igual que el valor C sustituir por COMPLETE.
    5. Añada una segunda condición - CONDITION 2: CODE Es igual que el valor I sustituir por INCOMPLETE.
    6. Especifique qué hacer con los valores que no cumplen las condiciones. Aquí se especificarán dos comillas dobles para indicar una serie vacía.
    7. Cree una nueva columna para los resultados.
    8. La nueva columna, STATUS, muestra las sustituciones condicionales de la columna CODE.
    9. La operación Sustitución condicional se muestra en el panel Pasos.
    10. A continuación, vamos a especificar condiciones para sustituir los datos de la columna de enteros INPUT y crear una nueva columna para los resultados.
    11. Operadores de condición disponibles para datos numéricos.
    12. Añadir la primera condición - CONDITION 1: INPUT Es menor o igual que el valor 3 sustituir por el valor LOW.
    13. Añadir una segunda condición - CONDITION 2: INPUT está en los valores 4,5,6 sustituir por el valor MED.
    14. Añadir una tercera condición - CONDITION 3: INPUT Es mayor o igual que el valor 7 sustituir por el valor HIGH.
    15. Especifique qué hacer con los valores que no cumplen las condiciones.
    16. Cree una nueva columna para los resultados.
    17. La nueva columna, RATING, muestra las sustituciones condicionales de la columna INPUT.
    18. La operación Sustitución condicional se muestra en el panel Pasos.

Unión
Combine datos de dos conjuntos de datos basándose en una comparación de los valores de las columnas de clave especificadas. Especifique el tipo de unión que se va a realizar, seleccione las columnas (claves de unión) en los dos conjuntos de datos que desee comparar y seleccione las columnas que desee en el conjunto de datos resultante.

Las columnas de clave de unión en ambos conjuntos de datos deben tener tipos compatibles de datos. Si la operación Unión es el primer paso que añade, compruebe si la operación Convertir tipo de columna ha convertido automáticamente el tipo de datos de las columnas de clave de unión en el primer conjunto de datos al abrir el archivo en Data Refinery. Además, dependiendo de dónde esté la operación Unión en el flujo de Refinería de datos, puede utilizar la operación Convertir tipo de columna para asegurarse de que coincidan los tipos de datos de las columnas de claves de unión. Pulse un paso anterior en el panel Pasos para ver la vista de instantánea del paso.

Los tipos de unión incluyen:

Tipo de unión Descripción
Unión a la izquierda Devuelve todas las filas del conjunto de datos original y devuelve solo las filas coincidentes del conjunto de datos de unión. Devuelve una fila del conjunto de datos original para cada fila coincidente en el conjunto de datos de unión.
Unión a la derecha Devuelve todas las filas del conjunto de datos de unión y devuelve solo las filas coincidentes del conjunto de datos original. Devuelve una fila del conjunto de datos de unión para cada fila coincidente en el conjunto de datos original.
Unión interna Devuelve solo las filas de cada conjunto de datos que coinciden con las filas del otro conjunto de datos. Devuelve una fila del conjunto de datos original para cada fila coincidente en el conjunto de datos de unión.
Unión completa Devuelve todas las filas de los dos conjuntos de datos. Combina las filas del conjunto de datos original con las filas coincidentes del conjunto de datos de unión.
Semiunión Devuelve solo las filas del conjunto de datos original que coinciden con filas del conjunto de datos de unión. Devuelve una fila del conjunto de datos original para todas las filas coincidentes del conjunto de datos de unión.
Antiunión Devuelve solo las filas del conjunto de datos original que no coinciden con filas del conjunto de datos de unión.

  • Transcripción de vídeo
    1. El conjunto de datos customers.csv contiene información sobre los clientes de la empresa y el conjunto de datos sales.csv contiene información sobre los representantes de ventas de la empresa.
    2. Los conjuntos de datos comparten la columna SALESREP_ID.
    3. El conjunto de datos customers.csv está abierto en Data Refinery.
    4. La operación Unión puede combinar los datos de estos dos conjuntos de datos en función de una comparación de los valores de la columna SALESREP_ID.
    5. Desea realizar una unión interna para devolver sólo las filas de cada conjunto de datos que coincidan con el otro conjunto de datos.
    6. Puede añadir un sufijo personalizado para añadirlo a las columnas que existen en ambos conjuntos de datos, para ver el conjunto de datos de origen para esta columna.
    7. Seleccione el conjunto de datos sales.csv para unirlo al conjunto de datos customers.csv.
    8. Para la clave de unión, empiece a escribir el nombre de columna para ver una lista filtrada. La columna SALESREP_ID enlaza los dos conjuntos de datos.
    9. A continuación, seleccione las columnas que desea incluir. Las columnas duplicadas mostrarán el sufijo añadido.
    10. Ahora aplique los cambios.
    11. La operación Unión se muestra en el panel Pasos.
    12. Ahora, el conjunto de datos se ha enriquecido con las columnas de los conjuntos de datos customers.csv y sales.csv.

Renombrar columna
Renombre la columna seleccionada.


  • Transcripción de vídeo
    1. Utilice la operación Renombrar columna para renombrar rápidamente una columna.
    2. La forma más rápida de renombrar una columna es editar el nombre de la columna en la tabla.
    3. Edite el nombre y pulse Intro en el teclado.
    4. El paso Renombrar columna muestra el nombre antiguo y el nombre nuevo.
    5. Ahora cambie el nombre de otra columna.
    6. El panel Pasos muestra que el nombre de la columna BANKS ha cambiado a DOGS.
    7. Ahora cambie el nombre de la última columna.
    8. El panel Pasos muestra que el nombre de la columna RATIOS ha cambiado a BIRDS.

Ejemplo
Genere un subconjunto de datos utilizando uno de los siguientes métodos. Los pasos de muestreo de operaciones de interfaz de usuario solo se aplican cuando se ejecuta el flujo.

  • Muestra aleatoria: cada registro de datos del subconjunto tiene una probabilidad igual de ser elegido.
  • Ejemplo estratificado: divida los datos en uno o más subgrupos denominados estrato. A continuación, genere una muestra aleatoria que contenga datos de cada subgrupo.

  • Transcripción de vídeo
    1. La operación Muestra genera un subconjunto de sus datos.
    2. Utilice la operación Muestra cuando tenga una gran cantidad de datos y desee trabajar en una muestra representativa para crear prototipos de forma más rápida.
    3. La operación Muestra está en la categoría ORGANIZE.
    4. Seleccione uno de los dos métodos para crear una muestra.
    5. Con una muestra aleatoria, cada fila tiene la misma probabilidad de ser incluida en los datos de muestra.
    6. Puede elegir una muestra aleatoria por número de filas o por porcentaje de datos.
    7. Una muestra estratificada está basada en un ejemplo aleatorio. Al igual que con un ejemplo aleatorio, especifica la cantidad de datos de la muestra (filas o porcentaje).
    8. Con una muestra estratificada: divide los datos en uno o más subgrupos denominados estratos. A continuación, genera una muestra aleatoria que contiene datos de cada subgrupo.
    9. Para Método, si selecciona Automático, selecciona una columna para los estratos.
    10. Si selecciona Manual, especifica uno o más estratos y para cada estrato especifica las condiciones de filtro que definen las filas de cada estrato.
    11. En este ejemplo de datos de aerolíneas, se crearán dos estratos. Un estrato define el 50% de salidas para tener los aeropuertos de destino de la ciudad de Nueva York y el segundo estrato define el 50% restante para tener una distancia de vuelo especificada.
    12. En el recuadro Especificar detalles para este estrato, especifique el porcentaje de la muestra que representará las condiciones que especificará en este primer estrato. Los porcentajes de estrato deben ser un total del 100%.
    13. Operadores disponibles para datos de serie.
    14. El 50% de la muestra tendrá aeropuertos de destino de la ciudad de Nueva York.
    15. Pulse Guardar para guardar los primeros estratos.
    16. Los primeros estratos, identificados como Strata0, tienen una condición. En este estrato, el 50% de la muestra debe cumplir con la condición.
    17. En el recuadro Especificar detalles para este estrato, especifique el porcentaje de la muestra que representará las condiciones que especificará en el segundo estrato.
    18. Operadores disponibles para datos numéricos.
    19. El 50% de la muestra será para los vuelos con una distancia superior a 500.
    20. Pulse Guardar para guardar el segundo estrato.
    21. El segundo estrato, identificado como Strata1, tiene una condición. En este estrato, el 50% de la muestra debe cumplir con la condición.
    22. Si utiliza varios estratos, la operación Muestra aplica internamente una operación de filtro con una condición OR en los estratos. En función de los datos, las condiciones y el tamaño de la muestra, los resultados de utilizar un estrato con varias condiciones pueden ser diferentes a los resultados de utilizar varios estratos.
    23. A diferencia de otras operaciones de Data Refinery, la operación Muestra cambia el conjunto de datos solo después de crear y ejecutar un trabajo para el flujo de Data Refinery.
    24. El paso Muestra se visualiza en el panel Pasos.
    25. El conjunto de datos es superior a 10000 filas.
    26. Guarde y cree un trabajo para el flujo de Data Refinery.
    27. El nuevo archivo de activo se añade al proyecto para la salida del flujo de Data Refinery.
    28. Ver el archivo de salida.
    29. Hay 10 filas (50% de la muestra) con los aeropuertos de Nueva York en la columna Dest, pero 17 filas en la columna Distance con valores mayores que 500.
    30. Estos resultados se deben a que los estratos se aplicaron con una condición OR y habían datos solapados para las condiciones especificadas en los primeros estratos donde las filas filtradas por Dest que contenían los aeropuertos de Nueva York tenían valores de distancia superiores a 500.
    31. El archivo de salida de Data Refinery muestra el tamaño reducido.

Clasificación ascendente
Ordene todas las filas de la tabla por la columna seleccionada en orden ascendente.

Clasificación descendente
Ordene todas las filas de la tabla por la columna seleccionada en orden descendente.


  • Transcripción de vídeo
    1. Ordene rápidamente todas las filas de un conjunto de datos ordenando las filas de una columna seleccionada.
    2. La forma más rápida de ordenar las columnas es desde el menú de la columna.
    3. Puede clasificar las filas por orden ascendente o descendente.
    4. Orden ascendente.
    5. El orden de todas las filas de la tabla se actualiza mediante la operación Clasificar de la primera columna.
    6. La operación Clasificar se muestra en el panel Pasos.
    7. Orden descendente.
    8. La operación Clasificar ha cambiado el orden de todas las filas de la segunda columna de la tabla.
    9. La segunda operación de clasificación se muestra en el panel Pasos.
    10. Orden ascendente.
    11. La operación Clasificar ha cambiado el orden de todas las filas de la tercera columna de la tabla.
    12. La tercera operación Clasificar se muestra en el panel Pasos.

Dividir columna
Divida la columna por caracteres no alfanuméricos, posición, patrón o texto.


  • Transcripción de vídeo
    1. La operación Dividir columna divide una columna en dos o más columnas basándose en caracteres no alfanuméricos, texto, patrón o posición.
    2. Para empezar, vamos a dividir la columna YMD en las columnas YEAR, MONTH y DAY.
    3. La operación Dividir columna está en la categoría ORGANIZAR.
    4. En primer lugar, seleccione la columna YMD para dividir.
    5. Los separadores ofrecen cuatro opciones para dividir la columna.
    6. DEFAULT utiliza cualquier carácter no alfanumérico que esté en los valores de l columna para dividir la columna.
    7. En TEXT, seleccione un carácter o escriba text para dividir la columna.
    8. En PATTERN, debe especificar una expresión regular basada en la sintaxis R para determinar dónde se ha de dividir la columna.
    9. En POSITION, puede especificar en qué posición se ha de dividir la columna.
    10. Queremos dividir la columna YMD mediante el asterisco (*), que es un carácter no alfanumérico, por lo que seleccionaremos la pestaña DEFAULT.
    11. Divida la columna YMD en tres nuevas columnas - YEAR, MONTH y DAY.
    12. Las tres nuevas columnas, YEAR, MONTH y DAY se añaden al conjunto de datos.
    13. La operación Dividir columna se muestra en el panel Pasos.
    14. A continuación, divida la columna FLIGHT en dos columnas - una para el código de línea aérea y otra para el número de vuelo. Dado que los códigos de líneas aéreas son dos caracteres, podemos dividir la columna por posición.
    15. Pulse la pestaña POSITION y luego escriba 2 en el recuadro Positions.
    16. Divida la columna FLIGHT en dos nuevas columnas: AIRLINE y FLTNMBR.
    17. Las dos nuevas columnas, AIRLINE y FLIGHTNBR, se añaden al conjunto de datos.
    18. La operación Dividir columna se muestra en el panel Pasos.

Unión
Combine las filas de dos conjuntos de datos que comparten el mismo esquema y filtre los duplicados. Si selecciona Permitir un número diferente de columnas y permitir valores duplicados, la operación es un mandato UNION ALL.


  • Transcripción de vídeo
    1. Utilice la operación Unión para combinar las filas de dos conjuntos de datos que comparten el mismo esquema.
    2. Este conjunto de datos tiene cuatro columnas y seis filas. Los tipos de datos de izquierda a derecha son Serie, Serie, Decimal, Serie.
    3. Cuando el conjunto de datos se ha cargado en la Refinería de datos, la operación Convertir tipo de columna automáticamente convierte la columna PRICE en el tipo de datos Decimal.
    4. Las columnas del segundo conjunto de datos deben ser compatibles con los tipos de datos de este conjunto de datos.
    5. Seleccione el conjunto de datos que se ha de combinar con el conjunto de datos actual.
    6. Cuando obtenga una vista previa del nuevo conjunto de datos, verá que también tiene cuatro columnas. No obstante, la columna PRICE es un tipo de datos de serie.
    7. Antes de aplicar la operación Unión, debe suprimir el paso Convertir tipo de columna automáticamente para que la columna PRICE tenga el mismo tipo de datos que la columna PRICE en el nuevo conjunto de datos (Serie).
    8. Ahora la columna PRICE ahora es de datos de serie.
    9. Ahora repita la operación de unión.
    10. El nuevo conjunto de datos se añade al conjunto de datos actual. El conjunto de datos aumenta a 12 filas.
    11. La operación Unión se muestra en el panel Pasos.
    12. Ahora añada un conjunto de datos que tenga un número diferente de columnas. Las columnas coincidentes deben seguir siendo tipos de datos compatibles.
    13. Seleccione el conjunto de datos que se ha de combinar con el conjunto de datos actual.
    14. Cuando obtiene una vista previa del nuevo conjunto de datos, verá que tiene una columna más que el conjunto de datos original. La quinta columna es TYPE.
    15. Seleccione Permitir un número diferente de columnas y permitir valores duplicados.
    16. Aplique la operación Unión.
    17. El nuevo conjunto de datos se añade al conjunto de datos actual. El conjunto de datos aumenta a 18 filas.
    18. La columna adicional, TYPE, se añade al conjunto de datos.
    19. La operación Unión se muestra en el panel Pasos.

Sugerencia para la operación Unión: si recibe un error sobre esquemas incompatibles, compruebe si la operación Convertir tipo de columna automática ha cambiado los tipos de datos del primer conjunto de datos. Suprima el paso de Convertir tipo de columna y vuelva a intentarlo.

LENGUAJE NATURAL

Eliminar palabras vacías Elimine las palabras comunes del idioma inglés, como "el" o "y." Las palabras vacías suelen tener poco valor semántico para los algoritmos de análisis de texto y los modelos. Elimine las palabras vacías para reducir el volumen de datos y mejorar la calidad de los datos que se utilizan para formar modelos de aprendizaje máquina.

Opcional: para confirmar qué palabras se han eliminado, aplique la operación Tokenizar (por palabras) en la columna seleccionada y, a continuación, visualice las estadísticas de las palabras en la pestaña Perfil. Puede deshacer el paso Tokenizar más adelante en el flujo de Refinería de datos.


  • Transcripción de vídeo
    1. La operación Eliminar palabras vacías elimina las palabras comunes del idioma inglés del conjunto de datos. Las palabras vacías suelen tener poco valor semántico para los algoritmos de análisis de texto y los modelos. Elimine las palabras vacías para reducir el volumen de datos y mejorar la calidad de los datos.
    2. La operación Eliminar palabras vacías elimina estas palabras: a, an, and, are, as, at, be, but, by, for, from, if, in, into, is, it, no, not, of, on, or, such, that, the, their, then, there, these, they, this, to, was, will, with.
    3. La operación Eliminar palabras vacías está bajo la categoría LENGUAJE NATURAL.
    4. Seleccione la columna STRING.
    5. Pulse Aplicar para eliminar las palabras vacías.
    6. Las palabras vacías se eliminan de la columna STRING.
    7. La operación Eliminar palabras vacías se muestra en el panel Pasos.

Tokenizar
Descompone el texto en inglés en palabras, frases, párrafos, líneas, caracteres o mediante expresiones regulares.


  • Transcripción de vídeo
    1. La operación Tokenizar desglosa el texto en inglés en palabras, frases, párrafos, líneas, caracteres o mediante una expresión regular.
    2. La operación Tokenizar está bajo la categoría LENGUAJE NATURAL.
    3. Seleccione la columna STRING.
    4. Opciones de tokenizar disponibles.
    5. Cree una nueva columna con el nombre WORDS.
    6. La operación Tokenizar ha tomado las palabras de la columna STRING y ha creado una nueva columna, WORDS, con una fila para cada palabra.
    7. La operación Tokenizar se muestra en el panel Pasos.

Tema principal: Cómo refinar datos