Archivos de texto plano csv (comma separated value):
Los archivos de texto plano CSV son un tipo de datos en formato sencillo para representar información en forma de tablas, en donde los nombres de los atributos se ubican en la primera fila y las columnas son separadas por comas (,) o en algunos casos por punto y coma (;). Las filas son representadas por saltos de línea. El formato CSV es muy sencillo y no indica un tipo de datos concreto. Es importante que el número de columnas sea el mismo en cada fila, si no se dispone de un dato no hay que omitirlo, hay que dejar la separación del dato con la coma correspondiente lo que dará lugar a una doble coma por ej.: “,,”
Ejemplo:
ID,NOMBRE,EDAD,DIRECCION 987,juan,28,10 norte 342 876,pedro,42,8 oriente 342 123,jorge,22,av. libertad 23 69,vicente,61,valencia nº183 18,lorenzo,24,sol nº18 19,lucía,38,luna nº8 |
Archivos de texto tipo arff (attribute relation file format):
Los archivos de este tipo se han diseñado especialmente para el trabajo con minería de datos, presenta una definición más clara de la estructura de datos contenidos. Esta se basa en tres áreas. La primera, es el área de definición del encabezado que inicia por el indicador @RELATION seguida por el nombre de la relación que se quiere dar a la estructura de datos. Si el nombre contiene espacios se debe colocarlo entre comillas.
Ej.: @RELATION cliente ->Nombre de relación sin espacios
@RELATION “clientes tienda” ->Nombre de relación con espacios
El área No. 2 corresponde al segmento de definición de los atributos que tendrá el archivo de datos. Cada atributo contará con una línea para su definición. Para su construcción se debe colocar el indicador @ATTRIBUTE seguido de un espacio más el nombre del atributo que debe empezar por una letra (no se permiten atributos que comienzen con números), si el nombre del atributo contiene espacios se debe entrecomillar. Luego del nombre se debe colocar el tipo de datos que contendrá el atributo, para esto se tienen 3 tipos:
Numéric: numérico
String: Cadena de texto
Date: fecha. El tipo de fecha por defecto es yyyy-MM-dd HH:mm:ss
Nominal-specification: tipos de datos definidos por nosotros mismos, en general se refiere a categorías que expresamos de forma explícita.
La tercera sección es exclusiva para los datos propiamente dichos. Inicia por el indicador @DATA en una sola línea y los datos debajo de este indicador. Separaremos cada columna por comas y todas filas deberán tener el mismo número de columnas, número que coincide con el de declaraciones @ATTRIBUTE que añadimos en la sección anterior.
Si no disponemos de algún dato, colocaremos un signo de interrogación (?) en su lugar. El separador de decimales tiene que ser obligatoriamente el punto y las cadenas de tipo string tienen que estar entre comillas simples.
Por tanto, en un archivo de tipo arff tendremos las áreas @relation, @attribute, y @data.
Ej:
@RELATION clientes
@ATTRIBUTE nombre string @ATTRIBUTE cedula numeric @ATTRIBUTE “fecha de nacimiento” date “yyyy-MM-dd HH:mm:ss” @ATTRIBUTE género {M, F} @ATTRIBUTE “tipo de pago” {CREDITO, CONTADO, DONACION} @ATTRIBUTE “valor de pago realizado” real
@DATA Carlos, 1234545, “1959-01-22 12:12:45”,M,CREDITO, 1435.55 María, 45366445, “1980-05-25 09:05:10”,F,CONTADO, 2000 Pedro, 89789879, ?,M,DONACION,2750.3 Gloria,2342342, “1977-03-25 09:05:10”,F,CONTADO,1987 Pablo,?,?,M,CREDITO,3950003.540 |
2
1. Desde la pestaña datos (Data) se debe tomar el ícono Plain Text haciendo clic sostenido sobre el ícono que representa los archivos de datos de texto plano que se cargará en la herramienta.
2. Una vez tomado se debe llevar al área de Drag and Drop con clic sostenido y soltándolo en ella.
3. Una vez colocado el objeto, se debe dar clic derecho sobre él para desplegar las opciones que permitirá el objeto. Una vez realizado el procedimiento se desplegarán cuatro opciones, de las cuales debemos seleccionar Open... Con esta acción se abrirá una ventana para seleccionar el archivo de datos.
4.
Se debe seleccionar el botón Browse
para abrir la ventana de búsqueda y selección de archivos.
5. En la ventana que se despliega se debe buscar el archivo de datos a cargar (sólo se permiten los tipos de archivo .csv: del inglés comma-separated values y .arff: attribute-relation file format), una vez encontrado se selecciona y se da clic al botón Abrir. Con esto queda seleccionado el archivo y se vuelve a la ventana anterior.
6. Cuando se realiza esta acción se vuelve a la ventana de selección de archivos y en la caja de texto Data File aparecerá la ruta del archivo seleccionado.
7.
Para completar este procedimiento se debe
dar clic en el botón Play de la parte derecha de la ventana, con
lo cual se confirma la carga y aceptación de datos.
8. Realizado lo anterior en la regilla central de la ventana aparece una vista preliminar de los datos.
9.
Para salir se debe dar clic en el botón Exit.
10. Si no se aceptan los datos existe el botón de Cancel que cancelará la acción.
11. Una vez completados los pasos 7-9 debe ejecutarse la carga de datos, para esto se debe nuevamente dar clic derecho sobre el objeto Plaint text en el área de Drag and drop y del menú que aparece seleccionar la opción Load, que ejecutará el proceso y nos informará mediante un mensaje en la barra de estado de la página el estado de la carga. Con esto ha finalizado el proceso de carga de datos por medio de archivos planos.