EL ENTORNO DE LA APLICACIÓN

Al ejecutar el programa, lo primero que encontramos es una gif de carga, una vez la imagen desaparece se abre la aplicación.

VENTANA PRINCIPAL

En la venta principal se puede observar tres opciones:

A - MINERÍA DE USO WEB (WEB USAGE MINING).
A - MINERÍA DE USO WEB (WEB USAGE MINING).
C - ANÁLISIS ESTADÍSTICO DE TRÀFICO WEB (WEB STATISTICS).

Las cuales realizan independientemente en cada pestaña lo referente a la tarea con la cual se desea trabajar. La aplicación permite trabajar conjuntamente los tres modulos, solo hay q seleccionar la pestaña A, B o Csegún sea el caso de estudio.

En el siguiente documento se desarrolla el manual de usuarios concerniente a los dos tipos de minería que maneja la herramienta Polaris Tool v3.0.

A continuación se realiza una descripción de los compontes generales de la herramienta:

 

DESCRIPCIÓN PANTALLA PRINCIPAL

 

 

Lo que encontramos es una pantalla con 5 áreas:

A - La barra de titulo,
B - La barra de opciones de programa,
C - El área de las herramientas,
D - Un área de trabajo en blanco
E - La barra de estado.

 

BARRA DE OPCIONES DE PROGRAMA

 

 

En esta se encuentran todas las acciones que se pueden hacer con respecto a proyectos y a la aplicación en general. Las cuales son:

1 - Nuevo Proyecto
2 - Abrir Proyecto existente
3 - Guardar Proyecto
4 - Guardar Como
5 - Ayuda
6 - Configuración
7 - Acerca de

Las acciones nuevo, abrir y guardar proyecto se encargan de manejar el archivo de la MINERÍA DE USO WEB (WEB USAGE MINING) con extensión pol (*.pol) pero además las acciones abrir y guardar como manejan archivos XML, así pues, el programa tiene dos opciones de archivo (pol, xml) para manejar proyectos.

Las acciones nuevo, abrir y guardar proyecto se encargan de manejar el archivo de la MINERÍA DE ESTRUCTURA WEB (WEB STRUCTURE MINING) con extensión pol2 (*.pol2).

Las acciones nuevo, abrir y guardar proyecto se encargan de manejar el archivo de ANÁLISIS ESTADÍSTICO DE TRÀFICO WEB (WEB STATISTICS)con extensión pol3 (*.pol3).

La acción ayuda abre la pagina principal de la ayuda.

La opción de configuración permite tener acceso al a base de datos a través del usuario y la
contraseña.

al presiona el botón de la barra de herramientas que indica la configuración, aparece un mensaje de advertencia:

Se escribe el usuario (por defecto "postgres")con derechos de creación de bases de datos y usuario, y su contraseña, inmediatamente se hace clic en Run Script, si no hay ningún error aparece un mensaje de éxito, en caso contrario un mensaje de error.

Si todo salió bien, se puede utilizar el software perfectamente.

El Acerca de muestra quienes son los desarrolladores, el director del proyecto; quienes aportaron de una o muchas maneras para que este software fuera una realidad; y la licencia del software.

__________________________________________________________________________

 

MINERÍA DE USO WEB (WEB USAGE MINING)

 

ÁREA DE HERRAMIENTAS

El área de herramientas que se observa es la que se utiliza para lograr armar el algoritmo de minería de uso.

Los Componentes Son:

CATEGORÍA WEB DATA SOURCE
En esta categoría están los elementos que son fuentes de datos web.

Web Server: Indica que la fuente de datos es un log de un servidor web.

CATEGORÍA PREPROCESS
Aquí se encuentran los elementos que se utilizan para hacer un previo proceso antes de realizar minería de datos.

Inter.Session: Indica que se realizara la transformación de la fuente a una sesión por intervalos.

GAP Session: La transformación de la fuente se hace a una sesión GAP, es decir, separación por tiempo muerto.

Discretize: Se hace una transformación de las sesiones en una nueva sesión necesaria para el modulo de clasificación.

CATEGORÍA DATA MINING
Los elementos de esta categoría son dos subcategorias que indican los modelos de minería de datos:

CATEGORÍA ASSOCIATION RULES
Se encuentran la colección de algoritmos de minería de datos que generan reglas de asociación.

A priori: Indica el elemento que genera reglas de asociación a través del algoritmo a priori.

FP Tree: Indica el elemento que genera reglas de asociación a través del algoritmo fp tree.

EquipAsso: Indica el elemento que genera reglas de asociación a través del algoritmo equipAsso.

CATEGORÍA CLASIFICATION
Colección de Algoritmos de Clasificación.

C4.5: Genera el árbol de decisión a través del algoritmo c4.5

Mate Tree: Genera el árbol de decisión a través del algoritmo Mate Tree.

CATEGORÍA WEB USAGE MINING
Técnicas de Minería desarrolladas para encontrar patrones de navegación, y así, aportar a la Minería Web de Uso

HPG: Gramática Probabilística de Hipertexto, algoritmo que permita generar un grafo del sitio donde sus arcos manejen un arco de dirección con probabilidad.

CATEGORÍA VIEWS
Las posibles vistas de la aplicación, dependiendo del elemento al que se conecten.

Table: Indica que la vista es una tabla de datos.

Tree: La vista que se genera es un árbol grafico vertical.

Stat: Es un elemento donde se muestran las posibles estadísticas de un log.

Grammar: Indica que la vista es un grafo donde se observara la gramática.

JTree: La vista que se genera es un árbol horizontal.

Rules: Es un elemento donde se muestra una listado de las reglas resultantes por un algoritmo.

HPGTable: Indica que la vista es una tabla de producciones HPG.

ÁREA DE TRABAJO
El área de trabajo es donde se arma el algoritmo de minería de uso con los elementos del área de herramientas, es decir, se arrastra el componente que se va a utilizar, a la posición que desee dentro del área de trabajo e inmediatamente aparecerá un nodo que identifica al componente.

NODO

Un nodo es un botón que identifica el elemento arrastrado de la barra de herramientas, este posee el nombre y un icono que lo identifica.

Cada nodo posee diferentes opciones al hacer clic derecho sobre este:

Move: Da la opción de ubicar el nodo en una nueva posición.

Delete: Se elimina el nodo del área de trabajo.

Add Connection: Adhiere una conexión con un nodo con el cual sea valido conectarse. (Web Server no tiene esta opción)

Remove Connection: Elimina la conexión que tenga este nodo.

Settings: Si el nodo requiere de configuración aparece esta opción.

Run: Se ejecuta la función del nodo.

CONEXIÓN

Una conexión se realiza dando clic derecho en el nodo que desea, y escoger la opción Add Connection, y luego escogiendo el nodo con el que se va a conectar.

La conexión se hace de un nodo que desea recibir la información de un nodo previo, siempre y cuando el nodo previo sea válido.

A continuación un listado de los nodos que pueden hacer conexión y sus posibles nodos previos:
           

NODOS

Se conecta con…

Inter.Session

Web Server

GAP.Session

Web Server

Discretize

Inter.Session
GAP.Session

Apriori

Inter.Session
GAP.Session

FpTree

Inter.Session
GAP.Session

EquipAsso

Inter.Session
GAP.Session

C4.5

Discretize

Mate Tree

Discretize

HPG

Inter.Session
GAP.Session

Table

Web Server
Inter.Session
GAP.Session
Discretize

Tree

C4.5
Mate Tree

Stat

Web Server

Grammar

HPG

JTree

C4.5
Mate Tree

Rules

Apriori
Fp Tree
EquipAsso
C4.5
Mate Tree

HPGTable

HPG

 

CAMBIOS DE ESTADO DE UN NODO
Un nodo tiene 3 Estados (los nodos de vista tienen dos) y durante la modificación del mismo hace el cambio de estado.
Este cambio se observa, así:

Rojo:

No se ha realizado ninguna modificación al nodo.

Amarillo:

La configuración del nodo se ha realizado.

Verde

El nodo ha sido ejecutado.

 

____________________________________________________________________________________________________________________________________

 

MINERÍA DE ESTRUCTURA WEB (WEB STRUCTURE MINING)

ÁREA DE HERRAMIENTAS

El área de herramientas que se observa es la que se utiliza para lograr armar el algoritmo de minería de estructura.

Los componentes son:

CATEGORÍA WEB DATA SOURCE
En esta categoría están los elementos que son fuentes de datos Web.

Crawler: Sirve para recuperarla información Web en tiempo real partiendo desde una URL semilla la cual es ingresada por el usuario.

Data Base: Sirve para realizar el análisis de estructura Web a una URL especifica la cual previamente fue almacenada en la base de datos.

TXT: Sirve para cargar documentos .TXT, el cual debe cumplir con un formato especifico exigido por la herramienta, en el que se encuentran las paginas, los enlaces y el tipo de enlace.

CATEGORÍA PREPROCESS
Aquí se encuentran los elementos que se utilizan para hacer un previo filtro de enlaces antes de aplicar los algoritmos de minería de estructura Web.

Links:  Este nodo permite seleccionar el tipo de enlaces con los cuales se desea trabajar, cualquier tipo de combinación es posible para facilidad del usuario.

CATEGORÍA WEB STRUCTURE MINING
Técnicas de Minería desarrolladas para encontrar grafos de la estructura Web, y así, aportar a la Minería Web de Estructura.

Page Rank: Algoritmo que permita otorgar valores a los enlaces dependiendo de un grado de certeza y una cantidad de iteraciones.

Hits: Algoritmo que permite calcular el valor de una página Web desde el punto de vista de un centro y una autoridad.

Web Linker: Algoritmo que permite dar un valor de uno a diez a las páginas Web dependiendo de su cantidad de enlaces totales. 

Dijkstra: Algoritmo que genera un grafo en el cual se marcan dos nodos y toma la ruta óptima para llegar del nodo origen al nodo destino.

CATEGORÍA GRAPH VIEW
Esta categoría encierra las diferentes formas de visualizar la información cargada en la categoría del Web Data Source.

Graph: Esta vista muestra la red como un grafo dirigido, dependiendo de los filtros y parámetros que se hayan seleccionado.

Radial: En esta vista se observa la red como un grafo radial, agrupado y ordenado por niveles.

Domain: La forma de representar el grafo esta vista es de manera agrupada por los diferentes Host donde se encuentra almacenada la información.

CATEGORÍA VIEWS
Son formas de visualizar la información final, la cual es útil para el usuario en el sentido de mejorar la navegabilidad de la pagina Web.

Table: Se presenta la información textual, los enlaces y destinos de cada página Web, así como el valor calculado por los algoritmos para cada una de las páginas.

Tree: Presenta el grafo de la Web en forma de un árbol.

ÁREA DE TRABAJO
El área de trabajo es donde se arma el algoritmo de minería de estructura con los elementos del área de herramientas, es decir, se arrastra el componente que se va a utilizar, a la posición que desee dentro del área de trabajo e inmediatamente aparecerá un nodo que identifica al componente.

NODO

Un nodo es un botón que identifica el elemento arrastrado de la barra de herramientas, este posee el nombre y un icono que lo identifica.

Cada nodo posee diferentes opciones al hacer clic derecho sobre este:

Settings: Si el nodo requiere de configuración aparece esta opción.

Delete: Se elimina el nodo del área de trabajo.

Save as TXT: Permite guardar la información en un documento de formato .txt

Run: Se ejecuta la función del nodo.

Add Connection: Adhiere una conexión con un nodo con el cual sea valido conectarse.

Remove Connection: Elimina la conexión que tenga este nodo.

View: Genera el grafo para ser visualizado.

Save in data Base: Permite guardar los datos en la base de datos de la herramienta.

Open From Data Base: Carga los datos desde la base de datos de la herramienta.

CONEXIÓN

 

Una conexión se realiza dando clic derecho en el nodo que desea, y escoger la opción Add Connect, y luego escogiendo el nodo con el que se va a conectar.

La conexión se hace de un nodo que desea recibir la información de un nodo previo, siempre y cuando el nodo previo sea válido.

A continuación un listado de los nodos que pueden hacer conexión y sus posibles nodos previos:           

NODOS

SE CONECTA CON…

Links

Crawler
Data Base
Txt

 

Graph

Links
Page Rank
Hits
Web Linker

Radial

Links
Page Rank
Hits
Web Linker

Domain

Links
Page Rank
Hits
Web Linker

Page Rank

Links

Hits

Links

Web Linker

Links

Dijkstra

Links
Page Rank
Web Linker
Hits

Tree

Links
Page Rank
Hits
Web Linker
Dijkstra

Table

Links
Page Rank
Hits
Web Linker
Dijkstra

 

CAMBIOS DE ESTADO DE UN NODO
Un nodo tiene 3 Estados (los nodos de vista tienen un solo estado) y durante la modificación del mismo hace el cambio de estado.  Este cambio se observa en el icono del nodo, así:

Rojo:

No se ha realizado ninguna modificación al nodo.

Amarillo:

La configuración del nodo se ha realizado.

Verde:

El nodo ha sido ejecutado.

 

____________________________________________________________________________________________________________________________________

 

ANÁLISIS ESTADÍSTICO DE TRÁFICO WEB (WEB STATISTICS)

 

ÁREA DE HERRAMIENTAS

tree3

El área de herramientas que se observa es la que se utiliza para lograr relizar un análisis completo de tráfico web.

Los Componentes Son:

CATEGORÍA WEB DATA SOURCE
En esta categoría están los elementos que son fuentes de datos web.

Web Server: Indica que la fuente de datos es un log de un servidor web.

CATEGORÍA PREPROCESS
Aquí se encuentran los elementos que se utilizan para hacer un previo proceso antes de realizar el análisis estadístico.

Session: Indica que se realizara un proceso de sesionalización por intervalos o por timeout.

CATEGORÍA STATISTICS
Los elementos de esta categoría permiten realizar diferentes proceso de generación de estadísticas de tráfico web, aqui se encuentran las siguientes subcategorias:

ACTIVITY STATISTICS
Se encuentran las utilidades que permiten generar generar estadísticas por dia, estdísticas por fecha y estadísticas por horas:

Activity Statistics by Date.

Activity Statistics by Day.

Activity Statistics by Hour.

ACCES STATISTICS
Se encuentran las utilidades que permiten generar estadísticas relacionadas con los archivos solicitados, las extensiones de los archivos y los tipos de archivos:

Access Statistics.

File Type.

UNIQUE IPs
Esta utilidad permite generar estadisticas sobre las direcciones IP desde las que se accedio al sitio web:

Hosts.

HTTP STATUS CODES
Esta utilidad permite obtener estaditicas relacionadas con los codigos de estado http:

Codes Statistics.

USER AGENT STATISTICS
Se encuentran las utilidades que permiten obtener estaditicas relacionadas con los agentes de usuario, sitemas opertativos, navegadores web, robots, crawlers y otras aplicaciones que acceden a la web:

User Agents Types.

Operating Systems.

Browsers.

Crawlers.

Others.

REFERRER STATISTICS
Se encuentran las utilidades que permiten obtener estaditicas relacionadas con los motores de búsqueda y palabras utilizadas en la búsqueda, dominios y sitios web de los cuales proceden las visitas:

Domains.

Search Engines.

Referring Sites.

Search Words.

CATEGORÍA VIEWS
Los elementos de esta categoría permiten visualizar los resultados obtenidos en un formato de tabla y mediate gráficos estadisticos:

Table.

Chart.

ÁREA DE TRABAJO
El área de trabajo es donde se organizan los elementos del área de herramientas, es decir, se arrastra el componente que se va a utilizar, a la posición que desee dentro del área de trabajo e inmediatamente aparecerá un nodo que identifica al componente.

NODO

Un nodo es un botón que identifica el elemento arrastrado de la barra de herramientas, este posee el nombre y un icono que lo identifica.

Cada nodo posee diferentes opciones al hacer clic derecho sobre este:

pm1

pm2

pm3

 

Delete: Se elimina el nodo del área de trabajo.

Add Connection: Adhiere una conexión con un nodo con el cual sea valido conectarse. (Web Server no tiene esta opción)

Open File: Abrir archivos log.

Remove Connection: Elimina la conexión que tenga este nodo.

Settings: Si el nodo requiere de configuración aparece esta opción.

Run: Se ejecuta la función del nodo.

CONEXIÓN

con111

Una conexión se realiza haciendo clic derecho en el nodo que desea, y escoger la opción Add Connection, y luego escogiendo el nodo con el que se va a conectar.

La conexión se hace de un nodo que desea recibir la información de un nodo previo, siempre y cuando el nodo previo sea válido.

A continuación un listado de los nodos que pueden hacer conexión y sus posibles nodos previos:
           

NODOS

Se conecta con…

Nodo Session

Nodo Web Server

Nodos tipo STATISTICS

Nodo session

Nodo Chart

Nodos tipo STATISTICS

Nodo Table

Nodos tipo STATISTICS

Nodo Session

 

CAMBIOS DE ESTADO DE UN NODO
Un nodo tiene 3 Estados (los nodos de vista tienen dos) y durante la modificación del mismo hace el cambio de estado.
Este cambio se observa, así:

Rojo:

No se ha realizado ninguna modificación al nodo.

Amarillo:

La configuración del nodo se ha realizado.

Verde

El nodo ha sido ejecutado.