Second Provenance Challenge -- CESNET | ||||||||
| Line: 293 to 293 | ||||||||
|---|---|---|---|---|---|---|---|---|
| ||||||||
| Changed: | ||||||||
| < < |
| |||||||
| > > |
| |||||||
| ||||||||
Second Provenance Challenge -- CESNET | ||||||||
| Line: 497 to 497 | ||||||||
|---|---|---|---|---|---|---|---|---|
MyGrid | ||||||||
| Changed: | ||||||||
| < < |
| |||||||
| > > |
| |||||||
Karma | ||||||||
Second Provenance Challenge -- CESNET | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 244 to 244 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Changed: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
Modified workflow -- TODO | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Modified workflow Not addressed in this challenge. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Model Integration Results | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 364 to 365 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Changed: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
MindSwap? | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
MINDSWAP | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Changed: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
TODO | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Import graph | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Provenance Query summary: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Heterogeneous workflows | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 398 to 409 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Deleted: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
ES3-CESNET-KarmaTODO | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ES3-MyGrid-SDG | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Changed: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
TODO | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Import graph Provenance Query summary: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
MyGrid-ES3-SDG | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Changed: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
TODO | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Import graph
The graph contains number of "producer" nodes from MyGrid.
Provenance Query summary:
Karma-SDG2-MINDSWAP2Import graph Provenance Query summary: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Translation Details | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 463 to 509 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
SDG | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Changed: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
TODO | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Changed: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
MindSwap? | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
MINDSWAP | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Changed: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
TODO | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BenchmarksDescribe your proposed benchmark queries, how the comparable quantities are determined, and the results of applying the benchmark to your own system | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
On Fri, 22 Jun 2007, Simon Miles wrote: There is nothing particular to prepare for this prior to the workshop, though having thought about possible suitable scenarios or queries that would make suitable benchmarks would be welcome when we come to discuss it. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Further CommentsProvide here further comments. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 519 to 571 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Second Provenance Challenge -- CESNET | ||||||||
| Line: 51 to 51 | ||||||||
|---|---|---|---|---|---|---|---|---|
Query implementation | ||||||||
| Added: | ||||||||
| > > |
The queries implementation remains unchaged as implemented for the first challenge except small adaptations described in next paragraphs. | |||||||
Executable namingThe First Challenge query scripts used hardcoded executable names. | ||||||||
Second Provenance Challenge -- CESNET | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 15 to 15 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Note here any changes in your provenance representation, workflow enactment or system since the first challenge. Alternatively, if you did not participate in the first challenge, please provide the same details as were required for those who did (particularly workflow representation and provenance representation). | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Implicit workflow representation | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| The CESNET implementation of the First Provenance Challenge relied on an explicit representation of workflow structure that was extracted from the native workflow representation in gLite -- dependencies among | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 26 to 28 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Instead, dependence between two workflow processes is inherited from data:
Process A is makred as ancestor of B (and vice versa, B is successor
of A) if there is a data file F that is output of A and input of B.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Logical filenames are considered for this purpose
(name in the file elements in the format definition bellow, not
physical filenames -- content of url elements).
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| For the purpose the challenge we implement this process in | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Changed: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
an external ``sew'' script. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
an external "sew" script. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| The script is seeded with one or more identifiers of processes, it queries recursively JP, data dependences (common input-output files) are traversed | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 44 to 49 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| The mechanism of generating such notifications is already available in JP. It is used in the communication of JP Primary storage and JP Index server. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Query implementationExecutable namingThe First Challenge query scripts used hardcoded executable names. This was not a problem, the names matched exactly the values recorded by our implementation of the workflow. However, the naming varies among the teams, eg. it may or may not contain absolute path to the executable. Therefore the scripts had to be parametrized to be run with the names appropriate for the particular data sourceTimestampsJP starts gatering data on a job virtually at the same time the job is submitted to the Grid. Therefore, during the First Challenge, we could have used times of job registration with JP to approximate the job run time quite accurately. (Queries on the exact execution time were not implemented in JP that time.) This is not true anymore in the Second Challenge. The job is registered with JP when the data are imported, ie. typically much later wrt. its real execution. The query scripts were adjusted to use the true execution time. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Provenance Data for Workflow PartsGive links here to your provenance data files for the workflow parts of the challenge: three parts for the original workflow and three parts for the modified workflow (as per provenance query 7). The data files could be attached to the results page. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 203 to 234 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| with the exception of IPAW_INPUT and IPAW_OUTPUT which are mapped specifically in this format. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Deleted: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| < < |
Process vs. data provenanceTODO | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Full workflow dataOriginal workflow | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 253 to 281 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ES3 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Import graph
Provenance Query summary:
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Karma | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Import graph More complicated due to duplicated arcs. This is caused by using different logical names for .img and .hdr pairs of files (unlike CESNET format which groups them together under a single logical name). Otherwise the graph matches expectations exactly. Provenance Query summary: TODO: more comments on Q9 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
MyGrid | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Import graph
The graph contains number of "producer" nodes (see Translation Details bellow),
a manually adjusted version (by removing these nodes)
meets the expectation.
Provenance Query summary:
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
SDG | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Import graph
The graph contains the first row of "producer" jobs, otherwise it matches expectations.
Provenance Query summary:
MindSwap?TODO | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Heterogeneous workflows | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Most of the challenge queries are affected by availability of data in
a particular part of the workflow. Therefore, in general, the results of heterogeneous
queries follow the results of the homogeneous queries on the involved provenance
system.
In particular:
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CESNET-Karma-SDG | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
Import graph Provenance Query summary: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ES3-CESNET-Karma | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
TODO | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ES3-MyGrid-SDG | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
TODO | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
MyGrid-ES3-SDG | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
TODO | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Translation DetailsDescribe details regarding how data models were translated (or otherwise used to answer the query following the team's approach), any data which was absent from a downloaded model, and whether this affected the possibility of translation or successful provenance query, and any data which was excluded in translation from a downloaded model because it was extraneous | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 295 to 433 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
JP assigns job owner to each process (X509 certificate subject). There seems be no analogy in the other formats, therefore we supplied the value as parameter of the translators. Most of the formats don't include explicitly information on the part of the workflow (that matches the notion of stage in our format). This was also supplied as an additional parameter of the translator. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ES3 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
MyGrid | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Karma | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
SDG | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
TODO | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
MindSwap? | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
TODO | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BenchmarksDescribe your proposed benchmark queries, how the comparable quantities are determined, and the results of applying the benchmark to your own system | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 317 to 478 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Provide here your conclusions on the challenge, and issues that you like to see discussed at a face to face meeting. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
TODO (ljocha) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| -- SimonMiles - 26 Oct 2006 -- AlesKrenek - 19 Feb 2007 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Line: 324 to 487 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Added: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| > > |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Second Provenance Challenge -- CESNET | ||||||||
| Line: 7 to 7 | ||||||||
|---|---|---|---|---|---|---|---|---|
Participating Team
| ||||||||
| Changed: | ||||||||
| < < |
| |||||||
| > > |
| |||||||
| ||||||||
| Line: 15 to 15 | ||||||||
| Note here any changes in your provenance representation, workflow enactment or system since the first challenge. Alternatively, if you did not participate in the first challenge, please provide the same details as were required for those who did (particularly workflow representation and provenance representation). | ||||||||
| Added: | ||||||||
| > > |
The CESNET implementation of the First Provenance Challenge relied
on an explicit representation of workflow structure that was extracted from
the native workflow representation in gLite -- dependencies among
DAG subjobs specified by the user on its submission.
These dependencies were decoded and recorded as ancestor and successor
attributes of the DAG subjobs and used for query implmentation.
This restriction is relaxed in the Second Challenge.
Instead, dependence between two workflow processes is inherited from data:
Process A is makred as ancestor of B (and vice versa, B is successor
of A) if there is a data file F that is output of A and input of B.
For the purpose the challenge we implement this process in
an external ``sew'' script.
The script is seeded with one or more identifiers of processes,
it queries recursively JP,
data dependences (common input-output files) are traversed
in both directions until the complete graph closure is found.
The found dependences are recorded with processes
in terms of ancestor and successor attributes of the first challenge;
then the challenge queries implementation remains unchaged in this sense.
Currently the script is invoked on demand. However, it can be transformed into
a part of the JP infrastructure -- an agent which subscribes for receiving
notifications on input/output file assignments to processes, and generates
the workflow dependencies automatically.
The mechanism of generating such notifications is already available in JP.
It is used in the communication of JP Primary storage and JP Index server.
| |||||||
Provenance Data for Workflow PartsGive links here to your provenance data files for the workflow parts of the challenge: three parts for the original workflow and three parts for the modified workflow (as per provenance query 7). The data files could be attached to the results page. | ||||||||
| Line: 32 to 61 | ||||||||
| An export utility used to generate the exchange files with JP queries is available here. | ||||||||
| Deleted: | ||||||||
| < < |
Currently we are working on implementation of an import plugin, a loadable module that would take this format and let JP understand it directly. See JP references given at the First Challenge page for details. | |||||||
Commented exampleHere we show an example of the data format. | ||||||||
| Line: 192 to 217 | ||||||||
Model Integration Results | ||||||||
| Changed: | ||||||||
| < < |
State here which combinations of teams' models you have managed to perform the provenance query over | |||||||
| > > |
In order to get better understanding of the issues of translations between the
provenance data models we extend the challenge specification into two stages:
The translation and import processTranslation and eventual combination of the provenance data (see Translation tools bellow) is done in the following steps:
softmean inputs/outputs is necessary to trigger inheriting
dependences. If all the provenance systems gathered data on the same workflow execution,
the matching filenames in all the parts of the workflow would be the same either.
Similarly adding the unique suffix to all filenames allows us to run multiple imports
on the same input data without the need to purge the JP database between the attempts.
The same holds for assigning the new unique id's to the imported processes in step 4.
Step 6, as its side effect, produces a graph representation of the imported data.
These graphs are shown in the result section bellow.
Homogeneous workflowsES3KarmaMyGridSDGHeterogeneous workflowsCESNET-Karma-SDGES3-CESNET-KarmaES3-MyGrid-SDGMyGrid-ES3-SDG | |||||||
Translation DetailsDescribe details regarding how data models were translated (or otherwise used to answer the query following the team's approach), any data which was absent from a downloaded model, and whether this affected the possibility of translation or successful provenance query, and any data which was excluded in translation from a downloaded model because it was extraneous | ||||||||
| Added: | ||||||||
| > > |
Sections bellow briefly describe issues that raised from translating the particular provenance system
data, and importing them into JP.
The list is not complete wrt. all the participating teams.
We were not able to put the necessary effort into evaluation of all,
we have chosen more or less random sample,
based on a very subjective and brief view on the provided data.
Therefore we are not able to provide any serious assessment of the data formats
of systems that are not listed in this section.
Translation toolsFor the sake of easy repeatablity of the experiments with data translations we implemented fully automated procedures for translating the data formats and importing the results into JP. This is done for both homogeneous and heterogeneous workflows. Our CVS repository is organized as follows:
ES3MyGridKarmaSDGMindSwap? | |||||||
BenchmarksDescribe your proposed benchmark queries, how the comparable quantities are determined, and the results of applying the benchmark to your own system | ||||||||
Second Provenance Challenge -- CESNET | ||||||||||
| Line: 83 to 83 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|
|
<!-- user annotations, including Challenge-specific; only the latter are shown -->
| ||||||||||
| Changed: | ||||||||||
| < < |
| |||||||||
| > > |
| |||||||||
| Line: 167 to 182 | ||||||||||
TODO
Full workflow data | ||||||||||
| Added: | ||||||||||
| > > |
Original workflow | |||||||||
| Changed: | ||||||||||
| < < |
TODO | |||||||||
| > > |
Modified workflow -- TODO | |||||||||
Model Integration Results | ||||||||||
| Line: 194 to 214 | ||||||||||
| -- AlesKrenek - 19 Feb 2007 | ||||||||||
| Added: | ||||||||||
| > > |
| |||||||||
| Line: 1 to 1 | ||||||||
|---|---|---|---|---|---|---|---|---|
| Added: | ||||||||
| > > |
Second Provenance Challenge -- CESNETParticipating Team
Differences from First ChallengeNote here any changes in your provenance representation, workflow enactment or system since the first challenge. Alternatively, if you did not participate in the first challenge, please provide the same details as were required for those who did (particularly workflow representation and provenance representation).Provenance Data for Workflow PartsGive links here to your provenance data files for the workflow parts of the challenge: three parts for the original workflow and three parts for the modified workflow (as per provenance query 7). The data files could be attached to the results page.Challenge data formatFor the purpose of the Challenge, data are exported from Job Provenance in an XML format conforming to a schema available here. The format is custom-made specifically for the Challenge in order to facilitate the data exchange with other teams, however, it is a full-featured export format from Job Provenance:
Commented exampleHere we show an example of the data format. This example was hand-edited for the sake of better readablility.
<?xml version="1.0"?>
<workflow xmlns="http://egee.cesnet.cz/en/Schema/JP/Challenge2">
<exportedStages>1 2</exportedStages>
<job id="https://skurut1.cesnet.cz:9000/yM3sz8v6WCIPgi5-0m8L4w">
<owner>/DC=cz/DC=cesnet-ca/O=Masaryk University/CN=Ales Krenek</owner>
<regtime>2006-07-11T12:22:34</regtime>
<!-- input and output files of this job -->
<inputs>
<file name="urn:challenge:anatomy1.img">
<url>gsiftp://umbar.ics.muni.cz:1414/home/mulac/pch06/anatomy1.img</url>
<url>gsiftp://umbar.ics.muni.cz:1414/home/mulac/pch06/anatomy1.hdr</url>
</file>
</inputs>
<outputs>
<file name="urn:challenge:anatomy1_yM3sz8v6WCIPgi5-0m8L4w.warp">
<url>gsiftp://umbar.ics.muni.cz:1414/home/mulac/pch06/anatomy1_yM3sz8v6WCIPgi5-0m8L4w.warp</url>
</file>
</outputs>
<!-- workflow structure: jobs that preceed and follow this one in the workflow -->
<ancestors>
<!-- empty for stage 1 -->
</ancestors>
<successors>
<!-- note the reference to the other job bellow -->
<jobid>https://skurut1.cesnet.cz:9000/wdWQHL0-RXkd3VeNcSrTaw</jobid>
</successors>
<!-- gLite middleware processing and job execution details -->
<gliteJobRecord>
<!-- omitted for readability -->
</gliteJobRecord>
<!-- user annotations, including Challenge-specific; only the latter are shown -->
<annotations>
<annotation name="http://egee.cesnet.cz/en/WSDL/jp-lbtag:IPAW_STAGE">1</annotation>
<annotation name="http://egee.cesnet.cz/en/WSDL/jp-lbtag:IPAW_PROGRAM">align_warp</annotation>
<annotation name="http://egee.cesnet.cz/en/WSDL/jp-lbtag:IPAW_PARAM">-m 12</annotation>
<annotation name="http://egee.cesnet.cz/en/WSDL/jp-lbtag:IPAW_PARAM">-q</annotation>
<annotation name="http://egee.cesnet.cz/en/WSDL/jp-lbtag:IPAW_HEADER">global_maximum=4095</annotation>
</annotations>
</job>
<job id="https://skurut1.cesnet.cz:9000/wdWQHL0-RXkd3VeNcSrTaw">
<!-- another job in the workflow, omitted -->
</job>
<!-- further jobs follow -->
</workflow>
The root element of the file is workflow, correstponding to an entire exported workflow
or its parts as given by the Challenge definition. The stages present in this file
are listed in exportedStages.
Further second level elements are job 's, representing the individual processes
in the workflow. Each one is assigned a unique ID already when processed by the gLite middleware.
Besides general metadata (owner and registration time) the data can be organized in
the following sections:
Inputs and outputs
file elements refer to concrete inputs and outputs of the job.
The attribute name is a URI identifying the particular file uniquely.
As we didn't follow any given file naming scheme in Challenge 1,
custom urn: 's are shown in the example. However, any suitable
file identifier can be used instead.
File name of input of the shown job has now suffix as it is the input
of the entire workflow and only a single set of inputs was given.
On the contrary, the output file name contains a unique suffix,
suggesting that this file was generated by a particular workflow run.
As some of the files in the Challenge workflow are collections of files in fact (.img and .hdr files),
we use nested url 's (that may occur multiple times) to denote also physical file locations.
Workflow structure
Structure of the workflow is denoted by links between job 's using
their unique identifiers, and grouped in ancestors and successors.
These links are present in the exported format regardless their
targets are exported in this part of the workflow or not.
The links are sufficient to "stitch" together separately exported workflow parts
in a unique and reliable way.
However, if they are not available explicitely, they can be still
reconstructed by searching matching inputs and outputs of the jobs.
Job processing details
gliteJobRecord contains details on processing the job in gLite middleware.
It conforms to the schema originally
defined for the purpose of computing job statistics in EGEE project.
These data are virtually irrelevant for the Challenge, therefore they are omitted in
this example. However, they are present in the full exported data bellow.
The contained elements are either described within the schema or they are self-explanatory.
User annotations
JP allows the user to add arbitrary "namespace:name = value" annotations to the job,
while "value" can have arbitrary complex XML structure.
The same "name" can also occur multiple times.
The annotations can be added either during job execution (usually via L&B, the gLite
service that tracks the job during its active life), or later via native JP interface.
The annotations of particular interest for the Challenge are shown above.
They correspond to tags recorded and described in Challenge 1,
with the exception of IPAW_INPUT and IPAW_OUTPUT which are mapped specifically
in this format.
Process vs. data provenanceTODOFull workflow dataTODOModel Integration ResultsState here which combinations of teams' models you have managed to perform the provenance query overTranslation DetailsDescribe details regarding how data models were translated (or otherwise used to answer the query following the team's approach), any data which was absent from a downloaded model, and whether this affected the possibility of translation or successful provenance query, and any data which was excluded in translation from a downloaded model because it was extraneousBenchmarksDescribe your proposed benchmark queries, how the comparable quantities are determined, and the results of applying the benchmark to your own systemFurther CommentsProvide here further comments.ConclusionsProvide here your conclusions on the challenge, and issues that you like to see discussed at a face to face meeting. -- SimonMiles - 26 Oct 2006 -- AlesKrenek - 19 Feb 2007 | |||||||