]> ocean-lang.org Git - ocean/blob - csrc/oceani.mdc
oceani: add array type.
[ocean] / csrc / oceani.mdc
1 # Ocean Interpreter - Stoney Creek version
2
3 Ocean is intended to be a compiled language, so this interpreter is
4 not targeted at being the final product.  It is, rather, an intermediate
5 stage and fills that role in two distinct ways.
6
7 Firstly, it exists as a platform to experiment with the early language
8 design.  An interpreter is easy to write and easy to get working, so
9 the barrier for entry is lower if I aim to start with an interpreter.
10
11 Secondly, the plan for the Ocean compiler is to write it in the
12 [Ocean language](http://ocean-lang.org).  To achieve this we naturally
13 need some sort of boot-strap process and this interpreter - written in
14 portable C - will fill that role.  It will be used to bootstrap the
15 Ocean compiler.
16
17 Two features that are not needed to fill either of these roles are
18 performance and completeness.  The interpreter only needs to be fast
19 enough to run small test programs and occasionally to run the compiler
20 on itself.  It only needs to be complete enough to test aspects of the
21 design which are developed before the compiler is working, and to run
22 the compiler on itself.  Any features not used by the compiler when
23 compiling itself are superfluous.  They may be included anyway, but
24 they may not.
25
26 Nonetheless, the interpreter should end up being reasonably complete,
27 and any performance bottlenecks which appear and are easily fixed, will
28 be.
29
30 ## Current version
31
32 This second version of the interpreter exists to test out the
33 structured statement providing conditions and iteration, and simple
34 variable scoping.  Clearly we need some minimal other functionality so
35 that values can be tested and instructions iterated over.  All that
36 functionality is clearly not normative at this stage (not that
37 anything is **really** normative yet) and will change, so early test
38 code will certainly break in later versions.
39
40 The under-test parts of the language are:
41
42  - conditional/looping structured statements
43  - the `use` statement which is needed for that
44  - Variable binding using ":=" and "::=", and assignment using "=".
45
46 Elements which are present to make a usable language are:
47
48  - "blocks" of multiple statements.
49  - `pass`: a statement which does nothing.
50  - expressions: `+`, `-`, `*`, `/`, `%` can apply to numbers and `++` can
51    catenate strings.  `and`, `or`, `not` manipulate Booleans, and
52    normal comparison operators can work on all three types.
53  - `print`: will print the values in a list of expressions.
54  - `program`: is given a list of identifiers to initialize from
55    arguments.
56
57 ## Naming
58
59 Versions of the interpreter which obviously do not support a complete
60 language will be named after creeks and streams.  This one is Stoney
61 Creek.
62
63 Once we have something reasonably resembling a complete language, the
64 names of rivers will be used.
65 Early versions of the compiler will be named after seas.  Major
66 releases of the compiler will be named after oceans.  Hopefully I will
67 be finished once I get to the Pacific Ocean release.
68
69 ## Outline
70
71 As well as parsing and executing a program, the interpreter can print
72 out the program from the parsed internal structure.  This is useful
73 for validating the parsing.
74 So the main requirements of the interpreter are:
75
76 - Parse the program, possibly with tracing,
77 - Analyse the parsed program to ensure consistency,
78 - Print the program,
79 - Execute the program.
80
81 This is all performed by a single C program extracted with
82 `parsergen`.
83
84 There will be two formats for printing the program: a default and one
85 that uses bracketing.  So a `--bracket` command line option is needed
86 for that.  Normally the first code section found is used, however an
87 alternate section can be requested so that a file (such as this one)
88 can contain multiple programs This is effected with the `--section`
89 option.
90
91 This code must be compiled with `-fplan9-extensions` so that anonymous
92 structures can be used.
93
94 ###### File: oceani.mk
95
96         myCFLAGS := -Wall -g -fplan9-extensions
97         CFLAGS := $(filter-out $(myCFLAGS),$(CFLAGS)) $(myCFLAGS)
98         myLDLIBS:= libparser.o libscanner.o libmdcode.o -licuuc
99         LDLIBS := $(filter-out $(myLDLIBS),$(LDLIBS)) $(myLDLIBS)
100         ## libs
101         all :: $(LDLIBS) oceani
102         oceani.c oceani.h : oceani.mdc parsergen
103                 ./parsergen -o oceani --LALR --tag Parser oceani.mdc
104         oceani.mk: oceani.mdc md2c
105                 ./md2c oceani.mdc
106
107         oceani: oceani.o $(LDLIBS)
108                 $(CC) $(CFLAGS) -o oceani oceani.o $(LDLIBS)
109
110 ###### Parser: header
111         ## macros
112         ## ast
113         struct parse_context {
114                 struct token_config config;
115                 char *file_name;
116                 int parse_error;
117                 ## parse context
118         };
119
120 ###### macros
121
122         #define container_of(ptr, type, member) ({                      \
123                 const typeof( ((type *)0)->member ) *__mptr = (ptr);    \
124                 (type *)( (char *)__mptr - offsetof(type,member) );})
125
126         #define config2context(_conf) container_of(_conf, struct parse_context, \
127                 config)
128
129 ###### Parser: code
130
131         #include <unistd.h>
132         #include <stdlib.h>
133         #include <fcntl.h>
134         #include <errno.h>
135         #include <sys/mman.h>
136         #include <string.h>
137         #include <stdio.h>
138         #include <locale.h>
139         #include <malloc.h>
140         #include "mdcode.h"
141         #include "scanner.h"
142         #include "parser.h"
143
144         ## includes
145
146         #include "oceani.h"
147
148         ## forward decls
149         ## value functions
150         ## ast functions
151         ## core functions
152
153         #include <getopt.h>
154         static char Usage[] = "Usage: oceani --trace --print --noexec --brackets"
155                               "--section=SectionName prog.ocn\n";
156         static const struct option long_options[] = {
157                 {"trace",     0, NULL, 't'},
158                 {"print",     0, NULL, 'p'},
159                 {"noexec",    0, NULL, 'n'},
160                 {"brackets",  0, NULL, 'b'},
161                 {"section",   1, NULL, 's'},
162                 {NULL,        0, NULL, 0},
163         };
164         const char *options = "tpnbs";
165         int main(int argc, char *argv[])
166         {
167                 int fd;
168                 int len;
169                 char *file;
170                 struct section *s;
171                 char *section = NULL;
172                 struct parse_context context = {
173                         .config = {
174                                 .ignored = (1 << TK_line_comment)
175                                          | (1 << TK_block_comment),
176                                 .number_chars = ".,_+-",
177                                 .word_start = "_",
178                                 .word_cont = "_",
179                         },
180                 };
181                 int doprint=0, dotrace=0, doexec=1, brackets=0;
182                 struct exec **prog;
183                 int opt;
184                 while ((opt = getopt_long(argc, argv, options, long_options, NULL))
185                        != -1) {
186                         switch(opt) {
187                         case 't': dotrace=1; break;
188                         case 'p': doprint=1; break;
189                         case 'n': doexec=0; break;
190                         case 'b': brackets=1; break;
191                         case 's': section = optarg; break;
192                         default: fprintf(stderr, Usage);
193                                 exit(1);
194                         }
195                 }
196                 if (optind >= argc) {
197                         fprintf(stderr, "oceani: no input file given\n");
198                         exit(1);
199                 }
200                 fd = open(argv[optind], O_RDONLY);
201                 if (fd < 0) {
202                         fprintf(stderr, "oceani: cannot open %s\n", argv[optind]);
203                         exit(1);
204                 }
205                 context.file_name = argv[optind];
206                 len = lseek(fd, 0, 2);
207                 file = mmap(NULL, len, PROT_READ, MAP_SHARED, fd, 0);
208                 s = code_extract(file, file+len, NULL);
209                 if (!s) {
210                         fprintf(stderr, "oceani: could not find any code in %s\n",
211                                 argv[optind]);
212                         exit(1);
213                 }
214
215                 ## context initialization
216
217                 if (section) {
218                         struct section *ss;
219                         for (ss = s; ss; ss = ss->next) {
220                                 struct text sec = ss->section;
221                                 if (sec.len == strlen(section) &&
222                                     strncmp(sec.txt, section, sec.len) == 0)
223                                         break;
224                         }
225                         if (ss)
226                                 prog = parse_oceani(ss->code, &context.config,
227                                                     dotrace ? stderr : NULL);
228                         else {
229                                 fprintf(stderr, "oceani: cannot find section %s\n",
230                                         section);
231                                 exit(1);
232                         }
233                 } else
234                         prog = parse_oceani(s->code, &context.config,
235                                     dotrace ? stderr : NULL);
236                 if (!prog) {
237                         fprintf(stderr, "oceani: fatal parser error.\n");
238                         context.parse_error = 1;
239                 }
240                 if (prog && doprint)
241                         print_exec(*prog, 0, brackets);
242                 if (prog && doexec && !context.parse_error) {
243                         if (!analyse_prog(*prog, &context)) {
244                                 fprintf(stderr, "oceani: type error in program - not running.\n");
245                                 exit(1);
246                         }
247                         interp_prog(*prog, argv+optind+1);
248                 }
249                 if (prog) {
250                         free_exec(*prog);
251                         free(prog);
252                 }
253                 while (s) {
254                         struct section *t = s->next;
255                         code_free(s->code);
256                         free(s);
257                         s = t;
258                 }
259                 ## free context vars
260                 ## free context types
261                 exit(context.parse_error ? 1 : 0);
262         }
263
264 ### Analysis
265
266 The four requirements of parse, analyse, print, interpret apply to
267 each language element individually so that is how most of the code
268 will be structured.
269
270 Three of the four are fairly self explanatory.  The one that requires
271 a little explanation is the analysis step.
272
273 The current language design does not require the types of variables to
274 be declared, but they must still have a single type.  Different
275 operations impose different requirements on the variables, for example
276 addition requires both arguments to be numeric, and assignment
277 requires the variable on the left to have the same type as the
278 expression on the right.
279
280 Analysis involves propagating these type requirements around and
281 consequently setting the type of each variable.  If any requirements
282 are violated (e.g. a string is compared with a number) or if a
283 variable needs to have two different types, then an error is raised
284 and the program will not run.
285
286 If the same variable is declared in both branchs of an 'if/else', or
287 in all cases of a 'switch' then the multiple instances may be merged
288 into just one variable if the variable is references after the
289 conditional statement.  When this happens, the types must naturally be
290 consistent across all the branches.  When the variable is not used
291 outside the if, the variables in the different branches are distinct
292 and can be of different types.
293
294 Determining the types of all variables early is important for
295 processing command line arguments.  These can be assigned to any type
296 of variable, but we must first know the correct type so any required
297 conversion can happen.  If a variable is associated with a command
298 line argument but no type can be interpreted (e.g. the variable is
299 only ever used in a `print` statement), then the type is set to
300 'string'.
301
302 Undeclared names may only appear in "use" statements and "case" expressions.
303 These names are given a type of "label" and a unique value.
304 This allows them to fill the role of a name in an enumerated type, which
305 is useful for testing the `switch` statement.
306
307 As we will see, the condition part of a `while` statement can return
308 either a Boolean or some other type.  This requires that the expect
309 type that gets passed around comprises a type (`enum vtype`) and a
310 flag to indicate that `Vbool` is also permitted.
311
312 As there are, as yet, no distinct types that are compatible, there
313 isn't much subtlety in the analysis.  When we have distinct number
314 types, this will become more interesting.
315
316 #### Error reporting
317
318 When analysis discovers an inconsistency it needs to report an error;
319 just refusing to run the code ensures that the error doesn't cascade,
320 but by itself it isn't very useful.  A clear understand of the sort of
321 error message that are useful will help guide the process of analysis.
322
323 At a simplistic level, the only sort of error that type analysis can
324 report is that the type of some construct doesn't match a contextual
325 requirement.  For example, in `4 + "hello"` the addition provides a
326 contextual requirement for numbers, but `"hello"` is not a number.  In
327 this particular example no further information is needed as the types
328 are obvious from local information.  When a variable is involved that
329 isn't the case.  It may be helpful to explain why the variable has a
330 particular type, by indicating the location where the type was set,
331 whether by declaration or usage.
332
333 Using a recursive-descent analysis we can easily detect a problem at
334 multiple locations. In "`hello:= "there"; 4 + hello`" the addition
335 will detect that one argument is not a number and the usage of `hello`
336 will detect that a number was wanted, but not provided.  In this
337 (early) version of the language, we will generate error reports at
338 multiple locations, so the use of `hello` will report an error and
339 explain were the value was set, and the addition will report an error
340 and say why numbers are needed.  To be able to report locations for
341 errors, each language element will need to record a file location
342 (line and column) and each variable will need to record the language
343 element where its type was set.  For now we will assume that each line
344 of an error message indicates one location in the file, and up to 2
345 types.  So we provide a `printf`-like function which takes a format, a
346 language (a `struct exec` which has not yet been introduced), and 2
347 types. "`%1`" reports the first type, "`%2`" reports the second.  We
348 will need a function to print the location, once we know how that is
349 stored.  As will be explained later, there are sometimes extra rules for
350 type matching and they might affect error messages, we need to pass those
351 in too.
352
353 As well as type errors, we sometimes need to report problems with
354 tokens, which might be unexpected or might name a type that has not
355 been defined.  For these we have `tok_err()` which reports an error
356 with a given token.  Each of the error functions sets the flag in the
357 context so indicate that parsing failed.
358
359 ###### forward decls
360
361         static void fput_loc(struct exec *loc, FILE *f);
362
363 ###### core functions
364
365         static void type_err(struct parse_context *c,
366                              char *fmt, struct exec *loc,
367                              struct type *t1, int rules, struct type *t2)
368         {
369                 fprintf(stderr, "%s:", c->file_name);
370                 fput_loc(loc, stderr);
371                 for (; *fmt ; fmt++) {
372                         if (*fmt != '%') {
373                                 fputc(*fmt, stderr);
374                                 continue;
375                         }
376                         fmt++;
377                         switch (*fmt) {
378                         case '%': fputc(*fmt, stderr); break;
379                         default: fputc('?', stderr); break;
380                         case '1':
381                                 type_print(t1, stderr);
382                                 break;
383                         case '2':
384                                 type_print(t2, stderr);
385                                 break;
386                         ## format cases
387                         }
388                 }
389                 fputs("\n", stderr);
390                 c->parse_error = 1;
391         }
392
393         static void tok_err(struct parse_context *c, char *fmt, struct token *t)
394         {
395                 fprintf(stderr, "%s:%d:%d: %s: %.*s\n", c->file_name, t->line, t->col, fmt,
396                         t->txt.len, t->txt.txt);
397                 c->parse_error = 1;
398         }
399
400 ## Data Structures
401
402 One last introductory step before detailing the language elements and
403 providing their four requirements is to establish the data structures
404 to store these elements.
405
406 There are two key objects that we need to work with: executable
407 elements which comprise the program, and values which the program
408 works with.  Between these are the variables in their various scopes
409 which hold the values, and types which classify the values stored and
410 manipulatd by executables.
411
412 ### Types
413
414 Values come in a wide range of types, with more likely to be added.
415 Each type needs to be able to parse and print its own values (for
416 convenience at least) as well as to compare two values, at least for
417 equality and possibly for order.  For now, values might need to be
418 duplicated and freed, though eventually such manipulations will be
419 better integrated into the language.
420
421 Rather than requiring every numeric type to support all numeric
422 operations (add, multiple, etc), we allow types to be able to present
423 as one of a few standard types: integer, float, and fraction.  The
424 existance of these conversion functions enable types to determine if
425 they are compatible with other types.
426
427 Named type are stored in a simple linked list.  Objects of each type are "values"
428 which are often passed around by value.
429
430 ###### ast
431
432         struct value {
433                 struct type *type;
434                 union {
435                         ## value union fields
436                 };
437         };
438
439         struct type {
440                 struct text name;
441                 struct type *next;
442                 struct value (*init)(struct type *type);
443                 struct value (*prepare)(struct type *type);
444                 struct value (*parse)(struct type *type, char *str);
445                 void (*print)(struct value val);
446                 void (*print_type)(struct type *type, FILE *f);
447                 int (*cmp_order)(struct value v1, struct value v2);
448                 int (*cmp_eq)(struct value v1, struct value v2);
449                 struct value (*dup)(struct value val);
450                 void (*free)(struct value val);
451                 int (*compat)(struct type *this, struct type *other);
452                 long long (*to_int)(struct value *v);
453                 double (*to_float)(struct value *v);
454                 int (*to_mpq)(mpq_t *q, struct value *v);
455                 union {
456                         ## type union fields
457                 };
458         };
459
460 ###### parse context
461
462         struct type *typelist;
463
464 ###### ast functions
465
466         static struct type *find_type(struct parse_context *c, struct text s)
467         {
468                 struct type *l = c->typelist;
469
470                 while (l &&
471                        text_cmp(l->name, s) != 0)
472                                 l = l->next;
473                 return l;
474         }
475
476         static struct type *add_type(struct parse_context *c, struct text s,
477                                      struct type *proto)
478         {
479                 struct type *n;
480
481                 n = calloc(1, sizeof(*n));
482                 *n = *proto;
483                 n->name = s;
484                 n->next = c->typelist;
485                 c->typelist = n;
486                 return n;
487         }
488
489         static void free_type(struct type *t)
490         {
491                 /* The type is always a reference to something in the
492                  * context, so we don't need to free anything.
493                  */
494         }
495
496         static void free_value(struct value v)
497         {
498                 if (v.type)
499                         v.type->free(v);
500         }
501
502         static int type_compat(struct type *require, struct type *have, int rules)
503         {
504                 if ((rules & Rboolok) && have == Tbool)
505                         return 1;
506                 if ((rules & Rnolabel) && have == Tlabel)
507                         return 0;
508                 if (!require || !have)
509                         return 1;
510
511                 if (require->compat)
512                         return require->compat(require, have);
513
514                 return require == have;
515         }
516
517         static void type_print(struct type *type, FILE *f)
518         {
519                 if (!type)
520                         fputs("*unknown*type*", f);
521                 else if (type->name.len)
522                         fprintf(f, "%.*s", type->name.len, type->name.txt);
523                 else if (type->print_type)
524                         type->print_type(type, f);
525                 else
526                         fputs("*invalid*type*", f);
527         }
528
529         static struct value val_prepare(struct type *type)
530         {
531                 struct value rv;
532
533                 if (type)
534                         return type->prepare(type);
535                 rv.type = type;
536                 return rv;
537         }
538
539         static struct value val_init(struct type *type)
540         {
541                 struct value rv;
542
543                 if (type)
544                         return type->init(type);
545                 rv.type = type;
546                 return rv;
547         }
548
549         static struct value dup_value(struct value v)
550         {
551                 if (v.type)
552                         return v.type->dup(v);
553                 return v;
554         }
555
556         static int value_cmp(struct value left, struct value right)
557         {
558                 if (left.type && left.type->cmp_order)
559                         return left.type->cmp_order(left, right);
560                 if (left.type && left.type->cmp_eq)
561                         return left.type->cmp_eq(left, right);
562                 return -1;
563         }
564
565         static void print_value(struct value v)
566         {
567                 if (v.type && v.type->print)
568                         v.type->print(v);
569                 else
570                         printf("*Unknown*");
571         }
572
573         static struct value parse_value(struct type *type, char *arg)
574         {
575                 struct value rv;
576
577                 if (type && type->parse)
578                         return type->parse(type, arg);
579                 rv.type = NULL;
580                 return rv;
581         }
582
583 ###### forward decls
584
585         static void free_value(struct value v);
586         static int type_compat(struct type *require, struct type *have, int rules);
587         static void type_print(struct type *type, FILE *f);
588         static struct value val_init(struct type *type);
589         static struct value dup_value(struct value v);
590         static int value_cmp(struct value left, struct value right);
591         static void print_value(struct value v);
592         static struct value parse_value(struct type *type, char *arg);
593
594 ###### free context types
595
596         while (context.typelist) {
597                 struct type *t = context.typelist;
598
599                 context.typelist = t->next;
600                 free(t);
601         }
602
603 #### Base Types
604
605 Values of the base types can be numbers, which we represent as
606 multi-precision fractions, strings, Booleans and labels.  When
607 analysing the program we also need to allow for places where no value
608 is meaningful (type `Tnone`) and where we don't know what type to
609 expect yet (type is `NULL`).
610
611 Values are never shared, they are always copied when used, and freed
612 when no longer needed.
613
614 When propagating type information around the program, we need to
615 determine if two types are compatible, where type `NULL` is compatible
616 with anything.  There are two special cases with type compatibility,
617 both related to the Conditional Statement which will be described
618 later.  In some cases a Boolean can be accepted as well as some other
619 primary type, and in others any type is acceptable except a label (`Vlabel`).
620 A separate function encode these cases will simplify some code later.
621
622 When assigning command line arguments to variables, we need to be able
623 to parse each type from a string.
624
625 ###### includes
626         #include <gmp.h>
627         #include "string.h"
628         #include "number.h"
629
630 ###### libs
631         myLDLIBS := libnumber.o libstring.o -lgmp
632         LDLIBS := $(filter-out $(myLDLIBS),$(LDLIBS)) $(myLDLIBS)
633
634 ###### type union fields
635         enum vtype {Vnone, Vstr, Vnum, Vbool, Vlabel} vtype;
636
637 ###### value union fields
638         struct text str;
639         mpq_t num;
640         int bool;
641         void *label;
642
643 ###### ast functions
644         static void _free_value(struct value v)
645         {
646                 switch (v.type->vtype) {
647                 case Vnone: break;
648                 case Vstr: free(v.str.txt); break;
649                 case Vnum: mpq_clear(v.num); break;
650                 case Vlabel:
651                 case Vbool: break;
652                 }
653         }
654
655 ###### value functions
656
657         static struct value _val_prepare(struct type *type)
658         {
659                 struct value rv;
660
661                 rv.type = type;
662                 switch(type->vtype) {
663                 case Vnone:
664                         break;
665                 case Vnum:
666                         memset(&rv.num, 0, sizeof(rv.num));
667                         break;
668                 case Vstr:
669                         rv.str.txt = NULL;
670                         rv.str.len = 0;
671                         break;
672                 case Vbool:
673                         rv.bool = 0;
674                         break;
675                 case Vlabel:
676                         rv.label = NULL;
677                         break;
678                 }
679                 return rv;
680         }
681
682         static struct value _val_init(struct type *type)
683         {
684                 struct value rv;
685
686                 rv.type = type;
687                 switch(type->vtype) {
688                 case Vnone:
689                         break;
690                 case Vnum:
691                         mpq_init(rv.num); break;
692                 case Vstr:
693                         rv.str.txt = malloc(1);
694                         rv.str.len = 0;
695                         break;
696                 case Vbool:
697                         rv.bool = 0;
698                         break;
699                 case Vlabel:
700                         rv.label = NULL;
701                         break;
702                 }
703                 return rv;
704         }
705
706         static struct value _dup_value(struct value v)
707         {
708                 struct value rv;
709                 rv.type = v.type;
710                 switch (rv.type->vtype) {
711                 case Vnone:
712                         break;
713                 case Vlabel:
714                         rv.label = v.label;
715                         break;
716                 case Vbool:
717                         rv.bool = v.bool;
718                         break;
719                 case Vnum:
720                         mpq_init(rv.num);
721                         mpq_set(rv.num, v.num);
722                         break;
723                 case Vstr:
724                         rv.str.len = v.str.len;
725                         rv.str.txt = malloc(rv.str.len);
726                         memcpy(rv.str.txt, v.str.txt, v.str.len);
727                         break;
728                 }
729                 return rv;
730         }
731
732         static int _value_cmp(struct value left, struct value right)
733         {
734                 int cmp;
735                 if (left.type != right.type)
736                         return left.type - right.type;
737                 switch (left.type->vtype) {
738                 case Vlabel: cmp = left.label == right.label ? 0 : 1; break;
739                 case Vnum: cmp = mpq_cmp(left.num, right.num); break;
740                 case Vstr: cmp = text_cmp(left.str, right.str); break;
741                 case Vbool: cmp = left.bool - right.bool; break;
742                 case Vnone: cmp = 0;
743                 }
744                 return cmp;
745         }
746
747         static void _print_value(struct value v)
748         {
749                 switch (v.type->vtype) {
750                 case Vnone:
751                         printf("*no-value*"); break;
752                 case Vlabel:
753                         printf("*label-%p*", v.label); break;
754                 case Vstr:
755                         printf("%.*s", v.str.len, v.str.txt); break;
756                 case Vbool:
757                         printf("%s", v.bool ? "True":"False"); break;
758                 case Vnum:
759                         {
760                         mpf_t fl;
761                         mpf_init2(fl, 20);
762                         mpf_set_q(fl, v.num);
763                         gmp_printf("%Fg", fl);
764                         mpf_clear(fl);
765                         break;
766                         }
767                 }
768         }
769
770         static struct value _parse_value(struct type *type, char *arg)
771         {
772                 struct value val;
773                 struct text tx;
774                 int neg = 0;
775                 char tail[3] = "";
776
777                 val.type = type;
778                 switch(type->vtype) {
779                 case Vlabel:
780                 case Vnone:
781                         val.type = NULL;
782                         break;
783                 case Vstr:
784                         val.str.len = strlen(arg);
785                         val.str.txt = malloc(val.str.len);
786                         memcpy(val.str.txt, arg, val.str.len);
787                         break;
788                 case Vnum:
789                         if (*arg == '-') {
790                                 neg = 1;
791                                 arg++;
792                         }
793                         tx.txt = arg; tx.len = strlen(tx.txt);
794                         if (number_parse(val.num, tail, tx) == 0)
795                                 mpq_init(val.num);
796                         else if (neg)
797                                 mpq_neg(val.num, val.num);
798                         if (tail[0]) {
799                                 printf("Unsupported suffix: %s\n", arg);
800                                 val.type = NULL;
801                         }
802                         break;
803                 case Vbool:
804                         if (strcasecmp(arg, "true") == 0 ||
805                             strcmp(arg, "1") == 0)
806                                 val.bool = 1;
807                         else if (strcasecmp(arg, "false") == 0 ||
808                                  strcmp(arg, "0") == 0)
809                                 val.bool = 0;
810                         else {
811                                 printf("Bad bool: %s\n", arg);
812                                 val.type = NULL;
813                         }
814                         break;
815                 }
816                 return val;
817         }
818
819         static void _free_value(struct value v);
820
821         static struct type base_prototype = {
822                 .init = _val_init,
823                 .prepare = _val_prepare,
824                 .parse = _parse_value,
825                 .print = _print_value,
826                 .cmp_order = _value_cmp,
827                 .cmp_eq = _value_cmp,
828                 .dup = _dup_value,
829                 .free = _free_value,
830         };
831
832         static struct type *Tbool, *Tstr, *Tnum, *Tnone, *Tlabel;
833
834 ###### ast functions
835         static struct type *add_base_type(struct parse_context *c, char *n, enum vtype vt)
836         {
837                 struct text txt = { n, strlen(n) };
838                 struct type *t;
839
840                 t = add_type(c, txt, &base_prototype);
841                 t->vtype = vt;
842                 return t;
843         }
844
845 ###### context initialization
846
847         Tbool  = add_base_type(&context, "Boolean", Vbool);
848         Tstr   = add_base_type(&context, "string", Vstr);
849         Tnum   = add_base_type(&context, "number", Vnum);
850         Tnone  = add_base_type(&context, "none", Vnone);
851         Tlabel = add_base_type(&context, "label", Vlabel);
852
853 ### Variables
854
855 Variables are scoped named values.  We store the names in a linked
856 list of "bindings" sorted lexically, and use sequential search and
857 insertion sort.
858
859 ###### ast
860
861         struct binding {
862                 struct text name;
863                 struct binding *next;   // in lexical order
864                 ## binding fields
865         };
866
867 This linked list is stored in the parse context so that "reduce"
868 functions can find or add variables, and so the analysis phase can
869 ensure that every variable gets a type.
870
871 ###### parse context
872
873         struct binding *varlist;  // In lexical order
874
875 ###### ast functions
876
877         static struct binding *find_binding(struct parse_context *c, struct text s)
878         {
879                 struct binding **l = &c->varlist;
880                 struct binding *n;
881                 int cmp = 1;
882
883                 while (*l &&
884                         (cmp = text_cmp((*l)->name, s)) < 0)
885                                 l = & (*l)->next;
886                 if (cmp == 0)
887                         return *l;
888                 n = calloc(1, sizeof(*n));
889                 n->name = s;
890                 n->next = *l;
891                 *l = n;
892                 return n;
893         }
894
895 Each name can be linked to multiple variables defined in different
896 scopes.  Each scope starts where the name is declared and continues
897 until the end of the containing code block.  Scopes of a given name
898 cannot nest, so a declaration while a name is in-scope is an error.
899
900 ###### binding fields
901         struct variable *var;
902
903 ###### ast
904         struct variable {
905                 struct variable *previous;
906                 struct value val;
907                 struct binding *name;
908                 struct exec *where_decl;// where name was declared
909                 struct exec *where_set; // where type was set
910                 ## variable fields
911         };
912
913 While the naming seems strange, we include local constants in the
914 definition of variables.  A name declared `var := value` can
915 subsequently be changed, but a name declared `var ::= value` cannot -
916 it is constant
917
918 ###### variable fields
919         int constant;
920
921 Scopes in parallel branches can be partially merged.  More
922 specifically, if a given name is declared in both branches of an
923 if/else then its scope is a candidate for merging.  Similarly if
924 every branch of an exhaustive switch (e.g. has an "else" clause)
925 declares a given name, then the scopes from the branches are
926 candidates for merging.
927
928 Note that names declared inside a loop (which is only parallel to
929 itself) are never visible after the loop.  Similarly names defined in
930 scopes which are not parallel, such as those started by `for` and
931 `switch`, are never visible after the scope.  Only variables defined in
932 both `then` and `else` (including the implicit then after an `if`, and
933 excluding `then` used with `for`) and in all `case`s and `else` of a
934 `switch` or `while` can be visible beyond the `if`/`switch`/`while`.
935
936 Labels, which are a bit like variables, follow different rules.
937 Labels are not explicitly declared, but if an undeclared name appears
938 in a context where a label is legal, that effectively declares the
939 name as a label.  The declaration remains in force (or in scope) at
940 least to the end of the immediately containing block and conditionally
941 in any larger containing block which does not declare the name in some
942 other way.  Importantly, the conditional scope extension happens even
943 if the label is only used in one parallel branch of a conditional --
944 when used in one branch it is treated as having been declared in all
945 branches.
946
947 Merge candidates are tentatively visible beyond the end of the
948 branching statement which creates them.  If the name is used, the
949 merge is affirmed and they become a single variable visible at the
950 outer layer.  If not - if it is redeclared first - the merge lapses.
951
952 To track scopes we have an extra stack, implemented as a linked list,
953 which roughly parallels the parse stack and which is used exclusively
954 for scoping.  When a new scope is opened, a new frame is pushed and
955 the child-count of the parent frame is incremented.  This child-count
956 is used to distinguish between the first of a set of parallel scopes,
957 in which declared variables must not be in scope, and subsequent
958 branches, whether they must already be conditionally scoped.
959
960 To push a new frame *before* any code in the frame is parsed, we need a
961 grammar reduction.  This is most easily achieved with a grammar
962 element which derives the empty string, and creates the new scope when
963 it is recognized.  This can be placed, for example, between a keyword
964 like "if" and the code following it.
965
966 ###### ast
967         struct scope {
968                 struct scope *parent;
969                 int child_count;
970         };
971
972 ###### parse context
973         int scope_depth;
974         struct scope *scope_stack;
975
976 ###### ast functions
977         static void scope_pop(struct parse_context *c)
978         {
979                 struct scope *s = c->scope_stack;
980
981                 c->scope_stack = s->parent;
982                 free(s);
983                 c->scope_depth -= 1;
984         }
985
986         static void scope_push(struct parse_context *c)
987         {
988                 struct scope *s = calloc(1, sizeof(*s));
989                 if (c->scope_stack)
990                         c->scope_stack->child_count += 1;
991                 s->parent = c->scope_stack;
992                 c->scope_stack = s;
993                 c->scope_depth += 1;
994         }
995
996 ###### Grammar
997
998         $void
999         OpenScope -> ${ scope_push(config2context(config)); }$
1000
1001
1002 Each variable records a scope depth and is in one of four states:
1003
1004 - "in scope".  This is the case between the declaration of the
1005   variable and the end of the containing block, and also between
1006   the usage with affirms a merge and the end of that block.
1007
1008   The scope depth is not greater than the current parse context scope
1009   nest depth.  When the block of that depth closes, the state will
1010   change.  To achieve this, all "in scope" variables are linked
1011   together as a stack in nesting order.
1012
1013 - "pending".  The "in scope" block has closed, but other parallel
1014   scopes are still being processed.  So far, every parallel block at
1015   the same level that has closed has declared the name.
1016
1017   The scope depth is the depth of the last parallel block that
1018   enclosed the declaration, and that has closed.
1019
1020 - "conditionally in scope".  The "in scope" block and all parallel
1021   scopes have closed, and no further mention of the name has been
1022   seen.  This state includes a secondary nest depth which records the
1023   outermost scope seen since the variable became conditionally in
1024   scope.  If a use of the name is found, the variable becomes "in
1025   scope" and that secondary depth becomes the recorded scope depth.
1026   If the name is declared as a new variable, the old variable becomes
1027   "out of scope" and the recorded scope depth stays unchanged.
1028
1029 - "out of scope".  The variable is neither in scope nor conditionally
1030   in scope.  It is permanently out of scope now and can be removed from
1031   the "in scope" stack.
1032
1033
1034 ###### variable fields
1035         int depth, min_depth;
1036         enum { OutScope, PendingScope, CondScope, InScope } scope;
1037         struct variable *in_scope;
1038
1039 ###### parse context
1040
1041         struct variable *in_scope;
1042
1043 All variables with the same name are linked together using the
1044 'previous' link.  Those variable that have
1045 been affirmatively merged all have a 'merged' pointer that points to
1046 one primary variable - the most recently declared instance. When
1047 merging variables, we need to also adjust the 'merged' pointer on any
1048 other variables that had previously been merged with the one that will
1049 no longer be primary.
1050
1051 ###### variable fields
1052         struct variable *merged;
1053
1054 ###### ast functions
1055
1056         static void variable_merge(struct variable *primary, struct variable *secondary)
1057         {
1058                 struct variable *v;
1059
1060                 if (primary->merged)
1061                         // shouldn't happen
1062                         primary = primary->merged;
1063
1064                 for (v = primary->previous; v; v=v->previous)
1065                         if (v == secondary || v == secondary->merged ||
1066                             v->merged == secondary ||
1067                             (v->merged && v->merged == secondary->merged)) {
1068                                 v->scope = OutScope;
1069                                 v->merged = primary;
1070                         }
1071         }
1072
1073 ###### free context vars
1074
1075         while (context.varlist) {
1076                 struct binding *b = context.varlist;
1077                 struct variable *v = b->var;
1078                 context.varlist = b->next;
1079                 free(b);
1080                 while (v) {
1081                         struct variable *t = v;
1082
1083                         v = t->previous;
1084                         free_value(t->val);
1085                         free(t);
1086                 }
1087         }
1088
1089 #### Manipulating Bindings
1090
1091 When a name is conditionally visible, a new declaration discards the
1092 old binding - the condition lapses.  Conversely a usage of the name
1093 affirms the visibility and extends it to the end of the containing
1094 block - i.e. the block that contains both the original declaration and
1095 the latest usage.  This is determined from `min_depth`.  When a
1096 conditionally visible variable gets affirmed like this, it is also
1097 merged with other conditionally visible variables with the same name.
1098
1099 When we parse a variable declaration we either signal an error if the
1100 name is currently bound, or create a new variable at the current nest
1101 depth if the name is unbound or bound to a conditionally scoped or
1102 pending-scope variable.  If the previous variable was conditionally
1103 scoped, it and its homonyms becomes out-of-scope.
1104
1105 When we parse a variable reference (including non-declarative
1106 assignment) we signal an error if the name is not bound or is bound to
1107 a pending-scope variable; update the scope if the name is bound to a
1108 conditionally scoped variable; or just proceed normally if the named
1109 variable is in scope.
1110
1111 When we exit a scope, any variables bound at this level are either
1112 marked out of scope or pending-scoped, depending on whether the
1113 scope was sequential or parallel.
1114
1115 When exiting a parallel scope we check if there are any variables that
1116 were previously pending and are still visible. If there are, then
1117 there weren't redeclared in the most recent scope, so they cannot be
1118 merged and must become out-of-scope.  If it is not the first of
1119 parallel scopes (based on `child_count`), we check that there was a
1120 previous binding that is still pending-scope.  If there isn't, the new
1121 variable must now be out-of-scope.
1122
1123 When exiting a sequential scope that immediately enclosed parallel
1124 scopes, we need to resolve any pending-scope variables.  If there was
1125 no `else` clause, and we cannot determine that the `switch` was exhaustive,
1126 we need to mark all pending-scope variable as out-of-scope.  Otherwise
1127 all pending-scope variables become conditionally scoped.
1128
1129 ###### ast
1130         enum closetype { CloseSequential, CloseParallel, CloseElse };
1131
1132 ###### ast functions
1133
1134         static struct variable *var_decl(struct parse_context *c, struct text s)
1135         {
1136                 struct binding *b = find_binding(c, s);
1137                 struct variable *v = b->var;
1138
1139                 switch (v ? v->scope : OutScope) {
1140                 case InScope:
1141                         /* Caller will report the error */
1142                         return NULL;
1143                 case CondScope:
1144                         for (;
1145                              v && v->scope == CondScope;
1146                              v = v->previous)
1147                                 v->scope = OutScope;
1148                         break;
1149                 default: break;
1150                 }
1151                 v = calloc(1, sizeof(*v));
1152                 v->previous = b->var;
1153                 b->var = v;
1154                 v->name = b;
1155                 v->min_depth = v->depth = c->scope_depth;
1156                 v->scope = InScope;
1157                 v->in_scope = c->in_scope;
1158                 c->in_scope = v;
1159                 v->val = val_prepare(NULL);
1160                 return v;
1161         }
1162
1163         static struct variable *var_ref(struct parse_context *c, struct text s)
1164         {
1165                 struct binding *b = find_binding(c, s);
1166                 struct variable *v = b->var;
1167                 struct variable *v2;
1168
1169                 switch (v ? v->scope : OutScope) {
1170                 case OutScope:
1171                 case PendingScope:
1172                         /* Signal an error - once that is possible */
1173                         return NULL;
1174                 case CondScope:
1175                         /* All CondScope variables of this name need to be merged
1176                          * and become InScope
1177                          */
1178                         v->depth = v->min_depth;
1179                         v->scope = InScope;
1180                         for (v2 = v->previous;
1181                              v2 && v2->scope == CondScope;
1182                              v2 = v2->previous)
1183                                 variable_merge(v, v2);
1184                         break;
1185                 case InScope:
1186                         break;
1187                 }
1188                 return v;
1189         }
1190
1191         static void var_block_close(struct parse_context *c, enum closetype ct)
1192         {
1193                 /* close of all variables that are in_scope */
1194                 struct variable *v, **vp, *v2;
1195
1196                 scope_pop(c);
1197                 for (vp = &c->in_scope;
1198                      v = *vp, v && v->depth > c->scope_depth && v->min_depth > c->scope_depth;
1199                      ) {
1200                         switch (ct) {
1201                         case CloseElse:
1202                         case CloseParallel: /* handle PendingScope */
1203                                 switch(v->scope) {
1204                                 case InScope:
1205                                 case CondScope:
1206                                         if (c->scope_stack->child_count == 1)
1207                                                 v->scope = PendingScope;
1208                                         else if (v->previous &&
1209                                                  v->previous->scope == PendingScope)
1210                                                 v->scope = PendingScope;
1211                                         else if (v->val.type == Tlabel)
1212                                                 v->scope = PendingScope;
1213                                         else if (v->name->var == v)
1214                                                 v->scope = OutScope;
1215                                         if (ct == CloseElse) {
1216                                                 /* All Pending variables with this name
1217                                                  * are now Conditional */
1218                                                 for (v2 = v;
1219                                                      v2 && v2->scope == PendingScope;
1220                                                      v2 = v2->previous)
1221                                                         v2->scope = CondScope;
1222                                         }
1223                                         break;
1224                                 case PendingScope:
1225                                         for (v2 = v;
1226                                              v2 && v2->scope == PendingScope;
1227                                              v2 = v2->previous)
1228                                                 if (v2->val.type != Tlabel)
1229                                                         v2->scope = OutScope;
1230                                         break;
1231                                 case OutScope: break;
1232                                 }
1233                                 break;
1234                         case CloseSequential:
1235                                 if (v->val.type == Tlabel)
1236                                         v->scope = PendingScope;
1237                                 switch (v->scope) {
1238                                 case InScope:
1239                                         v->scope = OutScope;
1240                                         break;
1241                                 case PendingScope:
1242                                         /* There was no 'else', so we can only become
1243                                          * conditional if we know the cases were exhaustive,
1244                                          * and that doesn't mean anything yet.
1245                                          * So only labels become conditional..
1246                                          */
1247                                         for (v2 = v;
1248                                              v2 && v2->scope == PendingScope;
1249                                              v2 = v2->previous)
1250                                                 if (v2->val.type == Tlabel) {
1251                                                         v2->scope = CondScope;
1252                                                         v2->min_depth = c->scope_depth;
1253                                                 } else
1254                                                         v2->scope = OutScope;
1255                                         break;
1256                                 case CondScope:
1257                                 case OutScope: break;
1258                                 }
1259                                 break;
1260                         }
1261                         if (v->scope == OutScope)
1262                                 *vp = v->in_scope;
1263                         else
1264                                 vp = &v->in_scope;
1265                 }
1266         }
1267
1268 ### Executables
1269
1270 Executables can be lots of different things.  In many cases an
1271 executable is just an operation combined with one or two other
1272 executables.  This allows for expressions and lists etc.  Other times
1273 an executable is something quite specific like a constant or variable
1274 name.  So we define a `struct exec` to be a general executable with a
1275 type, and a `struct binode` which is a subclass of `exec`, forms a
1276 node in a binary tree, and holds an operation. There will be other
1277 subclasses, and to access these we need to be able to `cast` the
1278 `exec` into the various other types.
1279
1280 ###### macros
1281         #define cast(structname, pointer) ({            \
1282                 const typeof( ((struct structname *)0)->type) *__mptr = &(pointer)->type; \
1283                 if (__mptr && *__mptr != X##structname) abort();                \
1284                 (struct structname *)( (char *)__mptr);})
1285
1286         #define new(structname) ({                                              \
1287                 struct structname *__ptr = ((struct structname *)calloc(1,sizeof(struct structname))); \
1288                 __ptr->type = X##structname;                                            \
1289                 __ptr->line = -1; __ptr->column = -1;                                   \
1290                 __ptr;})
1291
1292         #define new_pos(structname, token) ({                                           \
1293                 struct structname *__ptr = ((struct structname *)calloc(1,sizeof(struct structname))); \
1294                 __ptr->type = X##structname;                                            \
1295                 __ptr->line = token.line; __ptr->column = token.col;                    \
1296                 __ptr;})
1297
1298 ###### ast
1299         enum exec_types {
1300                 Xbinode,
1301                 ## exec type
1302         };
1303         struct exec {
1304                 enum exec_types type;
1305                 int line, column;
1306         };
1307         struct binode {
1308                 struct exec;
1309                 enum Btype {
1310                         ## Binode types
1311                 } op;
1312                 struct exec *left, *right;
1313         };
1314
1315 ###### ast functions
1316
1317         static int __fput_loc(struct exec *loc, FILE *f)
1318         {
1319                 if (loc->line >= 0) {
1320                         fprintf(f, "%d:%d: ", loc->line, loc->column);
1321                         return 1;
1322                 }
1323                 if (loc->type == Xbinode)
1324                         return __fput_loc(cast(binode,loc)->left, f) ||
1325                                __fput_loc(cast(binode,loc)->right, f);
1326                 return 0;
1327         }
1328         static void fput_loc(struct exec *loc, FILE *f)
1329         {
1330                 if (!__fput_loc(loc, f))
1331                         fprintf(f, "??:??: ");
1332         }
1333
1334 Each different type of `exec` node needs a number of functions
1335 defined, a bit like methods.  We must be able to be able to free it,
1336 print it, analyse it and execute it.  Once we have specific `exec`
1337 types we will need to parse them too.  Let's take this a bit more
1338 slowly.
1339
1340 #### Freeing
1341
1342 The parser generator requires a `free_foo` function for each struct
1343 that stores attributes and they will be `exec`s and subtypes there-of.
1344 So we need `free_exec` which can handle all the subtypes, and we need
1345 `free_binode`.
1346
1347 ###### ast functions
1348
1349         static void free_binode(struct binode *b)
1350         {
1351                 if (!b)
1352                         return;
1353                 free_exec(b->left);
1354                 free_exec(b->right);
1355                 free(b);
1356         }
1357
1358 ###### core functions
1359         static void free_exec(struct exec *e)
1360         {
1361                 if (!e)
1362                         return;
1363                 switch(e->type) {
1364                         ## free exec cases
1365                 }
1366         }
1367
1368 ###### forward decls
1369
1370         static void free_exec(struct exec *e);
1371
1372 ###### free exec cases
1373         case Xbinode: free_binode(cast(binode, e)); break;
1374
1375 #### Printing
1376
1377 Printing an `exec` requires that we know the current indent level for
1378 printing line-oriented components.  As will become clear later, we
1379 also want to know what sort of bracketing to use.
1380
1381 ###### ast functions
1382
1383         static void do_indent(int i, char *str)
1384         {
1385                 while (i--)
1386                         printf("    ");
1387                 printf("%s", str);
1388         }
1389
1390 ###### core functions
1391         static void print_binode(struct binode *b, int indent, int bracket)
1392         {
1393                 struct binode *b2;
1394                 switch(b->op) {
1395                 ## print binode cases
1396                 }
1397         }
1398
1399         static void print_exec(struct exec *e, int indent, int bracket)
1400         {
1401                 if (!e)
1402                         return;
1403                 switch (e->type) {
1404                 case Xbinode:
1405                         print_binode(cast(binode, e), indent, bracket); break;
1406                 ## print exec cases
1407                 }
1408         }
1409
1410 ###### forward decls
1411
1412         static void print_exec(struct exec *e, int indent, int bracket);
1413
1414 #### Analysing
1415
1416 As discussed, analysis involves propagating type requirements around
1417 the program and looking for errors.
1418
1419 So `propagate_types` is passed an expected type (being a `struct type`
1420 pointer together with some `val_rules` flags) that the `exec` is
1421 expected to return, and returns the type that it does return, either
1422 of which can be `NULL` signifying "unknown".  An `ok` flag is passed
1423 by reference. It is set to `0` when an error is found, and `2` when
1424 any change is made.  If it remains unchanged at `1`, then no more
1425 propagation is needed.
1426
1427 ###### ast
1428
1429         enum val_rules {Rnolabel = 1<<0, Rboolok = 1<<1, Rnoconstant = 2<<1};
1430
1431 ###### format cases
1432         case 'r':
1433                 if (rules & Rnolabel)
1434                         fputs(" (labels not permitted)", stderr);
1435                 break;
1436
1437 ###### core functions
1438
1439         static struct type *propagate_types(struct exec *prog, struct parse_context *c, int *ok,
1440                                             struct type *type, int rules)
1441         {
1442                 struct type *t;
1443
1444                 if (!prog)
1445                         return Tnone;
1446
1447                 switch (prog->type) {
1448                 case Xbinode:
1449                 {
1450                         struct binode *b = cast(binode, prog);
1451                         switch (b->op) {
1452                         ## propagate binode cases
1453                         }
1454                         break;
1455                 }
1456                 ## propagate exec cases
1457                 }
1458                 return Tnone;
1459         }
1460
1461 #### Interpreting
1462
1463 Interpreting an `exec` doesn't require anything but the `exec`.  State
1464 is stored in variables and each variable will be directly linked from
1465 within the `exec` tree.  The exception to this is the whole `program`
1466 which needs to look at command line arguments.  The `program` will be
1467 interpreted separately.
1468
1469 Each `exec` can return a value, which may be `Tnone` but must be non-NULL;
1470
1471 ###### core functions
1472
1473         struct lrval {
1474                 struct value val, *lval;
1475         };
1476
1477         static struct lrval _interp_exec(struct exec *e);
1478
1479         static struct value interp_exec(struct exec *e)
1480         {
1481                 struct lrval ret = _interp_exec(e);
1482
1483                 if (ret.lval)
1484                         return dup_value(*ret.lval);
1485                 else
1486                         return ret.val;
1487         }
1488
1489         static struct value *linterp_exec(struct exec *e)
1490         {
1491                 struct lrval ret = _interp_exec(e);
1492
1493                 return ret.lval;
1494         }
1495
1496         static struct lrval _interp_exec(struct exec *e)
1497         {
1498                 struct lrval ret;
1499                 struct value rv, *lrv = NULL;
1500                 rv.type = Tnone;
1501                 if (!e) {
1502                         ret.lval = lrv;
1503                         ret.val = rv;
1504                         return ret;
1505                 }
1506
1507                 switch(e->type) {
1508                 case Xbinode:
1509                 {
1510                         struct binode *b = cast(binode, e);
1511                         struct value left, right, *lleft;
1512                         left.type = right.type = Tnone;
1513                         switch (b->op) {
1514                         ## interp binode cases
1515                         }
1516                         free_value(left); free_value(right);
1517                         break;
1518                 }
1519                 ## interp exec cases
1520                 }
1521                 ret.lval = lrv;
1522                 ret.val = rv;
1523                 return ret;
1524         }
1525
1526 ## Language elements
1527
1528 Each language element needs to be parsed, printed, analysed,
1529 interpreted, and freed.  There are several, so let's just start with
1530 the easy ones and work our way up.
1531
1532 ### Values
1533
1534 We have already met values as separate objects.  When manifest
1535 constants appear in the program text, that must result in an executable
1536 which has a constant value.  So the `val` structure embeds a value in
1537 an executable.
1538
1539 ###### exec type
1540         Xval,
1541
1542 ###### ast
1543         struct val {
1544                 struct exec;
1545                 struct value val;
1546         };
1547
1548 ###### Grammar
1549
1550         $*val
1551         Value ->  True ${
1552                         $0 = new_pos(val, $1);
1553                         $0->val.type = Tbool;
1554                         $0->val.bool = 1;
1555                         }$
1556                 | False ${
1557                         $0 = new_pos(val, $1);
1558                         $0->val.type = Tbool;
1559                         $0->val.bool = 0;
1560                         }$
1561                 | NUMBER ${
1562                         $0 = new_pos(val, $1);
1563                         $0->val.type = Tnum;
1564                         {
1565                         char tail[3];
1566                         if (number_parse($0->val.num, tail, $1.txt) == 0)
1567                                 mpq_init($0->val.num);
1568                                 if (tail[0])
1569                                         tok_err(config2context(config), "error: unsupported number suffix",
1570                                                 &$1);
1571                         }
1572                         }$
1573                 | STRING ${
1574                         $0 = new_pos(val, $1);
1575                         $0->val.type = Tstr;
1576                         {
1577                         char tail[3];
1578                         string_parse(&$1, '\\', &$0->val.str, tail);
1579                         if (tail[0])
1580                                 tok_err(config2context(config), "error: unsupported string suffix",
1581                                         &$1);
1582                         }
1583                         }$
1584                 | MULTI_STRING ${
1585                         $0 = new_pos(val, $1);
1586                         $0->val.type = Tstr;
1587                         {
1588                         char tail[3];
1589                         string_parse(&$1, '\\', &$0->val.str, tail);
1590                         if (tail[0])
1591                                 tok_err(config2context(config), "error: unsupported string suffix",
1592                                         &$1);
1593                         }
1594                         }$
1595
1596 ###### print exec cases
1597         case Xval:
1598         {
1599                 struct val *v = cast(val, e);
1600                 if (v->val.type == Tstr)
1601                         printf("\"");
1602                 print_value(v->val);
1603                 if (v->val.type == Tstr)
1604                         printf("\"");
1605                 break;
1606         }
1607
1608 ###### propagate exec cases
1609                 case Xval:
1610                 {
1611                         struct val *val = cast(val, prog);
1612                         if (!type_compat(type, val->val.type, rules)) {
1613                                 type_err(c, "error: expected %1%r found %2",
1614                                            prog, type, rules, val->val.type);
1615                                 *ok = 0;
1616                         }
1617                         return val->val.type;
1618                 }
1619
1620 ###### interp exec cases
1621         case Xval:
1622                 rv = dup_value(cast(val, e)->val);
1623                 break;
1624
1625 ###### ast functions
1626         static void free_val(struct val *v)
1627         {
1628                 if (!v)
1629                         return;
1630                 free_value(v->val);
1631                 free(v);
1632         }
1633
1634 ###### free exec cases
1635         case Xval: free_val(cast(val, e)); break;
1636
1637 ###### ast functions
1638         // Move all nodes from 'b' to 'rv', reversing the order.
1639         // In 'b' 'left' is a list, and 'right' is the last node.
1640         // In 'rv', left' is the first node and 'right' is a list.
1641         static struct binode *reorder_bilist(struct binode *b)
1642         {
1643                 struct binode *rv = NULL;
1644
1645                 while (b) {
1646                         struct exec *t = b->right;
1647                         b->right = rv;
1648                         rv = b;
1649                         if (b->left)
1650                                 b = cast(binode, b->left);
1651                         else
1652                                 b = NULL;
1653                         rv->left = t;
1654                 }
1655                 return rv;
1656         }
1657
1658 ### Variables
1659
1660 Just as we used a `val` to wrap a value into an `exec`, we similarly
1661 need a `var` to wrap a `variable` into an exec.  While each `val`
1662 contained a copy of the value, each `var` hold a link to the variable
1663 because it really is the same variable no matter where it appears.
1664 When a variable is used, we need to remember to follow the `->merged`
1665 link to find the primary instance.
1666
1667 ###### exec type
1668         Xvar,
1669
1670 ###### ast
1671         struct var {
1672                 struct exec;
1673                 struct variable *var;
1674         };
1675
1676 ###### Grammar
1677
1678         $*var
1679         VariableDecl -> IDENTIFIER : ${ {
1680                 struct variable *v = var_decl(config2context(config), $1.txt);
1681                 $0 = new_pos(var, $1);
1682                 $0->var = v;
1683                 if (v)
1684                         v->where_decl = $0;
1685                 else {
1686                         v = var_ref(config2context(config), $1.txt);
1687                         $0->var = v;
1688                         type_err(config2context(config), "error: variable '%v' redeclared",
1689                                  $0, Tnone, 0, Tnone);
1690                         type_err(config2context(config), "info: this is where '%v' was first declared",
1691                                  v->where_decl, Tnone, 0, Tnone);
1692                 }
1693         } }$
1694             | IDENTIFIER :: ${ {
1695                 struct variable *v = var_decl(config2context(config), $1.txt);
1696                 $0 = new_pos(var, $1);
1697                 $0->var = v;
1698                 if (v) {
1699                         v->where_decl = $0;
1700                         v->constant = 1;
1701                 } else {
1702                         v = var_ref(config2context(config), $1.txt);
1703                         $0->var = v;
1704                         type_err(config2context(config), "error: variable '%v' redeclared",
1705                                  $0, Tnone, 0, Tnone);
1706                         type_err(config2context(config), "info: this is where '%v' was first declared",
1707                                  v->where_decl, Tnone, 0, Tnone);
1708                 }
1709         } }$
1710             | IDENTIFIER : Type ${ {
1711                 struct variable *v = var_decl(config2context(config), $1.txt);
1712                 $0 = new_pos(var, $1);
1713                 $0->var = v;
1714                 if (v) {
1715                         v->where_decl = $0;
1716                         v->where_set = $0;
1717                         v->val = val_prepare($<3);
1718                 } else {
1719                         v = var_ref(config2context(config), $1.txt);
1720                         $0->var = v;
1721                         type_err(config2context(config), "error: variable '%v' redeclared",
1722                                  $0, Tnone, 0, Tnone);
1723                         type_err(config2context(config), "info: this is where '%v' was first declared",
1724                                  v->where_decl, Tnone, 0, Tnone);
1725                 }
1726         } }$
1727             | IDENTIFIER :: Type ${ {
1728                 struct variable *v = var_decl(config2context(config), $1.txt);
1729                 $0 = new_pos(var, $1);
1730                 $0->var = v;
1731                 if (v) {
1732                         v->where_decl = $0;
1733                         v->where_set = $0;
1734                         v->val = val_prepare($<3);
1735                         v->constant = 1;
1736                 } else {
1737                         v = var_ref(config2context(config), $1.txt);
1738                         $0->var = v;
1739                         type_err(config2context(config), "error: variable '%v' redeclared",
1740                                  $0, Tnone, 0, Tnone);
1741                         type_err(config2context(config), "info: this is where '%v' was first declared",
1742                                  v->where_decl, Tnone, 0, Tnone);
1743                 }
1744         } }$
1745
1746         $*exec
1747         Variable -> IDENTIFIER ${ {
1748                 struct variable *v = var_ref(config2context(config), $1.txt);
1749                 $0 = new_pos(var, $1);
1750                 if (v == NULL) {
1751                         /* This might be a label - allocate a var just in case */
1752                         v = var_decl(config2context(config), $1.txt);
1753                         if (v) {
1754                                 v->val = val_prepare(Tlabel);
1755                                 v->val.label = &v->val;
1756                                 v->where_set = $0;
1757                         }
1758                 }
1759                 cast(var, $0)->var = v;
1760         } }$
1761         ## variable grammar
1762
1763         $*type
1764         Type -> IDENTIFIER ${
1765                 $0 = find_type(config2context(config), $1.txt);
1766                 if (!$0) {
1767                         tok_err(config2context(config),
1768                                 "error: undefined type", &$1);
1769
1770                         $0 = Tnone;
1771                 }
1772         }$
1773         ## type grammar
1774
1775 ###### print exec cases
1776         case Xvar:
1777         {
1778                 struct var *v = cast(var, e);
1779                 if (v->var) {
1780                         struct binding *b = v->var->name;
1781                         printf("%.*s", b->name.len, b->name.txt);
1782                 }
1783                 break;
1784         }
1785
1786 ###### format cases
1787         case 'v':
1788                 if (loc->type == Xvar) {
1789                         struct var *v = cast(var, loc);
1790                         if (v->var) {
1791                                 struct binding *b = v->var->name;
1792                                 fprintf(stderr, "%.*s", b->name.len, b->name.txt);
1793                         } else
1794                                 fputs("???", stderr);
1795                 } else
1796                         fputs("NOTVAR", stderr);
1797                 break;
1798
1799 ###### propagate exec cases
1800
1801         case Xvar:
1802         {
1803                 struct var *var = cast(var, prog);
1804                 struct variable *v = var->var;
1805                 if (!v) {
1806                         type_err(c, "%d:BUG: no variable!!", prog, Tnone, 0, Tnone);
1807                         *ok = 0;
1808                         return Tnone;
1809                 }
1810                 if (v->merged)
1811                         v = v->merged;
1812                 if (v->constant && (rules & Rnoconstant)) {
1813                         type_err(c, "error: Cannot assign to a constant: %v",
1814                                  prog, NULL, 0, NULL);
1815                         type_err(c, "info: name was defined as a constant here",
1816                                  v->where_decl, NULL, 0, NULL);
1817                         *ok = 0;
1818                         return v->val.type;
1819                 }
1820                 if (v->val.type == NULL) {
1821                         if (type && *ok != 0) {
1822                                 v->val = val_prepare(type);
1823                                 v->where_set = prog;
1824                                 *ok = 2;
1825                         }
1826                         return type;
1827                 }
1828                 if (!type_compat(type, v->val.type, rules)) {
1829                         type_err(c, "error: expected %1%r but variable '%v' is %2", prog,
1830                                  type, rules, v->val.type);
1831                         type_err(c, "info: this is where '%v' was set to %1", v->where_set,
1832                                  v->val.type, rules, Tnone);
1833                         *ok = 0;
1834                 }
1835                 if (!type)
1836                         return v->val.type;
1837                 return type;
1838         }
1839
1840 ###### interp exec cases
1841         case Xvar:
1842         {
1843                 struct var *var = cast(var, e);
1844                 struct variable *v = var->var;
1845
1846                 if (v->merged)
1847                         v = v->merged;
1848                 lrv = &v->val;
1849                 break;
1850         }
1851
1852 ###### ast functions
1853
1854         static void free_var(struct var *v)
1855         {
1856                 free(v);
1857         }
1858
1859 ###### free exec cases
1860         case Xvar: free_var(cast(var, e)); break;
1861
1862 ### Expressions: Boolean
1863
1864 Our first user of the `binode` will be expressions, and particularly
1865 Boolean expressions.  As I haven't implemented precedence in the
1866 parser generator yet, we need different names for each precedence
1867 level used by expressions.  The outer most or lowest level precedence
1868 are Boolean `or` `and`, and `not` which form an `Expression` out of `BTerm`s
1869 and `BFact`s.
1870
1871 ###### Binode types
1872         And,
1873         Or,
1874         Not,
1875
1876 ###### Grammar
1877
1878         $*exec
1879         Expression -> Expression or BTerm ${ {
1880                         struct binode *b = new(binode);
1881                         b->op = Or;
1882                         b->left = $<1;
1883                         b->right = $<3;
1884                         $0 = b;
1885                 } }$
1886                 | BTerm ${ $0 = $<1; }$
1887
1888         BTerm -> BTerm and BFact ${ {
1889                         struct binode *b = new(binode);
1890                         b->op = And;
1891                         b->left = $<1;
1892                         b->right = $<3;
1893                         $0 = b;
1894                 } }$
1895                 | BFact ${ $0 = $<1; }$
1896
1897         BFact -> not BFact ${ {
1898                         struct binode *b = new(binode);
1899                         b->op = Not;
1900                         b->right = $<2;
1901                         $0 = b;
1902                 } }$
1903                 ## other BFact
1904
1905 ###### print binode cases
1906         case And:
1907                 print_exec(b->left, -1, 0);
1908                 printf(" and ");
1909                 print_exec(b->right, -1, 0);
1910                 break;
1911         case Or:
1912                 print_exec(b->left, -1, 0);
1913                 printf(" or ");
1914                 print_exec(b->right, -1, 0);
1915                 break;
1916         case Not:
1917                 printf("not ");
1918                 print_exec(b->right, -1, 0);
1919                 break;
1920
1921 ###### propagate binode cases
1922         case And:
1923         case Or:
1924         case Not:
1925                 /* both must be Tbool, result is Tbool */
1926                 propagate_types(b->left, c, ok, Tbool, 0);
1927                 propagate_types(b->right, c, ok, Tbool, 0);
1928                 if (type && type != Tbool) {
1929                         type_err(c, "error: %1 operation found where %2 expected", prog,
1930                                    Tbool, 0, type);
1931                         *ok = 0;
1932                 }
1933                 return Tbool;
1934
1935 ###### interp binode cases
1936         case And:
1937                 rv = interp_exec(b->left);
1938                 right = interp_exec(b->right);
1939                 rv.bool = rv.bool && right.bool;
1940                 break;
1941         case Or:
1942                 rv = interp_exec(b->left);
1943                 right = interp_exec(b->right);
1944                 rv.bool = rv.bool || right.bool;
1945                 break;
1946         case Not:
1947                 rv = interp_exec(b->right);
1948                 rv.bool = !rv.bool;
1949                 break;
1950
1951 ### Expressions: Comparison
1952
1953 Of slightly higher precedence that Boolean expressions are
1954 Comparisons.
1955 A comparison takes arguments of any type, but the two types must be
1956 the same.
1957
1958 To simplify the parsing we introduce an `eop` which can record an
1959 expression operator.
1960
1961 ###### ast
1962         struct eop {
1963                 enum Btype op;
1964         };
1965
1966 ###### ast functions
1967         static void free_eop(struct eop *e)
1968         {
1969                 if (e)
1970                         free(e);
1971         }
1972
1973 ###### Binode types
1974         Less,
1975         Gtr,
1976         LessEq,
1977         GtrEq,
1978         Eql,
1979         NEql,
1980
1981 ###### other BFact
1982         | Expr CMPop Expr ${ {
1983                         struct binode *b = new(binode);
1984                         b->op = $2.op;
1985                         b->left = $<1;
1986                         b->right = $<3;
1987                         $0 = b;
1988         } }$
1989         | Expr ${ $0 = $<1; }$
1990
1991 ###### Grammar
1992
1993         $eop
1994         CMPop ->   < ${ $0.op = Less; }$
1995                 |  > ${ $0.op = Gtr; }$
1996                 |  <= ${ $0.op = LessEq; }$
1997                 |  >= ${ $0.op = GtrEq; }$
1998                 |  == ${ $0.op = Eql; }$
1999                 |  != ${ $0.op = NEql; }$
2000
2001 ###### print binode cases
2002
2003         case Less:
2004         case LessEq:
2005         case Gtr:
2006         case GtrEq:
2007         case Eql:
2008         case NEql:
2009                 print_exec(b->left, -1, 0);
2010                 switch(b->op) {
2011                 case Less:   printf(" < "); break;
2012                 case LessEq: printf(" <= "); break;
2013                 case Gtr:    printf(" > "); break;
2014                 case GtrEq:  printf(" >= "); break;
2015                 case Eql:    printf(" == "); break;
2016                 case NEql:   printf(" != "); break;
2017                 default: abort();
2018                 }
2019                 print_exec(b->right, -1, 0);
2020                 break;
2021
2022 ###### propagate binode cases
2023         case Less:
2024         case LessEq:
2025         case Gtr:
2026         case GtrEq:
2027         case Eql:
2028         case NEql:
2029                 /* Both must match but not be labels, result is Tbool */
2030                 t = propagate_types(b->left, c, ok, NULL, Rnolabel);
2031                 if (t)
2032                         propagate_types(b->right, c, ok, t, 0);
2033                 else {
2034                         t = propagate_types(b->right, c, ok, NULL, Rnolabel);
2035                         if (t)
2036                                 t = propagate_types(b->left, c, ok, t, 0);
2037                 }
2038                 if (!type_compat(type, Tbool, 0)) {
2039                         type_err(c, "error: Comparison returns %1 but %2 expected", prog,
2040                                     Tbool, rules, type);
2041                         *ok = 0;
2042                 }
2043                 return Tbool;
2044
2045 ###### interp binode cases
2046         case Less:
2047         case LessEq:
2048         case Gtr:
2049         case GtrEq:
2050         case Eql:
2051         case NEql:
2052         {
2053                 int cmp;
2054                 left = interp_exec(b->left);
2055                 right = interp_exec(b->right);
2056                 cmp = value_cmp(left, right);
2057                 rv.type = Tbool;
2058                 switch (b->op) {
2059                 case Less:      rv.bool = cmp <  0; break;
2060                 case LessEq:    rv.bool = cmp <= 0; break;
2061                 case Gtr:       rv.bool = cmp >  0; break;
2062                 case GtrEq:     rv.bool = cmp >= 0; break;
2063                 case Eql:       rv.bool = cmp == 0; break;
2064                 case NEql:      rv.bool = cmp != 0; break;
2065                 default: rv.bool = 0; break;
2066                 }
2067                 break;
2068         }
2069
2070 ### Expressions: The rest
2071
2072 The remaining expressions with the highest precedence are arithmetic
2073 and string concatenation.  They are `Expr`, `Term`, and `Factor`.
2074 The `Factor` is where the `Value` and `Variable` that we already have
2075 are included.
2076
2077 `+` and `-` are both infix and prefix operations (where they are
2078 absolute value and negation).  These have different operator names.
2079
2080 We also have a 'Bracket' operator which records where parentheses were
2081 found.  This makes it easy to reproduce these when printing.  Once
2082 precedence is handled better I might be able to discard this.
2083
2084 ###### Binode types
2085         Plus, Minus,
2086         Times, Divide, Rem,
2087         Concat,
2088         Absolute, Negate,
2089         Bracket,
2090
2091 ###### Grammar
2092
2093         $*exec
2094         Expr -> Expr Eop Term ${ {
2095                         struct binode *b = new(binode);
2096                         b->op = $2.op;
2097                         b->left = $<1;
2098                         b->right = $<3;
2099                         $0 = b;
2100                 } }$
2101                 | Term ${ $0 = $<1; }$
2102
2103         Term -> Term Top Factor ${ {
2104                         struct binode *b = new(binode);
2105                         b->op = $2.op;
2106                         b->left = $<1;
2107                         b->right = $<3;
2108                         $0 = b;
2109                 } }$
2110                 | Factor ${ $0 = $<1; }$
2111
2112         Factor -> ( Expression ) ${ {
2113                         struct binode *b = new_pos(binode, $1);
2114                         b->op = Bracket;
2115                         b->right = $<2;
2116                         $0 = b;
2117                 } }$
2118                 | Uop Factor ${ {
2119                         struct binode *b = new(binode);
2120                         b->op = $1.op;
2121                         b->right = $<2;
2122                         $0 = b;
2123                 } }$
2124                 | Value ${ $0 = $<1; }$
2125                 | Variable ${ $0 = $<1; }$
2126
2127         $eop
2128         Eop ->    + ${ $0.op = Plus; }$
2129                 | - ${ $0.op = Minus; }$
2130
2131         Uop ->    + ${ $0.op = Absolute; }$
2132                 | - ${ $0.op = Negate; }$
2133
2134         Top ->    * ${ $0.op = Times; }$
2135                 | / ${ $0.op = Divide; }$
2136                 | % ${ $0.op = Rem; }$
2137                 | ++ ${ $0.op = Concat; }$
2138
2139 ###### print binode cases
2140         case Plus:
2141         case Minus:
2142         case Times:
2143         case Divide:
2144         case Concat:
2145         case Rem:
2146                 print_exec(b->left, indent, 0);
2147                 switch(b->op) {
2148                 case Plus:   fputs(" + ", stdout); break;
2149                 case Minus:  fputs(" - ", stdout); break;
2150                 case Times:  fputs(" * ", stdout); break;
2151                 case Divide: fputs(" / ", stdout); break;
2152                 case Rem:    fputs(" % ", stdout); break;
2153                 case Concat: fputs(" ++ ", stdout); break;
2154                 default: abort();
2155                 }
2156                 print_exec(b->right, indent, 0);
2157                 break;
2158         case Absolute:
2159                 printf("+");
2160                 print_exec(b->right, indent, 0);
2161                 break;
2162         case Negate:
2163                 printf("-");
2164                 print_exec(b->right, indent, 0);
2165                 break;
2166         case Bracket:
2167                 printf("(");
2168                 print_exec(b->right, indent, 0);
2169                 printf(")");
2170                 break;
2171
2172 ###### propagate binode cases
2173         case Plus:
2174         case Minus:
2175         case Times:
2176         case Rem:
2177         case Divide:
2178                 /* both must be numbers, result is Tnum */
2179         case Absolute:
2180         case Negate:
2181                 /* as propagate_types ignores a NULL,
2182                  * unary ops fit here too */
2183                 propagate_types(b->left, c, ok, Tnum, 0);
2184                 propagate_types(b->right, c, ok, Tnum, 0);
2185                 if (!type_compat(type, Tnum, 0)) {
2186                         type_err(c, "error: Arithmetic returns %1 but %2 expected", prog,
2187                                    Tnum, rules, type);
2188                         *ok = 0;
2189                 }
2190                 return Tnum;
2191
2192         case Concat:
2193                 /* both must be Tstr, result is Tstr */
2194                 propagate_types(b->left, c, ok, Tstr, 0);
2195                 propagate_types(b->right, c, ok, Tstr, 0);
2196                 if (!type_compat(type, Tstr, 0)) {
2197                         type_err(c, "error: Concat returns %1 but %2 expected", prog,
2198                                    Tstr, rules, type);
2199                         *ok = 0;
2200                 }
2201                 return Tstr;
2202
2203         case Bracket:
2204                 return propagate_types(b->right, c, ok, type, 0);
2205
2206 ###### interp binode cases
2207
2208         case Plus:
2209                 rv = interp_exec(b->left);
2210                 right = interp_exec(b->right);
2211                 mpq_add(rv.num, rv.num, right.num);
2212                 break;
2213         case Minus:
2214                 rv = interp_exec(b->left);
2215                 right = interp_exec(b->right);
2216                 mpq_sub(rv.num, rv.num, right.num);
2217                 break;
2218         case Times:
2219                 rv = interp_exec(b->left);
2220                 right = interp_exec(b->right);
2221                 mpq_mul(rv.num, rv.num, right.num);
2222                 break;
2223         case Divide:
2224                 rv = interp_exec(b->left);
2225                 right = interp_exec(b->right);
2226                 mpq_div(rv.num, rv.num, right.num);
2227                 break;
2228         case Rem: {
2229                 mpz_t l, r, rem;
2230
2231                 left = interp_exec(b->left);
2232                 right = interp_exec(b->right);
2233                 mpz_init(l); mpz_init(r); mpz_init(rem);
2234                 mpz_tdiv_q(l, mpq_numref(left.num), mpq_denref(left.num));
2235                 mpz_tdiv_q(r, mpq_numref(right.num), mpq_denref(right.num));
2236                 mpz_tdiv_r(rem, l, r);
2237                 rv = val_init(Tnum);
2238                 mpq_set_z(rv.num, rem);
2239                 mpz_clear(r); mpz_clear(l); mpz_clear(rem);
2240                 break;
2241         }
2242         case Negate:
2243                 rv = interp_exec(b->right);
2244                 mpq_neg(rv.num, rv.num);
2245                 break;
2246         case Absolute:
2247                 rv = interp_exec(b->right);
2248                 mpq_abs(rv.num, rv.num);
2249                 break;
2250         case Bracket:
2251                 rv = interp_exec(b->right);
2252                 break;
2253         case Concat:
2254                 left = interp_exec(b->left);
2255                 right = interp_exec(b->right);
2256                 rv.type = Tstr;
2257                 rv.str = text_join(left.str, right.str);
2258                 break;
2259
2260
2261 ###### value functions
2262
2263         static struct text text_join(struct text a, struct text b)
2264         {
2265                 struct text rv;
2266                 rv.len = a.len + b.len;
2267                 rv.txt = malloc(rv.len);
2268                 memcpy(rv.txt, a.txt, a.len);
2269                 memcpy(rv.txt+a.len, b.txt, b.len);
2270                 return rv;
2271         }
2272
2273
2274 ### Blocks, Statements, and Statement lists.
2275
2276 Now that we have expressions out of the way we need to turn to
2277 statements.  There are simple statements and more complex statements.
2278 Simple statements do not contain newlines, complex statements do.
2279
2280 Statements often come in sequences and we have corresponding simple
2281 statement lists and complex statement lists.
2282 The former comprise only simple statements separated by semicolons.
2283 The later comprise complex statements and simple statement lists.  They are
2284 separated by newlines.  Thus the semicolon is only used to separate
2285 simple statements on the one line.  This may be overly restrictive,
2286 but I'm not sure I ever want a complex statement to share a line with
2287 anything else.
2288
2289 Note that a simple statement list can still use multiple lines if
2290 subsequent lines are indented, so
2291
2292 ###### Example: wrapped simple statement list
2293
2294         a = b; c = d;
2295            e = f; print g
2296
2297 is a single simple statement list.  This might allow room for
2298 confusion, so I'm not set on it yet.
2299
2300 A simple statement list needs no extra syntax.  A complex statement
2301 list has two syntactic forms.  It can be enclosed in braces (much like
2302 C blocks), or it can be introduced by a colon and continue until an
2303 unindented newline (much like Python blocks).  With this extra syntax
2304 it is referred to as a block.
2305
2306 Note that a block does not have to include any newlines if it only
2307 contains simple statements.  So both of:
2308
2309         if condition: a=b; d=f
2310
2311         if condition { a=b; print f }
2312
2313 are valid.
2314
2315 In either case the list is constructed from a `binode` list with
2316 `Block` as the operator.  When parsing the list it is most convenient
2317 to append to the end, so a list is a list and a statement.  When using
2318 the list it is more convenient to consider a list to be a statement
2319 and a list.  So we need a function to re-order a list.
2320 `reorder_bilist` serves this purpose.
2321
2322 The only stand-alone statement we introduce at this stage is `pass`
2323 which does nothing and is represented as a `NULL` pointer in a `Block`
2324 list.  Other stand-alone statements will follow once the infrastructure
2325 is in-place.
2326
2327 ###### Binode types
2328         Block,
2329
2330 ###### Grammar
2331
2332         $void
2333         OptNL -> Newlines
2334                 |
2335
2336         Newlines -> NEWLINE
2337                 | Newlines NEWLINE
2338
2339         $*binode
2340         Open -> {
2341                 | NEWLINE {
2342         Close -> }
2343                 | NEWLINE }
2344         Block -> Open Statementlist Close ${ $0 = $<2; }$
2345                 | Open Newlines Statementlist Close ${ $0 = $<3; }$
2346                 | Open SimpleStatements } ${ $0 = reorder_bilist($<2); }$
2347                 | Open Newlines SimpleStatements } ${ $0 = reorder_bilist($<3); }$
2348                 | : Statementlist ${ $0 = $<2; }$
2349                 | : SimpleStatements ${ $0 = reorder_bilist($<2); }$
2350
2351         Statementlist -> ComplexStatements ${ $0 = reorder_bilist($<1); }$
2352
2353         ComplexStatements -> ComplexStatements ComplexStatement ${
2354                 $0 = new(binode);
2355                 $0->op = Block;
2356                 $0->left = $<1;
2357                 $0->right = $<2;
2358                 }$
2359                 | ComplexStatements NEWLINE ${ $0 = $<1; }$
2360                 | ComplexStatement ${
2361                 $0 = new(binode);
2362                 $0->op = Block;
2363                 $0->left = NULL;
2364                 $0->right = $<1;
2365                 }$
2366
2367         $*exec
2368         ComplexStatement -> SimpleStatements NEWLINE ${
2369                         $0 = reorder_bilist($<1);
2370                         }$
2371                 ## ComplexStatement Grammar
2372
2373         $*binode
2374         SimpleStatements -> SimpleStatements ; SimpleStatement ${
2375                         $0 = new(binode);
2376                         $0->op = Block;
2377                         $0->left = $<1;
2378                         $0->right = $<3;
2379                         }$
2380                 | SimpleStatement ${
2381                         $0 = new(binode);
2382                         $0->op = Block;
2383                         $0->left = NULL;
2384                         $0->right = $<1;
2385                         }$
2386                 | SimpleStatements ; ${ $0 = $<1; }$
2387
2388         SimpleStatement -> pass ${ $0 = NULL; }$
2389                 ## SimpleStatement Grammar
2390
2391 ###### print binode cases
2392         case Block:
2393                 if (indent < 0) {
2394                         // simple statement
2395                         if (b->left == NULL)
2396                                 printf("pass");
2397                         else
2398                                 print_exec(b->left, indent, 0);
2399                         if (b->right) {
2400                                 printf("; ");
2401                                 print_exec(b->right, indent, 0);
2402                         }
2403                 } else {
2404                         // block, one per line
2405                         if (b->left == NULL)
2406                                 do_indent(indent, "pass\n");
2407                         else
2408                                 print_exec(b->left, indent, bracket);
2409                         if (b->right)
2410                                 print_exec(b->right, indent, bracket);
2411                 }
2412                 break;
2413
2414 ###### propagate binode cases
2415         case Block:
2416         {
2417                 /* If any statement returns something other than Tnone
2418                  * or Tbool then all such must return same type.
2419                  * As each statement may be Tnone or something else,
2420                  * we must always pass NULL (unknown) down, otherwise an incorrect
2421                  * error might occur.  We never return Tnone unless it is
2422                  * passed in.
2423                  */
2424                 struct binode *e;
2425
2426                 for (e = b; e; e = cast(binode, e->right)) {
2427                         t = propagate_types(e->left, c, ok, NULL, rules);
2428                         if ((rules & Rboolok) && t == Tbool)
2429                                 t = NULL;
2430                         if (t && t != Tnone && t != Tbool) {
2431                                 if (!type)
2432                                         type = t;
2433                                 else if (t != type) {
2434                                         type_err(c, "error: expected %1%r, found %2",
2435                                                  e->left, type, rules, t);
2436                                         *ok = 0;
2437                                 }
2438                         }
2439                 }
2440                 return type;
2441         }
2442
2443 ###### interp binode cases
2444         case Block:
2445                 while (rv.type == Tnone &&
2446                        b) {
2447                         if (b->left)
2448                                 rv = interp_exec(b->left);
2449                         b = cast(binode, b->right);
2450                 }
2451                 break;
2452
2453 ### The Print statement
2454
2455 `print` is a simple statement that takes a comma-separated list of
2456 expressions and prints the values separated by spaces and terminated
2457 by a newline.  No control of formatting is possible.
2458
2459 `print` faces the same list-ordering issue as blocks, and uses the
2460 same solution.
2461
2462 ###### Binode types
2463         Print,
2464
2465 ###### SimpleStatement Grammar
2466
2467         | print ExpressionList ${
2468                 $0 = reorder_bilist($<2);
2469         }$
2470         | print ExpressionList , ${
2471                 $0 = new(binode);
2472                 $0->op = Print;
2473                 $0->right = NULL;
2474                 $0->left = $<2;
2475                 $0 = reorder_bilist($0);
2476         }$
2477         | print ${
2478                 $0 = new(binode);
2479                 $0->op = Print;
2480                 $0->right = NULL;
2481         }$
2482
2483 ###### Grammar
2484
2485         $*binode
2486         ExpressionList -> ExpressionList , Expression ${
2487                 $0 = new(binode);
2488                 $0->op = Print;
2489                 $0->left = $<1;
2490                 $0->right = $<3;
2491                 }$
2492                 | Expression ${
2493                         $0 = new(binode);
2494                         $0->op = Print;
2495                         $0->left = NULL;
2496                         $0->right = $<1;
2497                 }$
2498
2499 ###### print binode cases
2500
2501         case Print:
2502                 do_indent(indent, "print");
2503                 while (b) {
2504                         if (b->left) {
2505                                 printf(" ");
2506                                 print_exec(b->left, -1, 0);
2507                                 if (b->right)
2508                                         printf(",");
2509                         }
2510                         b = cast(binode, b->right);
2511                 }
2512                 if (indent >= 0)
2513                         printf("\n");
2514                 break;
2515
2516 ###### propagate binode cases
2517
2518         case Print:
2519                 /* don't care but all must be consistent */
2520                 propagate_types(b->left, c, ok, NULL, Rnolabel);
2521                 propagate_types(b->right, c, ok, NULL, Rnolabel);
2522                 break;
2523
2524 ###### interp binode cases
2525
2526         case Print:
2527         {
2528                 char sep = 0;
2529                 int eol = 1;
2530                 for ( ; b; b = cast(binode, b->right))
2531                         if (b->left) {
2532                                 if (sep)
2533                                         putchar(sep);
2534                                 left = interp_exec(b->left);
2535                                 print_value(left);
2536                                 free_value(left);
2537                                 if (b->right)
2538                                         sep = ' ';
2539                         } else if (sep)
2540                                 eol = 0;
2541                 left.type = Tnone;
2542                 if (eol)
2543                         printf("\n");
2544                 break;
2545         }
2546
2547 ###### Assignment statement
2548
2549 An assignment will assign a value to a variable, providing it hasn't
2550 be declared as a constant.  The analysis phase ensures that the type
2551 will be correct so the interpreter just needs to perform the
2552 calculation.  There is a form of assignment which declares a new
2553 variable as well as assigning a value.  If a name is assigned before
2554 it is declared, and error will be raised as the name is created as
2555 `Tlabel` and it is illegal to assign to such names.
2556
2557 ###### Binode types
2558         Assign,
2559         Declare,
2560
2561 ###### SimpleStatement Grammar
2562         | Variable = Expression ${
2563                         $0 = new(binode);
2564                         $0->op = Assign;
2565                         $0->left = $<1;
2566                         $0->right = $<3;
2567                 }$
2568         | VariableDecl = Expression ${
2569                         $0 = new(binode);
2570                         $0->op = Declare;
2571                         $0->left = $<1;
2572                         $0->right =$<3;
2573                 }$
2574
2575         | VariableDecl ${
2576                         if ($1->var->where_set == NULL) {
2577                                 type_err(config2context(config), "Variable declared with no type or value: %v",
2578                                          $1, NULL, 0, NULL);
2579                         } else {
2580                                 $0 = new(binode);
2581                                 $0->op = Declare;
2582                                 $0->left = $<1;
2583                                 $0->right = NULL;
2584                         }
2585                 }$
2586
2587 ###### print binode cases
2588
2589         case Assign:
2590                 do_indent(indent, "");
2591                 print_exec(b->left, indent, 0);
2592                 printf(" = ");
2593                 print_exec(b->right, indent, 0);
2594                 if (indent >= 0)
2595                         printf("\n");
2596                 break;
2597
2598         case Declare:
2599                 {
2600                 struct variable *v = cast(var, b->left)->var;
2601                 do_indent(indent, "");
2602                 print_exec(b->left, indent, 0);
2603                 if (cast(var, b->left)->var->constant) {
2604                         if (v->where_decl == v->where_set) {
2605                                 printf("::");
2606                                 type_print(v->val.type, stdout);
2607                                 printf(" ");
2608                         } else
2609                                 printf(" ::");
2610                 } else {
2611                         if (v->where_decl == v->where_set) {
2612                                 printf(":");
2613                                 type_print(v->val.type, stdout);
2614                                 printf(" ");
2615                         } else
2616                                 printf(" :");
2617                 }
2618                 if (b->right) {
2619                         printf("= ");
2620                         print_exec(b->right, indent, 0);
2621                 }
2622                 if (indent >= 0)
2623                         printf("\n");
2624                 }
2625                 break;
2626
2627 ###### propagate binode cases
2628
2629         case Assign:
2630         case Declare:
2631                 /* Both must match and not be labels,
2632                  * Type must support 'dup',
2633                  * For Assign, left must not be constant.
2634                  * result is Tnone
2635                  */
2636                 t = propagate_types(b->left, c, ok, NULL,
2637                                     Rnolabel | (b->op == Assign ? Rnoconstant : 0));
2638                 if (!b->right)
2639                         return Tnone;
2640
2641                 if (t) {
2642                         if (propagate_types(b->right, c, ok, t, 0) != t)
2643                                 if (b->left->type == Xvar)
2644                                         type_err(c, "info: variable '%v' was set as %1 here.",
2645                                                  cast(var, b->left)->var->where_set, t, rules, Tnone);
2646                 } else {
2647                         t = propagate_types(b->right, c, ok, NULL, Rnolabel);
2648                         if (t)
2649                                 propagate_types(b->left, c, ok, t,
2650                                                 (b->op == Assign ? Rnoconstant : 0));
2651                 }
2652                 if (t && t->dup == NULL) {
2653                         type_err(c, "error: cannot assign value of type %1", b, t, 0, NULL);
2654                         *ok = 0;
2655                 }
2656                 return Tnone;
2657
2658                 break;
2659
2660 ###### interp binode cases
2661
2662         case Assign:
2663                 lleft = linterp_exec(b->left);
2664                 right = interp_exec(b->right);
2665                 if (lleft) {
2666                         free_value(*lleft);
2667                         *lleft = right;
2668                 } else
2669                         free_value(right);
2670                 right.type = NULL;
2671                 break;
2672
2673         case Declare:
2674         {
2675                 struct variable *v = cast(var, b->left)->var;
2676                 if (v->merged)
2677                         v = v->merged;
2678                 if (b->right)
2679                         right = interp_exec(b->right);
2680                 else
2681                         right = val_init(v->val.type);
2682                 free_value(v->val);
2683                 v->val = right;
2684                 right.type = NULL;
2685                 break;
2686         }
2687
2688 ### The `use` statement
2689
2690 The `use` statement is the last "simple" statement.  It is needed when
2691 the condition in a conditional statement is a block.  `use` works much
2692 like `return` in C, but only completes the `condition`, not the whole
2693 function.
2694
2695 ###### Binode types
2696         Use,
2697
2698 ###### SimpleStatement Grammar
2699         | use Expression ${
2700                 $0 = new_pos(binode, $1);
2701                 $0->op = Use;
2702                 $0->right = $<2;
2703         }$
2704
2705 ###### print binode cases
2706
2707         case Use:
2708                 do_indent(indent, "use ");
2709                 print_exec(b->right, -1, 0);
2710                 if (indent >= 0)
2711                         printf("\n");
2712                 break;
2713
2714 ###### propagate binode cases
2715
2716         case Use:
2717                 /* result matches value */
2718                 return propagate_types(b->right, c, ok, type, 0);
2719
2720 ###### interp binode cases
2721
2722         case Use:
2723                 rv = interp_exec(b->right);
2724                 break;
2725
2726 ### The Conditional Statement
2727
2728 This is the biggy and currently the only complex statement.  This
2729 subsumes `if`, `while`, `do/while`, `switch`, and some parts of `for`.
2730 It is comprised of a number of parts, all of which are optional though
2731 set combinations apply.  Each part is (usually) a key word (`then` is
2732 sometimes optional) followed by either an expression or a code block,
2733 except the `casepart` which is a "key word and an expression" followed
2734 by a code block.  The code-block option is valid for all parts and,
2735 where an expression is also allowed, the code block can use the `use`
2736 statement to report a value.  If the code block does not report a value
2737 the effect is similar to reporting `True`.
2738
2739 The `else` and `case` parts, as well as `then` when combined with
2740 `if`, can contain a `use` statement which will apply to some
2741 containing conditional statement. `for` parts, `do` parts and `then`
2742 parts used with `for` can never contain a `use`, except in some
2743 subordinate conditional statement.
2744
2745 If there is a `forpart`, it is executed first, only once.
2746 If there is a `dopart`, then it is executed repeatedly providing
2747 always that the `condpart` or `cond`, if present, does not return a non-True
2748 value.  `condpart` can fail to return any value if it simply executes
2749 to completion.  This is treated the same as returning `True`.
2750
2751 If there is a `thenpart` it will be executed whenever the `condpart`
2752 or `cond` returns True (or does not return any value), but this will happen
2753 *after* `dopart` (when present).
2754
2755 If `elsepart` is present it will be executed at most once when the
2756 condition returns `False` or some value that isn't `True` and isn't
2757 matched by any `casepart`.  If there are any `casepart`s, they will be
2758 executed when the condition returns a matching value.
2759
2760 The particular sorts of values allowed in case parts has not yet been
2761 determined in the language design, so nothing is prohibited.
2762
2763 The various blocks in this complex statement potentially provide scope
2764 for variables as described earlier.  Each such block must include the
2765 "OpenScope" nonterminal before parsing the block, and must call
2766 `var_block_close()` when closing the block.
2767
2768 The code following "`if`", "`switch`" and "`for`" does not get its own
2769 scope, but is in a scope covering the whole statement, so names
2770 declared there cannot be redeclared elsewhere.  Similarly the
2771 condition following "`while`" is in a scope the covers the body
2772 ("`do`" part) of the loop, and which does not allow conditional scope
2773 extension.  Code following "`then`" (both looping and non-looping),
2774 "`else`" and "`case`" each get their own local scope.
2775
2776 The type requirements on the code block in a `whilepart` are quite
2777 unusal.  It is allowed to return a value of some identifiable type, in
2778 which case the loop aborts and an appropriate `casepart` is run, or it
2779 can return a Boolean, in which case the loop either continues to the
2780 `dopart` (on `True`) or aborts and runs the `elsepart` (on `False`).
2781 This is different both from the `ifpart` code block which is expected to
2782 return a Boolean, or the `switchpart` code block which is expected to
2783 return the same type as the casepart values.  The correct analysis of
2784 the type of the `whilepart` code block is the reason for the
2785 `Rboolok` flag which is passed to `propagate_types()`.
2786
2787 The `cond_statement` cannot fit into a `binode` so a new `exec` is
2788 defined.
2789
2790 ###### exec type
2791         Xcond_statement,
2792
2793 ###### ast
2794         struct casepart {
2795                 struct exec *value;
2796                 struct exec *action;
2797                 struct casepart *next;
2798         };
2799         struct cond_statement {
2800                 struct exec;
2801                 struct exec *forpart, *condpart, *dopart, *thenpart, *elsepart;
2802                 struct casepart *casepart;
2803         };
2804
2805 ###### ast functions
2806
2807         static void free_casepart(struct casepart *cp)
2808         {
2809                 while (cp) {
2810                         struct casepart *t;
2811                         free_exec(cp->value);
2812                         free_exec(cp->action);
2813                         t = cp->next;
2814                         free(cp);
2815                         cp = t;
2816                 }
2817         }
2818
2819         static void free_cond_statement(struct cond_statement *s)
2820         {
2821                 if (!s)
2822                         return;
2823                 free_exec(s->forpart);
2824                 free_exec(s->condpart);
2825                 free_exec(s->dopart);
2826                 free_exec(s->thenpart);
2827                 free_exec(s->elsepart);
2828                 free_casepart(s->casepart);
2829                 free(s);
2830         }
2831
2832 ###### free exec cases
2833         case Xcond_statement: free_cond_statement(cast(cond_statement, e)); break;
2834
2835 ###### ComplexStatement Grammar
2836         | CondStatement ${ $0 = $<1; }$
2837
2838 ###### Grammar
2839
2840         $*cond_statement
2841         // both ForThen and Whilepart open scopes, and CondSuffix only
2842         // closes one - so in the first branch here we have another to close.
2843         CondStatement -> ForThen WhilePart CondSuffix ${
2844                         $0 = $<3;
2845                         $0->forpart = $1.forpart; $1.forpart = NULL;
2846                         $0->thenpart = $1.thenpart; $1.thenpart = NULL;
2847                         $0->condpart = $2.condpart; $2.condpart = NULL;
2848                         $0->dopart = $2.dopart; $2.dopart = NULL;
2849                         var_block_close(config2context(config), CloseSequential);
2850                         }$
2851                 | WhilePart CondSuffix ${
2852                         $0 = $<2;
2853                         $0->condpart = $1.condpart; $1.condpart = NULL;
2854                         $0->dopart = $1.dopart; $1.dopart = NULL;
2855                         }$
2856                 | SwitchPart CondSuffix ${
2857                         $0 = $<2;
2858                         $0->condpart = $<1;
2859                         }$
2860                 | IfPart IfSuffix ${
2861                         $0 = $<2;
2862                         $0->condpart = $1.condpart; $1.condpart = NULL;
2863                         $0->thenpart = $1.thenpart; $1.thenpart = NULL;
2864                         // This is where we close an "if" statement
2865                         var_block_close(config2context(config), CloseSequential);
2866                         }$
2867
2868         CondSuffix -> IfSuffix ${
2869                         $0 = $<1;
2870                         // This is where we close scope of the whole
2871                         // "for" or "while" statement
2872                         var_block_close(config2context(config), CloseSequential);
2873                 }$
2874                 | CasePart CondSuffix ${
2875                         $0 = $<2;
2876                         $1->next = $0->casepart;
2877                         $0->casepart = $<1;
2878                 }$
2879
2880         $*casepart
2881         CasePart -> Newlines case Expression OpenScope Block ${
2882                         $0 = calloc(1,sizeof(struct casepart));
2883                         $0->value = $<3;
2884                         $0->action = $<5;
2885                         var_block_close(config2context(config), CloseParallel);
2886                 }$
2887                 | case Expression OpenScope Block ${
2888                         $0 = calloc(1,sizeof(struct casepart));
2889                         $0->value = $<2;
2890                         $0->action = $<4;
2891                         var_block_close(config2context(config), CloseParallel);
2892                 }$
2893
2894         $*cond_statement
2895         IfSuffix -> Newlines ${ $0 = new(cond_statement); }$
2896                 | Newlines else OpenScope Block ${
2897                         $0 = new(cond_statement);
2898                         $0->elsepart = $<4;
2899                         var_block_close(config2context(config), CloseElse);
2900                 }$
2901                 | else OpenScope Block ${
2902                         $0 = new(cond_statement);
2903                         $0->elsepart = $<3;
2904                         var_block_close(config2context(config), CloseElse);
2905                 }$
2906                 | Newlines else OpenScope CondStatement ${
2907                         $0 = new(cond_statement);
2908                         $0->elsepart = $<4;
2909                         var_block_close(config2context(config), CloseElse);
2910                 }$
2911                 | else OpenScope CondStatement ${
2912                         $0 = new(cond_statement);
2913                         $0->elsepart = $<3;
2914                         var_block_close(config2context(config), CloseElse);
2915                 }$
2916
2917
2918         $*exec
2919         // These scopes are closed in CondSuffix
2920         ForPart -> for OpenScope SimpleStatements ${
2921                         $0 = reorder_bilist($<3);
2922                 }$
2923                 |  for OpenScope Block ${
2924                         $0 = $<3;
2925                 }$
2926
2927         ThenPart -> then OpenScope SimpleStatements ${
2928                         $0 = reorder_bilist($<3);
2929                         var_block_close(config2context(config), CloseSequential);
2930                 }$
2931                 |  then OpenScope Block ${
2932                         $0 = $<3;
2933                         var_block_close(config2context(config), CloseSequential);
2934                 }$
2935
2936         ThenPartNL -> ThenPart OptNL ${
2937                         $0 = $<1;
2938                 }$
2939
2940         // This scope is closed in CondSuffix
2941         WhileHead -> while OpenScope Block ${
2942                 $0 = $<3;
2943                 }$
2944
2945         $cond_statement
2946         ForThen -> ForPart OptNL ThenPartNL ${
2947                         $0.forpart = $<1;
2948                         $0.thenpart = $<3;
2949                 }$
2950                 | ForPart OptNL ${
2951                         $0.forpart = $<1;
2952                 }$
2953
2954         // This scope is closed in CondSuffix
2955         WhilePart -> while OpenScope Expression Block ${
2956                         $0.type = Xcond_statement;
2957                         $0.condpart = $<3;
2958                         $0.dopart = $<4;
2959                 }$
2960                 | WhileHead OptNL do Block ${
2961                         $0.type = Xcond_statement;
2962                         $0.condpart = $<1;
2963                         $0.dopart = $<4;
2964                 }$
2965
2966         IfPart -> if OpenScope Expression OpenScope Block ${
2967                         $0.type = Xcond_statement;
2968                         $0.condpart = $<3;
2969                         $0.thenpart = $<5;
2970                         var_block_close(config2context(config), CloseParallel);
2971                 }$
2972                 | if OpenScope Block OptNL then OpenScope Block ${
2973                         $0.type = Xcond_statement;
2974                         $0.condpart = $<3;
2975                         $0.thenpart = $<7;
2976                         var_block_close(config2context(config), CloseParallel);
2977                 }$
2978
2979         $*exec
2980         // This scope is closed in CondSuffix
2981         SwitchPart -> switch OpenScope Expression ${
2982                         $0 = $<3;
2983                 }$
2984                 | switch OpenScope Block ${
2985                         $0 = $<3;
2986                 }$
2987
2988 ###### print exec cases
2989
2990         case Xcond_statement:
2991         {
2992                 struct cond_statement *cs = cast(cond_statement, e);
2993                 struct casepart *cp;
2994                 if (cs->forpart) {
2995                         do_indent(indent, "for");
2996                         if (bracket) printf(" {\n"); else printf(":\n");
2997                         print_exec(cs->forpart, indent+1, bracket);
2998                         if (cs->thenpart) {
2999                                 if (bracket)
3000                                         do_indent(indent, "} then {\n");
3001                                 else
3002                                         do_indent(indent, "then:\n");
3003                                 print_exec(cs->thenpart, indent+1, bracket);
3004                         }
3005                         if (bracket) do_indent(indent, "}\n");
3006                 }
3007                 if (cs->dopart) {
3008                         // a loop
3009                         if (cs->condpart && cs->condpart->type == Xbinode &&
3010                             cast(binode, cs->condpart)->op == Block) {
3011                                 if (bracket)
3012                                         do_indent(indent, "while {\n");
3013                                 else
3014                                         do_indent(indent, "while:\n");
3015                                 print_exec(cs->condpart, indent+1, bracket);
3016                                 if (bracket)
3017                                         do_indent(indent, "} do {\n");
3018                                 else
3019                                         do_indent(indent, "do:\n");
3020                                 print_exec(cs->dopart, indent+1, bracket);
3021                                 if (bracket)
3022                                         do_indent(indent, "}\n");
3023                         } else {
3024                                 do_indent(indent, "while ");
3025                                 print_exec(cs->condpart, 0, bracket);
3026                                 if (bracket)
3027                                         printf(" {\n");
3028                                 else
3029                                         printf(":\n");
3030                                 print_exec(cs->dopart, indent+1, bracket);
3031                                 if (bracket)
3032                                         do_indent(indent, "}\n");
3033                         }
3034                 } else {
3035                         // a condition
3036                         if (cs->casepart)
3037                                 do_indent(indent, "switch");
3038                         else
3039                                 do_indent(indent, "if");
3040                         if (cs->condpart && cs->condpart->type == Xbinode &&
3041                             cast(binode, cs->condpart)->op == Block) {
3042                                 if (bracket)
3043                                         printf(" {\n");
3044                                 else
3045                                         printf(":\n");
3046                                 print_exec(cs->condpart, indent+1, bracket);
3047                                 if (bracket)
3048                                         do_indent(indent, "}\n");
3049                                 if (cs->thenpart) {
3050                                         do_indent(indent, "then:\n");
3051                                         print_exec(cs->thenpart, indent+1, bracket);
3052                                 }
3053                         } else {
3054                                 printf(" ");
3055                                 print_exec(cs->condpart, 0, bracket);
3056                                 if (cs->thenpart) {
3057                                         if (bracket)
3058                                                 printf(" {\n");
3059                                         else
3060                                                 printf(":\n");
3061                                         print_exec(cs->thenpart, indent+1, bracket);
3062                                         if (bracket)
3063                                                 do_indent(indent, "}\n");
3064                                 } else
3065                                         printf("\n");
3066                         }
3067                 }
3068                 for (cp = cs->casepart; cp; cp = cp->next) {
3069                         do_indent(indent, "case ");
3070                         print_exec(cp->value, -1, 0);
3071                         if (bracket)
3072                                 printf(" {\n");
3073                         else
3074                                 printf(":\n");
3075                         print_exec(cp->action, indent+1, bracket);
3076                         if (bracket)
3077                                 do_indent(indent, "}\n");
3078                 }
3079                 if (cs->elsepart) {
3080                         do_indent(indent, "else");
3081                         if (bracket)
3082                                 printf(" {\n");
3083                         else
3084                                 printf(":\n");
3085                         print_exec(cs->elsepart, indent+1, bracket);
3086                         if (bracket)
3087                                 do_indent(indent, "}\n");
3088                 }
3089                 break;
3090         }
3091
3092 ###### propagate exec cases
3093         case Xcond_statement:
3094         {
3095                 // forpart and dopart must return Tnone
3096                 // thenpart must return Tnone if there is a dopart,
3097                 // otherwise it is like elsepart.
3098                 // condpart must:
3099                 //    be bool if there is no casepart
3100                 //    match casepart->values if there is a switchpart
3101                 //    either be bool or match casepart->value if there
3102                 //             is a whilepart
3103                 // elsepart and casepart->action must match the return type
3104                 //   expected of this statement.
3105                 struct cond_statement *cs = cast(cond_statement, prog);
3106                 struct casepart *cp;
3107
3108                 t = propagate_types(cs->forpart, c, ok, Tnone, 0);
3109                 if (!type_compat(Tnone, t, 0))
3110                         *ok = 0;
3111                 t = propagate_types(cs->dopart, c, ok, Tnone, 0);
3112                 if (!type_compat(Tnone, t, 0))
3113                         *ok = 0;
3114                 if (cs->dopart) {
3115                         t = propagate_types(cs->thenpart, c, ok, Tnone, 0);
3116                         if (!type_compat(Tnone, t, 0))
3117                                 *ok = 0;
3118                 }
3119                 if (cs->casepart == NULL)
3120                         propagate_types(cs->condpart, c, ok, Tbool, 0);
3121                 else {
3122                         /* Condpart must match case values, with bool permitted */
3123                         t = NULL;
3124                         for (cp = cs->casepart;
3125                              cp && !t; cp = cp->next)
3126                                 t = propagate_types(cp->value, c, ok, NULL, 0);
3127                         if (!t && cs->condpart)
3128                                 t = propagate_types(cs->condpart, c, ok, NULL, Rboolok);
3129                         // Now we have a type (I hope) push it down
3130                         if (t) {
3131                                 for (cp = cs->casepart; cp; cp = cp->next)
3132                                         propagate_types(cp->value, c, ok, t, 0);
3133                                 propagate_types(cs->condpart, c, ok, t, Rboolok);
3134                         }
3135                 }
3136                 // (if)then, else, and case parts must return expected type.
3137                 if (!cs->dopart && !type)
3138                         type = propagate_types(cs->thenpart, c, ok, NULL, rules);
3139                 if (!type)
3140                         type = propagate_types(cs->elsepart, c, ok, NULL, rules);
3141                 for (cp = cs->casepart;
3142                      cp && !type;
3143                      cp = cp->next)
3144                         type = propagate_types(cp->action, c, ok, NULL, rules);
3145                 if (type) {
3146                         if (!cs->dopart)
3147                                 propagate_types(cs->thenpart, c, ok, type, rules);
3148                         propagate_types(cs->elsepart, c, ok, type, rules);
3149                         for (cp = cs->casepart; cp ; cp = cp->next)
3150                                 propagate_types(cp->action, c, ok, type, rules);
3151                         return type;
3152                 } else
3153                         return NULL;
3154         }
3155
3156 ###### interp exec cases
3157         case Xcond_statement:
3158         {
3159                 struct value v, cnd;
3160                 struct casepart *cp;
3161                 struct cond_statement *c = cast(cond_statement, e);
3162
3163                 if (c->forpart)
3164                         interp_exec(c->forpart);
3165                 do {
3166                         if (c->condpart)
3167                                 cnd = interp_exec(c->condpart);
3168                         else
3169                                 cnd.type = Tnone;
3170                         if (!(cnd.type == Tnone ||
3171                               (cnd.type == Tbool && cnd.bool != 0)))
3172                                 break;
3173                         // cnd is Tnone or Tbool, doesn't need to be freed
3174                         if (c->dopart)
3175                                 interp_exec(c->dopart);
3176
3177                         if (c->thenpart) {
3178                                 rv = interp_exec(c->thenpart);
3179                                 if (rv.type != Tnone || !c->dopart)
3180                                         goto Xcond_done;
3181                                 free_value(rv);
3182                         }
3183                 } while (c->dopart);
3184
3185                 for (cp = c->casepart; cp; cp = cp->next) {
3186                         v = interp_exec(cp->value);
3187                         if (value_cmp(v, cnd) == 0) {
3188                                 free_value(v);
3189                                 free_value(cnd);
3190                                 rv = interp_exec(cp->action);
3191                                 goto Xcond_done;
3192                         }
3193                         free_value(v);
3194                 }
3195                 free_value(cnd);
3196                 if (c->elsepart)
3197                         rv = interp_exec(c->elsepart);
3198                 else
3199                         rv.type = Tnone;
3200         Xcond_done:
3201                 break;
3202         }
3203
3204 ## Complex types
3205
3206 Now that we have the shape of the interpreter in place we can add some
3207 complex types and connected them in to the data structures and the
3208 different phases of parse, analyse, print, interpret.
3209
3210 For now, just arrays.
3211
3212 ### Arrays
3213
3214 Arrays can be declared by giving a size and a type, as `[size]type' so
3215 `freq:[26]number` declares `freq` to be an array of 26 numbers.  The
3216 size can be an arbitrary expression which is evaluated when the name
3217 comes into scope.
3218
3219 Arrays cannot be assigned.  When pointers are introduced we will also
3220 introduce array slices which can refer to part or all of an array -
3221 the assignment syntax will create a slice.  For now, an array can only
3222 ever be referenced by the name it is declared with.  It is likely that
3223 a "`copy`" primitive will eventually be define which can be used to
3224 make a copy of an array with controllable depth.
3225
3226 ###### type union fields
3227
3228         struct {
3229                 int size;
3230                 struct variable *vsize;
3231                 struct type *member;
3232         } array;
3233
3234 ###### value union fields
3235         struct {
3236                 struct value *elmnts;
3237         } array;
3238
3239 ###### value functions
3240
3241         static struct value array_prepare(struct type *type)
3242         {
3243                 struct value ret;
3244
3245                 ret.type = type;
3246                 ret.array.elmnts = NULL;
3247                 return ret;
3248         }
3249
3250         static struct value array_init(struct type *type)
3251         {
3252                 struct value ret;
3253                 int i;
3254
3255                 ret.type = type;
3256                 if (type->array.vsize) {
3257                         mpz_t q;
3258                         mpz_init(q);
3259                         mpz_tdiv_q(q, mpq_numref(type->array.vsize->val.num),
3260                                    mpq_denref(type->array.vsize->val.num));
3261                         type->array.size = mpz_get_si(q);
3262                         mpz_clear(q);
3263                 }
3264                 ret.array.elmnts = calloc(type->array.size,
3265                                           sizeof(ret.array.elmnts[0]));
3266                 for (i = 0; ret.array.elmnts && i < type->array.size; i++)
3267                         ret.array.elmnts[i] = val_init(type->array.member);
3268                 return ret;
3269         }
3270
3271         static void array_free(struct value val)
3272         {
3273                 int i;
3274
3275                 if (val.array.elmnts)
3276                         for (i = 0; i < val.type->array.size; i++)
3277                                 free_value(val.array.elmnts[i]);
3278                 free(val.array.elmnts);
3279         }
3280
3281         static int array_compat(struct type *require, struct type *have)
3282         {
3283                 if (have->compat != require->compat)
3284                         return 0;
3285                 /* Both are arrays, so we can look at details */
3286                 if (!type_compat(require->array.member, have->array.member, 0))
3287                         return 0;
3288                 if (require->array.vsize == NULL && have->array.vsize == NULL)
3289                         return require->array.size == have->array.size;
3290
3291                 return require->array.vsize == have->array.vsize;
3292         }
3293
3294         static void array_print_type(struct type *type, FILE *f)
3295         {
3296                 fputs("[", f);
3297                 if (type->array.vsize) {
3298                         struct binding *b = type->array.vsize->name;
3299                         fprintf(f, "%.*s]", b->name.len, b->name.txt);
3300                 } else
3301                         fprintf(f, "%d]", type->array.size);
3302                 type_print(type->array.member, f);
3303         }
3304
3305         static struct type array_prototype = {
3306                 .prepare = array_prepare,
3307                 .init = array_init,
3308                 .print_type = array_print_type,
3309                 .compat = array_compat,
3310                 .free = array_free,
3311         };
3312
3313 ###### type grammar
3314
3315         | [ NUMBER ] Type ${
3316                 $0 = calloc(1, sizeof(struct type));
3317                 *($0) = array_prototype;
3318                 $0->array.member = $<4;
3319                 $0->array.vsize = NULL;
3320                 {
3321                 char tail[3];
3322                 mpq_t num;
3323                 if (number_parse(num, tail, $2.txt) == 0)
3324                         tok_err(config2context(config), "error: unrecognised number", &$2);
3325                 else if (tail[0])
3326                         tok_err(config2context(config), "error: unsupported number suffix", &$2);
3327                 else {
3328                         $0->array.size = mpz_get_ui(mpq_numref(num));
3329                         if (mpz_cmp_ui(mpq_denref(num), 1) != 0) {
3330                                 tok_err(config2context(config), "error: array size must be an integer",
3331                                         &$2);
3332                         } else if (mpz_cmp_ui(mpq_numref(num), 1UL << 30) >= 0)
3333                                 tok_err(config2context(config), "error: array size is too large",
3334                                         &$2);
3335                 }
3336                 }
3337         }$
3338
3339         | [ IDENTIFIER ] Type ${ {
3340                 struct variable *v = var_ref(config2context(config), $2.txt);
3341
3342                 if (!v)
3343                         tok_err(config2context(config), "error: name undeclared", &$2);
3344                 else if (!v->constant)
3345                         tok_err(config2context(config), "error: array size must be a constant", &$2);
3346
3347                 $0 = calloc(1, sizeof(struct type));
3348                 *($0) = array_prototype;
3349                 $0->array.member = $<4;
3350                 $0->array.size = 0;
3351                 $0->array.vsize = v;
3352         } }$
3353
3354 ###### Binode types
3355         Index,
3356
3357 ###### variable grammar
3358
3359         | Variable [ Expression ] ${ {
3360                 struct binode *b = new(binode);
3361                 b->op = Index;
3362                 b->left = $<1;
3363                 b->right = $<3;
3364                 $0 = b;
3365         } }$
3366
3367 ###### print binode cases
3368         case Index:
3369                 print_exec(b->left, -1, 0);
3370                 printf("[");
3371                 print_exec(b->right, -1, 0);
3372                 printf("]");
3373                 break;
3374
3375 ###### propagate binode cases
3376         case Index:
3377                 /* left must be an array, right must be a number,
3378                  * result is the member type of the array
3379                  */
3380                 propagate_types(b->right, c, ok, Tnum, 0);
3381                 t = propagate_types(b->left, c, ok, NULL, rules & Rnoconstant);
3382                 if (!t || t->compat != array_compat) {
3383                         type_err(c, "error: %1 cannot be indexed", prog, t, 0, NULL);
3384                         *ok = 0;
3385                         return NULL;
3386                 } else {
3387                         if (!type_compat(type, t->array.member, rules)) {
3388                                 type_err(c, "error: have %1 but need %2", prog,
3389                                          t->array.member, rules, type);
3390                                 *ok = 0;
3391                         }
3392                         return t->array.member;
3393                 }
3394                 break;
3395
3396 ###### interp binode cases
3397         case Index: {
3398                 mpz_t q;
3399                 long i;
3400
3401                 lleft = linterp_exec(b->left);
3402                 right = interp_exec(b->right);
3403                 mpz_init(q);
3404                 mpz_tdiv_q(q, mpq_numref(right.num), mpq_denref(right.num));
3405                 i = mpz_get_si(q);
3406                 mpz_clear(q);
3407
3408                 if (i >= 0 && i < lleft->type->array.size)
3409                         lrv = &lleft->array.elmnts[i];
3410                 else
3411                         rv = val_init(lleft->type->array.member);
3412                 break;
3413         }
3414
3415 ### Finally the whole program.
3416
3417 Somewhat reminiscent of Pascal a (current) Ocean program starts with
3418 the keyword "program" and a list of variable names which are assigned
3419 values from command line arguments.  Following this is a `block` which
3420 is the code to execute.
3421
3422 As this is the top level, several things are handled a bit
3423 differently.
3424 The whole program is not interpreted by `interp_exec` as that isn't
3425 passed the argument list which the program requires.  Similarly type
3426 analysis is a bit more interesting at this level.
3427
3428 ###### Binode types
3429         Program,
3430
3431 ###### Parser: grammar
3432
3433         $*binode
3434         Program -> program OpenScope Varlist Block OptNL ${
3435                 $0 = new(binode);
3436                 $0->op = Program;
3437                 $0->left = reorder_bilist($<3);
3438                 $0->right = $<4;
3439                 var_block_close(config2context(config), CloseSequential);
3440                 if (config2context(config)->scope_stack) abort();
3441                 }$
3442                 | ERROR ${
3443                         tok_err(config2context(config),
3444                                 "error: unhandled parse error", &$1);
3445                 }$
3446
3447         Varlist -> Varlist ArgDecl ${
3448                         $0 = new(binode);
3449                         $0->op = Program;
3450                         $0->left = $<1;
3451                         $0->right = $<2;
3452                 }$
3453                 | ${ $0 = NULL; }$
3454
3455         $*var
3456         ArgDecl -> IDENTIFIER ${ {
3457                 struct variable *v = var_decl(config2context(config), $1.txt);
3458                 $0 = new(var);
3459                 $0->var = v;
3460         } }$
3461
3462         ## Grammar
3463
3464 ###### print binode cases
3465         case Program:
3466                 do_indent(indent, "program");
3467                 for (b2 = cast(binode, b->left); b2; b2 = cast(binode, b2->right)) {
3468                         printf(" ");
3469                         print_exec(b2->left, 0, 0);
3470                 }
3471                 if (bracket)
3472                         printf(" {\n");
3473                 else
3474                         printf(":\n");
3475                 print_exec(b->right, indent+1, bracket);
3476                 if (bracket)
3477                         do_indent(indent, "}\n");
3478                 break;
3479
3480 ###### propagate binode cases
3481         case Program: abort();
3482
3483 ###### core functions
3484
3485         static int analyse_prog(struct exec *prog, struct parse_context *c)
3486         {
3487                 struct binode *b = cast(binode, prog);
3488                 int ok = 1;
3489
3490                 if (!b)
3491                         return 0;
3492                 do {
3493                         ok = 1;
3494                         propagate_types(b->right, c, &ok, Tnone, 0);
3495                 } while (ok == 2);
3496                 if (!ok)
3497                         return 0;
3498
3499                 for (b = cast(binode, b->left); b; b = cast(binode, b->right)) {
3500                         struct var *v = cast(var, b->left);
3501                         if (!v->var->val.type) {
3502                                 v->var->where_set = b;
3503                                 v->var->val = val_prepare(Tstr);
3504                         }
3505                 }
3506                 b = cast(binode, prog);
3507                 do {
3508                         ok = 1;
3509                         propagate_types(b->right, c, &ok, Tnone, 0);
3510                 } while (ok == 2);
3511                 if (!ok)
3512                         return 0;
3513
3514                 /* Make sure everything is still consistent */
3515                 propagate_types(b->right, c, &ok, Tnone, 0);
3516                 return !!ok;
3517         }
3518
3519         static void interp_prog(struct exec *prog, char **argv)
3520         {
3521                 struct binode *p = cast(binode, prog);
3522                 struct binode *al;
3523                 struct value v;
3524
3525                 if (!prog)
3526                         return;
3527                 al = cast(binode, p->left);
3528                 while (al) {
3529                         struct var *v = cast(var, al->left);
3530                         struct value *vl = &v->var->val;
3531
3532                         if (argv[0] == NULL) {
3533                                 printf("Not enough args\n");
3534                                 exit(1);
3535                         }
3536                         al = cast(binode, al->right);
3537                         free_value(*vl);
3538                         *vl = parse_value(vl->type, argv[0]);
3539                         if (vl->type == NULL)
3540                                 exit(1);
3541                         argv++;
3542                 }
3543                 v = interp_exec(p->right);
3544                 free_value(v);
3545         }
3546
3547 ###### interp binode cases
3548         case Program: abort();
3549
3550 ## And now to test it out.
3551
3552 Having a language requires having a "hello world" program. I'll
3553 provide a little more than that: a program that prints "Hello world"
3554 finds the GCD of two numbers, prints the first few elements of
3555 Fibonacci, and performs a binary search for a number.
3556
3557 ###### File: oceani.mk
3558         tests :: sayhello
3559         sayhello : oceani
3560                 @echo "===== TEST ====="
3561                 ./oceani --section "test: hello" oceani.mdc 55 33
3562
3563 ###### test: hello
3564
3565         program A B:
3566                 print "Hello World, what lovely oceans you have!"
3567                 /* When a variable is defined in both branches of an 'if',
3568                  * and used afterwards, the variables are merged.
3569                  */
3570                 if A > B:
3571                         bigger := "yes"
3572                 else:
3573                         bigger := "no"
3574                 print "Is", A, "bigger than", B,"? ", bigger
3575                 /* If a variable is not used after the 'if', no
3576                  * merge happens, so types can be different
3577                  */
3578                 if A > B * 2:
3579                         double:string = "yes"
3580                         print A, "is more than twice", B, "?", double
3581                 else:
3582                         double := B*2
3583                         print "double", B, "is", double
3584
3585                 a : number
3586                 a = A;
3587                 b:number = B
3588                 if a > 0 and b > 0:
3589                         while a != b:
3590                                 if a < b:
3591                                         b = b - a
3592                                 else:
3593                                         a = a - b
3594                         print "GCD of", A, "and", B,"is", a
3595                 else if a <= 0:
3596                         print a, "is not positive, cannot calculate GCD"
3597                 else:
3598                         print b, "is not positive, cannot calculate GCD"
3599
3600                 for:
3601                         togo := 10
3602                         f1 := 1; f2 := 1
3603                         print "Fibonacci:", f1,f2,
3604                 then togo = togo - 1
3605                 while togo > 0:
3606                         f3 := f1 + f2
3607                         print "", f3,
3608                         f1 = f2
3609                         f2 = f3
3610                 print ""
3611
3612                 /* Binary search... */
3613                 for:
3614                         lo:= 0; hi := 100
3615                         target := 77
3616                 while:
3617                         mid := (lo + hi) / 2
3618                         if mid == target:
3619                                 use Found
3620                         if mid < target:
3621                                 lo = mid
3622                         else:
3623                                 hi = mid
3624                         if hi - lo < 1:
3625                                 use GiveUp
3626                         use True
3627                 do: pass
3628                 case Found:
3629                         print "Yay, I found", target
3630                 case GiveUp:
3631                         print "Closest I found was", mid
3632
3633                 size::=55
3634                 list:[size]number
3635                 list[0] = 1234
3636                 for i:=1; then i = i + 1; while i < size:
3637                         n := list[i-1] * list[i-1]
3638                         list[i] = (n / 100) % 10000
3639
3640                 print "Before sort:"
3641                 for i:=0; then i = i + 1; while i < size:
3642                         print "list[",i,"]=",list[i]
3643
3644                 for i := 1; then i=i+1; while i < size:
3645                         for j:=i-1; then j=j-1; while j >= 0:
3646                                 if list[j] > list[j+1]:
3647                                         t:= list[j]
3648                                         list[j] = list[j+1]
3649                                         list[j+1] = t
3650                 print "After sort:"
3651                 for i:=0; then i = i + 1; while i < size:
3652                         print "list[",i,"]=",list[i]