]> ocean-lang.org Git - ocean/blob - csrc/oceani.mdc
oceani-tests: assorted more tests.
[ocean] / csrc / oceani.mdc
1 # Ocean Interpreter - Stoney Creek version
2
3 Ocean is intended to be a compiled language, so this interpreter is
4 not targeted at being the final product.  It is, rather, an intermediate
5 stage and fills that role in two distinct ways.
6
7 Firstly, it exists as a platform to experiment with the early language
8 design.  An interpreter is easy to write and easy to get working, so
9 the barrier for entry is lower if I aim to start with an interpreter.
10
11 Secondly, the plan for the Ocean compiler is to write it in the
12 [Ocean language](http://ocean-lang.org).  To achieve this we naturally
13 need some sort of boot-strap process and this interpreter - written in
14 portable C - will fill that role.  It will be used to bootstrap the
15 Ocean compiler.
16
17 Two features that are not needed to fill either of these roles are
18 performance and completeness.  The interpreter only needs to be fast
19 enough to run small test programs and occasionally to run the compiler
20 on itself.  It only needs to be complete enough to test aspects of the
21 design which are developed before the compiler is working, and to run
22 the compiler on itself.  Any features not used by the compiler when
23 compiling itself are superfluous.  They may be included anyway, but
24 they may not.
25
26 Nonetheless, the interpreter should end up being reasonably complete,
27 and any performance bottlenecks which appear and are easily fixed, will
28 be.
29
30 ## Current version
31
32 This second version of the interpreter exists to test out the
33 structured statement providing conditions and iteration, and simple
34 variable scoping.  Clearly we need some minimal other functionality so
35 that values can be tested and instructions iterated over.  All that
36 functionality is clearly not normative at this stage (not that
37 anything is **really** normative yet) and will change, so early test
38 code will certainly break in later versions.
39
40 The under-test parts of the language are:
41
42  - conditional/looping structured statements
43  - the `use` statement which is needed for that
44  - Variable binding using ":=" and "::=", and assignment using "=".
45
46 Elements which are present to make a usable language are:
47
48  - "blocks" of multiple statements.
49  - `pass`: a statement which does nothing.
50  - expressions: `+`, `-`, `*`, `/`, `%` can apply to numbers and `++` can
51    catenate strings.  `and`, `or`, `not` manipulate Booleans, and
52    normal comparison operators can work on all three types.
53  - `print`: will print the values in a list of expressions.
54  - `program`: is given a list of identifiers to initialize from
55    arguments.
56
57 ## Naming
58
59 Versions of the interpreter which obviously do not support a complete
60 language will be named after creeks and streams.  This one is Stoney
61 Creek.
62
63 Once we have something reasonably resembling a complete language, the
64 names of rivers will be used.
65 Early versions of the compiler will be named after seas.  Major
66 releases of the compiler will be named after oceans.  Hopefully I will
67 be finished once I get to the Pacific Ocean release.
68
69 ## Outline
70
71 As well as parsing and executing a program, the interpreter can print
72 out the program from the parsed internal structure.  This is useful
73 for validating the parsing.
74 So the main requirements of the interpreter are:
75
76 - Parse the program, possibly with tracing,
77 - Analyse the parsed program to ensure consistency,
78 - Print the program,
79 - Execute the program.
80
81 This is all performed by a single C program extracted with
82 `parsergen`.
83
84 There will be two formats for printing the program: a default and one
85 that uses bracketing.  So a `--bracket` command line option is needed
86 for that.  Normally the first code section found is used, however an
87 alternate section can be requested so that a file (such as this one)
88 can contain multiple programs This is effected with the `--section`
89 option.
90
91 This code must be compiled with `-fplan9-extensions` so that anonymous
92 structures can be used.
93
94 ###### File: oceani.mk
95
96         myCFLAGS := -Wall -g -fplan9-extensions
97         CFLAGS := $(filter-out $(myCFLAGS),$(CFLAGS)) $(myCFLAGS)
98         myLDLIBS:= libparser.o libscanner.o libmdcode.o -licuuc
99         LDLIBS := $(filter-out $(myLDLIBS),$(LDLIBS)) $(myLDLIBS)
100         ## libs
101         all :: $(LDLIBS) oceani
102         oceani.c oceani.h : oceani.mdc parsergen
103                 ./parsergen -o oceani --LALR --tag Parser oceani.mdc
104         oceani.mk: oceani.mdc md2c
105                 ./md2c oceani.mdc
106
107         oceani: oceani.o $(LDLIBS)
108                 $(CC) $(CFLAGS) -o oceani oceani.o $(LDLIBS)
109
110 ###### Parser: header
111         ## macros
112         ## ast
113         struct parse_context {
114                 struct token_config config;
115                 char *file_name;
116                 int parse_error;
117                 ## parse context
118         };
119
120 ###### macros
121
122         #define container_of(ptr, type, member) ({                      \
123                 const typeof( ((type *)0)->member ) *__mptr = (ptr);    \
124                 (type *)( (char *)__mptr - offsetof(type,member) );})
125
126         #define config2context(_conf) container_of(_conf, struct parse_context, \
127                 config)
128
129 ###### Parser: code
130
131         #include <unistd.h>
132         #include <stdlib.h>
133         #include <fcntl.h>
134         #include <errno.h>
135         #include <sys/mman.h>
136         #include <string.h>
137         #include <stdio.h>
138         #include <locale.h>
139         #include <malloc.h>
140         #include "mdcode.h"
141         #include "scanner.h"
142         #include "parser.h"
143
144         ## includes
145
146         #include "oceani.h"
147
148         ## forward decls
149         ## value functions
150         ## ast functions
151         ## core functions
152
153         #include <getopt.h>
154         static char Usage[] = "Usage: oceani --trace --print --noexec --brackets"
155                               "--section=SectionName prog.ocn\n";
156         static const struct option long_options[] = {
157                 {"trace",     0, NULL, 't'},
158                 {"print",     0, NULL, 'p'},
159                 {"noexec",    0, NULL, 'n'},
160                 {"brackets",  0, NULL, 'b'},
161                 {"section",   1, NULL, 's'},
162                 {NULL,        0, NULL, 0},
163         };
164         const char *options = "tpnbs";
165         int main(int argc, char *argv[])
166         {
167                 int fd;
168                 int len;
169                 char *file;
170                 struct section *s;
171                 char *section = NULL;
172                 struct parse_context context = {
173                         .config = {
174                                 .ignored = (1 << TK_line_comment)
175                                          | (1 << TK_block_comment),
176                                 .number_chars = ".,_+-",
177                                 .word_start = "_",
178                                 .word_cont = "_",
179                         },
180                 };
181                 int doprint=0, dotrace=0, doexec=1, brackets=0;
182                 struct exec **prog;
183                 int opt;
184                 while ((opt = getopt_long(argc, argv, options, long_options, NULL))
185                        != -1) {
186                         switch(opt) {
187                         case 't': dotrace=1; break;
188                         case 'p': doprint=1; break;
189                         case 'n': doexec=0; break;
190                         case 'b': brackets=1; break;
191                         case 's': section = optarg; break;
192                         default: fprintf(stderr, Usage);
193                                 exit(1);
194                         }
195                 }
196                 if (optind >= argc) {
197                         fprintf(stderr, "oceani: no input file given\n");
198                         exit(1);
199                 }
200                 fd = open(argv[optind], O_RDONLY);
201                 if (fd < 0) {
202                         fprintf(stderr, "oceani: cannot open %s\n", argv[optind]);
203                         exit(1);
204                 }
205                 context.file_name = argv[optind];
206                 len = lseek(fd, 0, 2);
207                 file = mmap(NULL, len, PROT_READ, MAP_SHARED, fd, 0);
208                 s = code_extract(file, file+len, NULL);
209                 if (!s) {
210                         fprintf(stderr, "oceani: could not find any code in %s\n",
211                                 argv[optind]);
212                         exit(1);
213                 }
214
215                 ## context initialization
216
217                 if (section) {
218                         struct section *ss;
219                         for (ss = s; ss; ss = ss->next) {
220                                 struct text sec = ss->section;
221                                 if (sec.len == strlen(section) &&
222                                     strncmp(sec.txt, section, sec.len) == 0)
223                                         break;
224                         }
225                         if (ss)
226                                 prog = parse_oceani(ss->code, &context.config,
227                                                     dotrace ? stderr : NULL);
228                         else {
229                                 fprintf(stderr, "oceani: cannot find section %s\n",
230                                         section);
231                                 exit(1);
232                         }
233                 } else
234                         prog = parse_oceani(s->code, &context.config,
235                                     dotrace ? stderr : NULL);
236                 if (!prog) {
237                         fprintf(stderr, "oceani: fatal parser error.\n");
238                         context.parse_error = 1;
239                 }
240                 if (prog && doprint)
241                         print_exec(*prog, 0, brackets);
242                 if (prog && doexec && !context.parse_error) {
243                         if (!analyse_prog(*prog, &context)) {
244                                 fprintf(stderr, "oceani: type error in program - not running.\n");
245                                 exit(1);
246                         }
247                         interp_prog(*prog, argv+optind+1);
248                 }
249                 if (prog) {
250                         free_exec(*prog);
251                         free(prog);
252                 }
253                 while (s) {
254                         struct section *t = s->next;
255                         code_free(s->code);
256                         free(s);
257                         s = t;
258                 }
259                 ## free context vars
260                 ## free context types
261                 exit(context.parse_error ? 1 : 0);
262         }
263
264 ### Analysis
265
266 The four requirements of parse, analyse, print, interpret apply to
267 each language element individually so that is how most of the code
268 will be structured.
269
270 Three of the four are fairly self explanatory.  The one that requires
271 a little explanation is the analysis step.
272
273 The current language design does not require the types of variables to
274 be declared, but they must still have a single type.  Different
275 operations impose different requirements on the variables, for example
276 addition requires both arguments to be numeric, and assignment
277 requires the variable on the left to have the same type as the
278 expression on the right.
279
280 Analysis involves propagating these type requirements around and
281 consequently setting the type of each variable.  If any requirements
282 are violated (e.g. a string is compared with a number) or if a
283 variable needs to have two different types, then an error is raised
284 and the program will not run.
285
286 If the same variable is declared in both branchs of an 'if/else', or
287 in all cases of a 'switch' then the multiple instances may be merged
288 into just one variable if the variable is references after the
289 conditional statement.  When this happens, the types must naturally be
290 consistent across all the branches.  When the variable is not used
291 outside the if, the variables in the different branches are distinct
292 and can be of different types.
293
294 Determining the types of all variables early is important for
295 processing command line arguments.  These can be assigned to any type
296 of variable, but we must first know the correct type so any required
297 conversion can happen.  If a variable is associated with a command
298 line argument but no type can be interpreted (e.g. the variable is
299 only ever used in a `print` statement), then the type is set to
300 'string'.
301
302 Undeclared names may only appear in "use" statements and "case" expressions.
303 These names are given a type of "label" and a unique value.
304 This allows them to fill the role of a name in an enumerated type, which
305 is useful for testing the `switch` statement.
306
307 As we will see, the condition part of a `while` statement can return
308 either a Boolean or some other type.  This requires that the expect
309 type that gets passed around comprises a type (`enum vtype`) and a
310 flag to indicate that `Vbool` is also permitted.
311
312 As there are, as yet, no distinct types that are compatible, there
313 isn't much subtlety in the analysis.  When we have distinct number
314 types, this will become more interesting.
315
316 #### Error reporting
317
318 When analysis discovers an inconsistency it needs to report an error;
319 just refusing to run the code ensures that the error doesn't cascade,
320 but by itself it isn't very useful.  A clear understand of the sort of
321 error message that are useful will help guide the process of analysis.
322
323 At a simplistic level, the only sort of error that type analysis can
324 report is that the type of some construct doesn't match a contextual
325 requirement.  For example, in `4 + "hello"` the addition provides a
326 contextual requirement for numbers, but `"hello"` is not a number.  In
327 this particular example no further information is needed as the types
328 are obvious from local information.  When a variable is involved that
329 isn't the case.  It may be helpful to explain why the variable has a
330 particular type, by indicating the location where the type was set,
331 whether by declaration or usage.
332
333 Using a recursive-descent analysis we can easily detect a problem at
334 multiple locations. In "`hello:= "there"; 4 + hello`" the addition
335 will detect that one argument is not a number and the usage of `hello`
336 will detect that a number was wanted, but not provided.  In this
337 (early) version of the language, we will generate error reports at
338 multiple locations, so the use of `hello` will report an error and
339 explain were the value was set, and the addition will report an error
340 and say why numbers are needed.  To be able to report locations for
341 errors, each language element will need to record a file location
342 (line and column) and each variable will need to record the language
343 element where its type was set.  For now we will assume that each line
344 of an error message indicates one location in the file, and up to 2
345 types.  So we provide a `printf`-like function which takes a format, a
346 language (a `struct exec` which has not yet been introduced), and 2
347 types. "`%1`" reports the first type, "`%2`" reports the second.  We
348 will need a function to print the location, once we know how that is
349 stored.  As will be explained later, there are sometimes extra rules for
350 type matching and they might affect error messages, we need to pass those
351 in too.
352
353 As well as type errors, we sometimes need to report problems with
354 tokens, which might be unexpected or might name a type that has not
355 been defined.  For these we have `tok_err()` which reports an error
356 with a given token.  Each of the error functions sets the flag in the
357 context so indicate that parsing failed.
358
359 ###### forward decls
360
361         static void fput_loc(struct exec *loc, FILE *f);
362
363 ###### core functions
364
365         static void type_err(struct parse_context *c,
366                              char *fmt, struct exec *loc,
367                              struct type *t1, int rules, struct type *t2)
368         {
369                 fprintf(stderr, "%s:", c->file_name);
370                 fput_loc(loc, stderr);
371                 for (; *fmt ; fmt++) {
372                         if (*fmt != '%') {
373                                 fputc(*fmt, stderr);
374                                 continue;
375                         }
376                         fmt++;
377                         switch (*fmt) {
378                         case '%': fputc(*fmt, stderr); break;
379                         default: fputc('?', stderr); break;
380                         case '1':
381                                 type_print(t1, stderr);
382                                 break;
383                         case '2':
384                                 type_print(t2, stderr);
385                                 break;
386                         ## format cases
387                         }
388                 }
389                 fputs("\n", stderr);
390                 c->parse_error = 1;
391         }
392
393         static void tok_err(struct parse_context *c, char *fmt, struct token *t)
394         {
395                 fprintf(stderr, "%s:%d:%d: %s: %.*s\n", c->file_name, t->line, t->col, fmt,
396                         t->txt.len, t->txt.txt);
397                 c->parse_error = 1;
398         }
399
400 ## Data Structures
401
402 One last introductory step before detailing the language elements and
403 providing their four requirements is to establish the data structures
404 to store these elements.
405
406 There are two key objects that we need to work with: executable
407 elements which comprise the program, and values which the program
408 works with.  Between these are the variables in their various scopes
409 which hold the values, and types which classify the values stored and
410 manipulatd by executables.
411
412 ### Types
413
414 Values come in a wide range of types, with more likely to be added.
415 Each type needs to be able to parse and print its own values (for
416 convenience at least) as well as to compare two values, at least for
417 equality and possibly for order.  For now, values might need to be
418 duplicated and freed, though eventually such manipulations will be
419 better integrated into the language.
420
421 Rather than requiring every numeric type to support all numeric
422 operations (add, multiple, etc), we allow types to be able to present
423 as one of a few standard types: integer, float, and fraction.  The
424 existance of these conversion functions enable types to determine if
425 they are compatible with other types.
426
427 Named type are stored in a simple linked list.  Objects of each type are "values"
428 which are often passed around by value.
429
430 ###### ast
431
432         struct value {
433                 struct type *type;
434                 union {
435                         ## value union fields
436                 };
437         };
438
439         struct type {
440                 struct text name;
441                 struct type *next;
442                 struct value (*init)(struct type *type);
443                 struct value (*prepare)(struct type *type);
444                 struct value (*parse)(struct type *type, char *str);
445                 void (*print)(struct value val);
446                 void (*print_type)(struct type *type, FILE *f);
447                 int (*cmp_order)(struct value v1, struct value v2);
448                 int (*cmp_eq)(struct value v1, struct value v2);
449                 struct value (*dup)(struct value val);
450                 void (*free)(struct value val);
451                 int (*compat)(struct type *this, struct type *other);
452                 long long (*to_int)(struct value *v);
453                 double (*to_float)(struct value *v);
454                 int (*to_mpq)(mpq_t *q, struct value *v);
455                 union {
456                         ## type union fields
457                 };
458         };
459
460 ###### parse context
461
462         struct type *typelist;
463
464 ###### ast functions
465
466         static struct type *find_type(struct parse_context *c, struct text s)
467         {
468                 struct type *l = c->typelist;
469
470                 while (l &&
471                        text_cmp(l->name, s) != 0)
472                                 l = l->next;
473                 return l;
474         }
475
476         static struct type *add_type(struct parse_context *c, struct text s,
477                                      struct type *proto)
478         {
479                 struct type *n;
480
481                 n = calloc(1, sizeof(*n));
482                 *n = *proto;
483                 n->name = s;
484                 n->next = c->typelist;
485                 c->typelist = n;
486                 return n;
487         }
488
489         static void free_type(struct type *t)
490         {
491                 /* The type is always a reference to something in the
492                  * context, so we don't need to free anything.
493                  */
494         }
495
496         static void free_value(struct value v)
497         {
498                 if (v.type)
499                         v.type->free(v);
500         }
501
502         static int type_compat(struct type *require, struct type *have, int rules)
503         {
504                 if ((rules & Rboolok) && have == Tbool)
505                         return 1;
506                 if ((rules & Rnolabel) && have == Tlabel)
507                         return 0;
508                 if (!require || !have)
509                         return 1;
510
511                 if (require->compat)
512                         return require->compat(require, have);
513
514                 return require == have;
515         }
516
517         static void type_print(struct type *type, FILE *f)
518         {
519                 if (!type)
520                         fputs("*unknown*type*", f);
521                 else if (type->name.len)
522                         fprintf(f, "%.*s", type->name.len, type->name.txt);
523                 else if (type->print_type)
524                         type->print_type(type, f);
525                 else
526                         fputs("*invalid*type*", f);
527         }
528
529         static struct value val_prepare(struct type *type)
530         {
531                 struct value rv;
532
533                 if (type)
534                         return type->prepare(type);
535                 rv.type = type;
536                 return rv;
537         }
538
539         static struct value val_init(struct type *type)
540         {
541                 struct value rv;
542
543                 if (type)
544                         return type->init(type);
545                 rv.type = type;
546                 return rv;
547         }
548
549         static struct value dup_value(struct value v)
550         {
551                 if (v.type)
552                         return v.type->dup(v);
553                 return v;
554         }
555
556         static int value_cmp(struct value left, struct value right)
557         {
558                 if (left.type && left.type->cmp_order)
559                         return left.type->cmp_order(left, right);
560                 if (left.type && left.type->cmp_eq)
561                         return left.type->cmp_eq(left, right);
562                 return -1;
563         }
564
565         static void print_value(struct value v)
566         {
567                 if (v.type && v.type->print)
568                         v.type->print(v);
569                 else
570                         printf("*Unknown*");
571         }
572
573         static struct value parse_value(struct type *type, char *arg)
574         {
575                 struct value rv;
576
577                 if (type && type->parse)
578                         return type->parse(type, arg);
579                 rv.type = NULL;
580                 return rv;
581         }
582
583 ###### forward decls
584
585         static void free_value(struct value v);
586         static int type_compat(struct type *require, struct type *have, int rules);
587         static void type_print(struct type *type, FILE *f);
588         static struct value val_init(struct type *type);
589         static struct value dup_value(struct value v);
590         static int value_cmp(struct value left, struct value right);
591         static void print_value(struct value v);
592         static struct value parse_value(struct type *type, char *arg);
593
594 ###### free context types
595
596         while (context.typelist) {
597                 struct type *t = context.typelist;
598
599                 context.typelist = t->next;
600                 free(t);
601         }
602
603 #### Base Types
604
605 Values of the base types can be numbers, which we represent as
606 multi-precision fractions, strings, Booleans and labels.  When
607 analysing the program we also need to allow for places where no value
608 is meaningful (type `Tnone`) and where we don't know what type to
609 expect yet (type is `NULL`).
610
611 Values are never shared, they are always copied when used, and freed
612 when no longer needed.
613
614 When propagating type information around the program, we need to
615 determine if two types are compatible, where type `NULL` is compatible
616 with anything.  There are two special cases with type compatibility,
617 both related to the Conditional Statement which will be described
618 later.  In some cases a Boolean can be accepted as well as some other
619 primary type, and in others any type is acceptable except a label (`Vlabel`).
620 A separate function encode these cases will simplify some code later.
621
622 When assigning command line arguments to variables, we need to be able
623 to parse each type from a string.
624
625 ###### includes
626         #include <gmp.h>
627         #include "string.h"
628         #include "number.h"
629
630 ###### libs
631         myLDLIBS := libnumber.o libstring.o -lgmp
632         LDLIBS := $(filter-out $(myLDLIBS),$(LDLIBS)) $(myLDLIBS)
633
634 ###### type union fields
635         enum vtype {Vnone, Vstr, Vnum, Vbool, Vlabel} vtype;
636
637 ###### value union fields
638         struct text str;
639         mpq_t num;
640         int bool;
641         void *label;
642
643 ###### ast functions
644         static void _free_value(struct value v)
645         {
646                 switch (v.type->vtype) {
647                 case Vnone: break;
648                 case Vstr: free(v.str.txt); break;
649                 case Vnum: mpq_clear(v.num); break;
650                 case Vlabel:
651                 case Vbool: break;
652                 }
653         }
654
655 ###### value functions
656
657         static struct value _val_prepare(struct type *type)
658         {
659                 struct value rv;
660
661                 rv.type = type;
662                 switch(type->vtype) {
663                 case Vnone:
664                         break;
665                 case Vnum:
666                         memset(&rv.num, 0, sizeof(rv.num));
667                         break;
668                 case Vstr:
669                         rv.str.txt = NULL;
670                         rv.str.len = 0;
671                         break;
672                 case Vbool:
673                         rv.bool = 0;
674                         break;
675                 case Vlabel:
676                         rv.label = NULL;
677                         break;
678                 }
679                 return rv;
680         }
681
682         static struct value _val_init(struct type *type)
683         {
684                 struct value rv;
685
686                 rv.type = type;
687                 switch(type->vtype) {
688                 case Vnone:
689                         break;
690                 case Vnum:
691                         mpq_init(rv.num); break;
692                 case Vstr:
693                         rv.str.txt = malloc(1);
694                         rv.str.len = 0;
695                         break;
696                 case Vbool:
697                         rv.bool = 0;
698                         break;
699                 case Vlabel:
700                         rv.label = NULL;
701                         break;
702                 }
703                 return rv;
704         }
705
706         static struct value _dup_value(struct value v)
707         {
708                 struct value rv;
709                 rv.type = v.type;
710                 switch (rv.type->vtype) {
711                 case Vnone:
712                         break;
713                 case Vlabel:
714                         rv.label = v.label;
715                         break;
716                 case Vbool:
717                         rv.bool = v.bool;
718                         break;
719                 case Vnum:
720                         mpq_init(rv.num);
721                         mpq_set(rv.num, v.num);
722                         break;
723                 case Vstr:
724                         rv.str.len = v.str.len;
725                         rv.str.txt = malloc(rv.str.len);
726                         memcpy(rv.str.txt, v.str.txt, v.str.len);
727                         break;
728                 }
729                 return rv;
730         }
731
732         static int _value_cmp(struct value left, struct value right)
733         {
734                 int cmp;
735                 if (left.type != right.type)
736                         return left.type - right.type;
737                 switch (left.type->vtype) {
738                 case Vlabel: cmp = left.label == right.label ? 0 : 1; break;
739                 case Vnum: cmp = mpq_cmp(left.num, right.num); break;
740                 case Vstr: cmp = text_cmp(left.str, right.str); break;
741                 case Vbool: cmp = left.bool - right.bool; break;
742                 case Vnone: cmp = 0;
743                 }
744                 return cmp;
745         }
746
747         static void _print_value(struct value v)
748         {
749                 switch (v.type->vtype) {
750                 case Vnone:
751                         printf("*no-value*"); break;
752                 case Vlabel:
753                         printf("*label-%p*", v.label); break;
754                 case Vstr:
755                         printf("%.*s", v.str.len, v.str.txt); break;
756                 case Vbool:
757                         printf("%s", v.bool ? "True":"False"); break;
758                 case Vnum:
759                         {
760                         mpf_t fl;
761                         mpf_init2(fl, 20);
762                         mpf_set_q(fl, v.num);
763                         gmp_printf("%Fg", fl);
764                         mpf_clear(fl);
765                         break;
766                         }
767                 }
768         }
769
770         static struct value _parse_value(struct type *type, char *arg)
771         {
772                 struct value val;
773                 struct text tx;
774                 int neg = 0;
775                 char tail[3] = "";
776
777                 val.type = type;
778                 switch(type->vtype) {
779                 case Vlabel:
780                 case Vnone:
781                         val.type = NULL;
782                         break;
783                 case Vstr:
784                         val.str.len = strlen(arg);
785                         val.str.txt = malloc(val.str.len);
786                         memcpy(val.str.txt, arg, val.str.len);
787                         break;
788                 case Vnum:
789                         if (*arg == '-') {
790                                 neg = 1;
791                                 arg++;
792                         }
793                         tx.txt = arg; tx.len = strlen(tx.txt);
794                         if (number_parse(val.num, tail, tx) == 0)
795                                 mpq_init(val.num);
796                         else if (neg)
797                                 mpq_neg(val.num, val.num);
798                         if (tail[0]) {
799                                 printf("Unsupported suffix: %s\n", arg);
800                                 val.type = NULL;
801                         }
802                         break;
803                 case Vbool:
804                         if (strcasecmp(arg, "true") == 0 ||
805                             strcmp(arg, "1") == 0)
806                                 val.bool = 1;
807                         else if (strcasecmp(arg, "false") == 0 ||
808                                  strcmp(arg, "0") == 0)
809                                 val.bool = 0;
810                         else {
811                                 printf("Bad bool: %s\n", arg);
812                                 val.type = NULL;
813                         }
814                         break;
815                 }
816                 return val;
817         }
818
819         static void _free_value(struct value v);
820
821         static struct type base_prototype = {
822                 .init = _val_init,
823                 .prepare = _val_prepare,
824                 .parse = _parse_value,
825                 .print = _print_value,
826                 .cmp_order = _value_cmp,
827                 .cmp_eq = _value_cmp,
828                 .dup = _dup_value,
829                 .free = _free_value,
830         };
831
832         static struct type *Tbool, *Tstr, *Tnum, *Tnone, *Tlabel;
833
834 ###### ast functions
835         static struct type *add_base_type(struct parse_context *c, char *n, enum vtype vt)
836         {
837                 struct text txt = { n, strlen(n) };
838                 struct type *t;
839
840                 t = add_type(c, txt, &base_prototype);
841                 t->vtype = vt;
842                 return t;
843         }
844
845 ###### context initialization
846
847         Tbool  = add_base_type(&context, "Boolean", Vbool);
848         Tstr   = add_base_type(&context, "string", Vstr);
849         Tnum   = add_base_type(&context, "number", Vnum);
850         Tnone  = add_base_type(&context, "none", Vnone);
851         Tlabel = add_base_type(&context, "label", Vlabel);
852
853 ### Variables
854
855 Variables are scoped named values.  We store the names in a linked
856 list of "bindings" sorted lexically, and use sequential search and
857 insertion sort.
858
859 ###### ast
860
861         struct binding {
862                 struct text name;
863                 struct binding *next;   // in lexical order
864                 ## binding fields
865         };
866
867 This linked list is stored in the parse context so that "reduce"
868 functions can find or add variables, and so the analysis phase can
869 ensure that every variable gets a type.
870
871 ###### parse context
872
873         struct binding *varlist;  // In lexical order
874
875 ###### ast functions
876
877         static struct binding *find_binding(struct parse_context *c, struct text s)
878         {
879                 struct binding **l = &c->varlist;
880                 struct binding *n;
881                 int cmp = 1;
882
883                 while (*l &&
884                         (cmp = text_cmp((*l)->name, s)) < 0)
885                                 l = & (*l)->next;
886                 if (cmp == 0)
887                         return *l;
888                 n = calloc(1, sizeof(*n));
889                 n->name = s;
890                 n->next = *l;
891                 *l = n;
892                 return n;
893         }
894
895 Each name can be linked to multiple variables defined in different
896 scopes.  Each scope starts where the name is declared and continues
897 until the end of the containing code block.  Scopes of a given name
898 cannot nest, so a declaration while a name is in-scope is an error.
899
900 ###### binding fields
901         struct variable *var;
902
903 ###### ast
904         struct variable {
905                 struct variable *previous;
906                 struct value val;
907                 struct binding *name;
908                 struct exec *where_decl;// where name was declared
909                 struct exec *where_set; // where type was set
910                 ## variable fields
911         };
912
913 While the naming seems strange, we include local constants in the
914 definition of variables.  A name declared `var := value` can
915 subsequently be changed, but a name declared `var ::= value` cannot -
916 it is constant
917
918 ###### variable fields
919         int constant;
920
921 Scopes in parallel branches can be partially merged.  More
922 specifically, if a given name is declared in both branches of an
923 if/else then its scope is a candidate for merging.  Similarly if
924 every branch of an exhaustive switch (e.g. has an "else" clause)
925 declares a given name, then the scopes from the branches are
926 candidates for merging.
927
928 Note that names declared inside a loop (which is only parallel to
929 itself) are never visible after the loop.  Similarly names defined in
930 scopes which are not parallel, such as those started by `for` and
931 `switch`, are never visible after the scope.  Only variables defined in
932 both `then` and `else` (including the implicit then after an `if`, and
933 excluding `then` used with `for`) and in all `case`s and `else` of a
934 `switch` or `while` can be visible beyond the `if`/`switch`/`while`.
935
936 Labels, which are a bit like variables, follow different rules.
937 Labels are not explicitly declared, but if an undeclared name appears
938 in a context where a label is legal, that effectively declares the
939 name as a label.  The declaration remains in force (or in scope) at
940 least to the end of the immediately containing block and conditionally
941 in any larger containing block which does not declare the name in some
942 other way.  Importantly, the conditional scope extension happens even
943 if the label is only used in one parallel branch of a conditional --
944 when used in one branch it is treated as having been declared in all
945 branches.
946
947 Merge candidates are tentatively visible beyond the end of the
948 branching statement which creates them.  If the name is used, the
949 merge is affirmed and they become a single variable visible at the
950 outer layer.  If not - if it is redeclared first - the merge lapses.
951
952 To track scopes we have an extra stack, implemented as a linked list,
953 which roughly parallels the parse stack and which is used exclusively
954 for scoping.  When a new scope is opened, a new frame is pushed and
955 the child-count of the parent frame is incremented.  This child-count
956 is used to distinguish between the first of a set of parallel scopes,
957 in which declared variables must not be in scope, and subsequent
958 branches, whether they must already be conditionally scoped.
959
960 To push a new frame *before* any code in the frame is parsed, we need a
961 grammar reduction.  This is most easily achieved with a grammar
962 element which derives the empty string, and creates the new scope when
963 it is recognized.  This can be placed, for example, between a keyword
964 like "if" and the code following it.
965
966 ###### ast
967         struct scope {
968                 struct scope *parent;
969                 int child_count;
970         };
971
972 ###### parse context
973         int scope_depth;
974         struct scope *scope_stack;
975
976 ###### ast functions
977         static void scope_pop(struct parse_context *c)
978         {
979                 struct scope *s = c->scope_stack;
980
981                 c->scope_stack = s->parent;
982                 free(s);
983                 c->scope_depth -= 1;
984         }
985
986         static void scope_push(struct parse_context *c)
987         {
988                 struct scope *s = calloc(1, sizeof(*s));
989                 if (c->scope_stack)
990                         c->scope_stack->child_count += 1;
991                 s->parent = c->scope_stack;
992                 c->scope_stack = s;
993                 c->scope_depth += 1;
994         }
995
996 ###### Grammar
997
998         $void
999         OpenScope -> ${ scope_push(config2context(config)); }$
1000
1001
1002 Each variable records a scope depth and is in one of four states:
1003
1004 - "in scope".  This is the case between the declaration of the
1005   variable and the end of the containing block, and also between
1006   the usage with affirms a merge and the end of that block.
1007
1008   The scope depth is not greater than the current parse context scope
1009   nest depth.  When the block of that depth closes, the state will
1010   change.  To achieve this, all "in scope" variables are linked
1011   together as a stack in nesting order.
1012
1013 - "pending".  The "in scope" block has closed, but other parallel
1014   scopes are still being processed.  So far, every parallel block at
1015   the same level that has closed has declared the name.
1016
1017   The scope depth is the depth of the last parallel block that
1018   enclosed the declaration, and that has closed.
1019
1020 - "conditionally in scope".  The "in scope" block and all parallel
1021   scopes have closed, and no further mention of the name has been
1022   seen.  This state includes a secondary nest depth which records the
1023   outermost scope seen since the variable became conditionally in
1024   scope.  If a use of the name is found, the variable becomes "in
1025   scope" and that secondary depth becomes the recorded scope depth.
1026   If the name is declared as a new variable, the old variable becomes
1027   "out of scope" and the recorded scope depth stays unchanged.
1028
1029 - "out of scope".  The variable is neither in scope nor conditionally
1030   in scope.  It is permanently out of scope now and can be removed from
1031   the "in scope" stack.
1032
1033
1034 ###### variable fields
1035         int depth, min_depth;
1036         enum { OutScope, PendingScope, CondScope, InScope } scope;
1037         struct variable *in_scope;
1038
1039 ###### parse context
1040
1041         struct variable *in_scope;
1042
1043 All variables with the same name are linked together using the
1044 'previous' link.  Those variable that have
1045 been affirmatively merged all have a 'merged' pointer that points to
1046 one primary variable - the most recently declared instance. When
1047 merging variables, we need to also adjust the 'merged' pointer on any
1048 other variables that had previously been merged with the one that will
1049 no longer be primary.
1050
1051 ###### variable fields
1052         struct variable *merged;
1053
1054 ###### ast functions
1055
1056         static void variable_merge(struct variable *primary, struct variable *secondary)
1057         {
1058                 struct variable *v;
1059
1060                 if (primary->merged)
1061                         // shouldn't happen
1062                         primary = primary->merged;
1063
1064                 for (v = primary->previous; v; v=v->previous)
1065                         if (v == secondary || v == secondary->merged ||
1066                             v->merged == secondary ||
1067                             (v->merged && v->merged == secondary->merged)) {
1068                                 v->scope = OutScope;
1069                                 v->merged = primary;
1070                         }
1071         }
1072
1073 ###### free context vars
1074
1075         while (context.varlist) {
1076                 struct binding *b = context.varlist;
1077                 struct variable *v = b->var;
1078                 context.varlist = b->next;
1079                 free(b);
1080                 while (v) {
1081                         struct variable *t = v;
1082
1083                         v = t->previous;
1084                         free_value(t->val);
1085                         free(t);
1086                 }
1087         }
1088
1089 #### Manipulating Bindings
1090
1091 When a name is conditionally visible, a new declaration discards the
1092 old binding - the condition lapses.  Conversely a usage of the name
1093 affirms the visibility and extends it to the end of the containing
1094 block - i.e. the block that contains both the original declaration and
1095 the latest usage.  This is determined from `min_depth`.  When a
1096 conditionally visible variable gets affirmed like this, it is also
1097 merged with other conditionally visible variables with the same name.
1098
1099 When we parse a variable declaration we either signal an error if the
1100 name is currently bound, or create a new variable at the current nest
1101 depth if the name is unbound or bound to a conditionally scoped or
1102 pending-scope variable.  If the previous variable was conditionally
1103 scoped, it and its homonyms becomes out-of-scope.
1104
1105 When we parse a variable reference (including non-declarative
1106 assignment) we signal an error if the name is not bound or is bound to
1107 a pending-scope variable; update the scope if the name is bound to a
1108 conditionally scoped variable; or just proceed normally if the named
1109 variable is in scope.
1110
1111 When we exit a scope, any variables bound at this level are either
1112 marked out of scope or pending-scoped, depending on whether the
1113 scope was sequential or parallel.
1114
1115 When exiting a parallel scope we check if there are any variables that
1116 were previously pending and are still visible. If there are, then
1117 there weren't redeclared in the most recent scope, so they cannot be
1118 merged and must become out-of-scope.  If it is not the first of
1119 parallel scopes (based on `child_count`), we check that there was a
1120 previous binding that is still pending-scope.  If there isn't, the new
1121 variable must now be out-of-scope.
1122
1123 When exiting a sequential scope that immediately enclosed parallel
1124 scopes, we need to resolve any pending-scope variables.  If there was
1125 no `else` clause, and we cannot determine that the `switch` was exhaustive,
1126 we need to mark all pending-scope variable as out-of-scope.  Otherwise
1127 all pending-scope variables become conditionally scoped.
1128
1129 ###### ast
1130         enum closetype { CloseSequential, CloseParallel, CloseElse };
1131
1132 ###### ast functions
1133
1134         static struct variable *var_decl(struct parse_context *c, struct text s)
1135         {
1136                 struct binding *b = find_binding(c, s);
1137                 struct variable *v = b->var;
1138
1139                 switch (v ? v->scope : OutScope) {
1140                 case InScope:
1141                         /* Caller will report the error */
1142                         return NULL;
1143                 case CondScope:
1144                         for (;
1145                              v && v->scope == CondScope;
1146                              v = v->previous)
1147                                 v->scope = OutScope;
1148                         break;
1149                 default: break;
1150                 }
1151                 v = calloc(1, sizeof(*v));
1152                 v->previous = b->var;
1153                 b->var = v;
1154                 v->name = b;
1155                 v->min_depth = v->depth = c->scope_depth;
1156                 v->scope = InScope;
1157                 v->in_scope = c->in_scope;
1158                 c->in_scope = v;
1159                 v->val = val_prepare(NULL);
1160                 return v;
1161         }
1162
1163         static struct variable *var_ref(struct parse_context *c, struct text s)
1164         {
1165                 struct binding *b = find_binding(c, s);
1166                 struct variable *v = b->var;
1167                 struct variable *v2;
1168
1169                 switch (v ? v->scope : OutScope) {
1170                 case OutScope:
1171                 case PendingScope:
1172                         /* Signal an error - once that is possible */
1173                         return NULL;
1174                 case CondScope:
1175                         /* All CondScope variables of this name need to be merged
1176                          * and become InScope
1177                          */
1178                         v->depth = v->min_depth;
1179                         v->scope = InScope;
1180                         for (v2 = v->previous;
1181                              v2 && v2->scope == CondScope;
1182                              v2 = v2->previous)
1183                                 variable_merge(v, v2);
1184                         break;
1185                 case InScope:
1186                         break;
1187                 }
1188                 return v;
1189         }
1190
1191         static void var_block_close(struct parse_context *c, enum closetype ct)
1192         {
1193                 /* close of all variables that are in_scope */
1194                 struct variable *v, **vp, *v2;
1195
1196                 scope_pop(c);
1197                 for (vp = &c->in_scope;
1198                      v = *vp, v && v->depth > c->scope_depth && v->min_depth > c->scope_depth;
1199                      ) {
1200                         switch (ct) {
1201                         case CloseElse:
1202                         case CloseParallel: /* handle PendingScope */
1203                                 switch(v->scope) {
1204                                 case InScope:
1205                                 case CondScope:
1206                                         if (c->scope_stack->child_count == 1)
1207                                                 v->scope = PendingScope;
1208                                         else if (v->previous &&
1209                                                  v->previous->scope == PendingScope)
1210                                                 v->scope = PendingScope;
1211                                         else if (v->val.type == Tlabel)
1212                                                 v->scope = PendingScope;
1213                                         else if (v->name->var == v)
1214                                                 v->scope = OutScope;
1215                                         if (ct == CloseElse) {
1216                                                 /* All Pending variables with this name
1217                                                  * are now Conditional */
1218                                                 for (v2 = v;
1219                                                      v2 && v2->scope == PendingScope;
1220                                                      v2 = v2->previous)
1221                                                         v2->scope = CondScope;
1222                                         }
1223                                         break;
1224                                 case PendingScope:
1225                                         for (v2 = v;
1226                                              v2 && v2->scope == PendingScope;
1227                                              v2 = v2->previous)
1228                                                 if (v2->val.type != Tlabel)
1229                                                         v2->scope = OutScope;
1230                                         break;
1231                                 case OutScope: break;
1232                                 }
1233                                 break;
1234                         case CloseSequential:
1235                                 if (v->val.type == Tlabel)
1236                                         v->scope = PendingScope;
1237                                 switch (v->scope) {
1238                                 case InScope:
1239                                         v->scope = OutScope;
1240                                         break;
1241                                 case PendingScope:
1242                                         /* There was no 'else', so we can only become
1243                                          * conditional if we know the cases were exhaustive,
1244                                          * and that doesn't mean anything yet.
1245                                          * So only labels become conditional..
1246                                          */
1247                                         for (v2 = v;
1248                                              v2 && v2->scope == PendingScope;
1249                                              v2 = v2->previous)
1250                                                 if (v2->val.type == Tlabel) {
1251                                                         v2->scope = CondScope;
1252                                                         v2->min_depth = c->scope_depth;
1253                                                 } else
1254                                                         v2->scope = OutScope;
1255                                         break;
1256                                 case CondScope:
1257                                 case OutScope: break;
1258                                 }
1259                                 break;
1260                         }
1261                         if (v->scope == OutScope)
1262                                 *vp = v->in_scope;
1263                         else
1264                                 vp = &v->in_scope;
1265                 }
1266         }
1267
1268 ### Executables
1269
1270 Executables can be lots of different things.  In many cases an
1271 executable is just an operation combined with one or two other
1272 executables.  This allows for expressions and lists etc.  Other times
1273 an executable is something quite specific like a constant or variable
1274 name.  So we define a `struct exec` to be a general executable with a
1275 type, and a `struct binode` which is a subclass of `exec`, forms a
1276 node in a binary tree, and holds an operation. There will be other
1277 subclasses, and to access these we need to be able to `cast` the
1278 `exec` into the various other types.
1279
1280 ###### macros
1281         #define cast(structname, pointer) ({            \
1282                 const typeof( ((struct structname *)0)->type) *__mptr = &(pointer)->type; \
1283                 if (__mptr && *__mptr != X##structname) abort();                \
1284                 (struct structname *)( (char *)__mptr);})
1285
1286         #define new(structname) ({                                              \
1287                 struct structname *__ptr = ((struct structname *)calloc(1,sizeof(struct structname))); \
1288                 __ptr->type = X##structname;                                            \
1289                 __ptr->line = -1; __ptr->column = -1;                                   \
1290                 __ptr;})
1291
1292         #define new_pos(structname, token) ({                                           \
1293                 struct structname *__ptr = ((struct structname *)calloc(1,sizeof(struct structname))); \
1294                 __ptr->type = X##structname;                                            \
1295                 __ptr->line = token.line; __ptr->column = token.col;                    \
1296                 __ptr;})
1297
1298 ###### ast
1299         enum exec_types {
1300                 Xbinode,
1301                 ## exec type
1302         };
1303         struct exec {
1304                 enum exec_types type;
1305                 int line, column;
1306         };
1307         struct binode {
1308                 struct exec;
1309                 enum Btype {
1310                         ## Binode types
1311                 } op;
1312                 struct exec *left, *right;
1313         };
1314
1315 ###### ast functions
1316
1317         static int __fput_loc(struct exec *loc, FILE *f)
1318         {
1319                 if (!loc)
1320                         return 0;
1321                 if (loc->line >= 0) {
1322                         fprintf(f, "%d:%d: ", loc->line, loc->column);
1323                         return 1;
1324                 }
1325                 if (loc->type == Xbinode)
1326                         return __fput_loc(cast(binode,loc)->left, f) ||
1327                                __fput_loc(cast(binode,loc)->right, f);
1328                 return 0;
1329         }
1330         static void fput_loc(struct exec *loc, FILE *f)
1331         {
1332                 if (!__fput_loc(loc, f))
1333                         fprintf(f, "??:??: ");
1334         }
1335
1336 Each different type of `exec` node needs a number of functions
1337 defined, a bit like methods.  We must be able to be able to free it,
1338 print it, analyse it and execute it.  Once we have specific `exec`
1339 types we will need to parse them too.  Let's take this a bit more
1340 slowly.
1341
1342 #### Freeing
1343
1344 The parser generator requires a `free_foo` function for each struct
1345 that stores attributes and they will be `exec`s and subtypes there-of.
1346 So we need `free_exec` which can handle all the subtypes, and we need
1347 `free_binode`.
1348
1349 ###### ast functions
1350
1351         static void free_binode(struct binode *b)
1352         {
1353                 if (!b)
1354                         return;
1355                 free_exec(b->left);
1356                 free_exec(b->right);
1357                 free(b);
1358         }
1359
1360 ###### core functions
1361         static void free_exec(struct exec *e)
1362         {
1363                 if (!e)
1364                         return;
1365                 switch(e->type) {
1366                         ## free exec cases
1367                 }
1368         }
1369
1370 ###### forward decls
1371
1372         static void free_exec(struct exec *e);
1373
1374 ###### free exec cases
1375         case Xbinode: free_binode(cast(binode, e)); break;
1376
1377 #### Printing
1378
1379 Printing an `exec` requires that we know the current indent level for
1380 printing line-oriented components.  As will become clear later, we
1381 also want to know what sort of bracketing to use.
1382
1383 ###### ast functions
1384
1385         static void do_indent(int i, char *str)
1386         {
1387                 while (i--)
1388                         printf("    ");
1389                 printf("%s", str);
1390         }
1391
1392 ###### core functions
1393         static void print_binode(struct binode *b, int indent, int bracket)
1394         {
1395                 struct binode *b2;
1396                 switch(b->op) {
1397                 ## print binode cases
1398                 }
1399         }
1400
1401         static void print_exec(struct exec *e, int indent, int bracket)
1402         {
1403                 if (!e)
1404                         return;
1405                 switch (e->type) {
1406                 case Xbinode:
1407                         print_binode(cast(binode, e), indent, bracket); break;
1408                 ## print exec cases
1409                 }
1410         }
1411
1412 ###### forward decls
1413
1414         static void print_exec(struct exec *e, int indent, int bracket);
1415
1416 #### Analysing
1417
1418 As discussed, analysis involves propagating type requirements around
1419 the program and looking for errors.
1420
1421 So `propagate_types` is passed an expected type (being a `struct type`
1422 pointer together with some `val_rules` flags) that the `exec` is
1423 expected to return, and returns the type that it does return, either
1424 of which can be `NULL` signifying "unknown".  An `ok` flag is passed
1425 by reference. It is set to `0` when an error is found, and `2` when
1426 any change is made.  If it remains unchanged at `1`, then no more
1427 propagation is needed.
1428
1429 ###### ast
1430
1431         enum val_rules {Rnolabel = 1<<0, Rboolok = 1<<1, Rnoconstant = 2<<1};
1432
1433 ###### format cases
1434         case 'r':
1435                 if (rules & Rnolabel)
1436                         fputs(" (labels not permitted)", stderr);
1437                 break;
1438
1439 ###### core functions
1440
1441         static struct type *propagate_types(struct exec *prog, struct parse_context *c, int *ok,
1442                                             struct type *type, int rules)
1443         {
1444                 struct type *t;
1445
1446                 if (!prog)
1447                         return Tnone;
1448
1449                 switch (prog->type) {
1450                 case Xbinode:
1451                 {
1452                         struct binode *b = cast(binode, prog);
1453                         switch (b->op) {
1454                         ## propagate binode cases
1455                         }
1456                         break;
1457                 }
1458                 ## propagate exec cases
1459                 }
1460                 return Tnone;
1461         }
1462
1463 #### Interpreting
1464
1465 Interpreting an `exec` doesn't require anything but the `exec`.  State
1466 is stored in variables and each variable will be directly linked from
1467 within the `exec` tree.  The exception to this is the whole `program`
1468 which needs to look at command line arguments.  The `program` will be
1469 interpreted separately.
1470
1471 Each `exec` can return a value, which may be `Tnone` but must be non-NULL;
1472
1473 ###### core functions
1474
1475         struct lrval {
1476                 struct value val, *lval;
1477         };
1478
1479         static struct lrval _interp_exec(struct exec *e);
1480
1481         static struct value interp_exec(struct exec *e)
1482         {
1483                 struct lrval ret = _interp_exec(e);
1484
1485                 if (ret.lval)
1486                         return dup_value(*ret.lval);
1487                 else
1488                         return ret.val;
1489         }
1490
1491         static struct value *linterp_exec(struct exec *e)
1492         {
1493                 struct lrval ret = _interp_exec(e);
1494
1495                 return ret.lval;
1496         }
1497
1498         static struct lrval _interp_exec(struct exec *e)
1499         {
1500                 struct lrval ret;
1501                 struct value rv, *lrv = NULL;
1502                 rv.type = Tnone;
1503                 if (!e) {
1504                         ret.lval = lrv;
1505                         ret.val = rv;
1506                         return ret;
1507                 }
1508
1509                 switch(e->type) {
1510                 case Xbinode:
1511                 {
1512                         struct binode *b = cast(binode, e);
1513                         struct value left, right, *lleft;
1514                         left.type = right.type = Tnone;
1515                         switch (b->op) {
1516                         ## interp binode cases
1517                         }
1518                         free_value(left); free_value(right);
1519                         break;
1520                 }
1521                 ## interp exec cases
1522                 }
1523                 ret.lval = lrv;
1524                 ret.val = rv;
1525                 return ret;
1526         }
1527
1528 ## Language elements
1529
1530 Each language element needs to be parsed, printed, analysed,
1531 interpreted, and freed.  There are several, so let's just start with
1532 the easy ones and work our way up.
1533
1534 ### Values
1535
1536 We have already met values as separate objects.  When manifest
1537 constants appear in the program text, that must result in an executable
1538 which has a constant value.  So the `val` structure embeds a value in
1539 an executable.
1540
1541 ###### exec type
1542         Xval,
1543
1544 ###### ast
1545         struct val {
1546                 struct exec;
1547                 struct value val;
1548         };
1549
1550 ###### Grammar
1551
1552         $*val
1553         Value ->  True ${
1554                         $0 = new_pos(val, $1);
1555                         $0->val.type = Tbool;
1556                         $0->val.bool = 1;
1557                         }$
1558                 | False ${
1559                         $0 = new_pos(val, $1);
1560                         $0->val.type = Tbool;
1561                         $0->val.bool = 0;
1562                         }$
1563                 | NUMBER ${
1564                         $0 = new_pos(val, $1);
1565                         $0->val.type = Tnum;
1566                         {
1567                         char tail[3];
1568                         if (number_parse($0->val.num, tail, $1.txt) == 0)
1569                                 mpq_init($0->val.num);
1570                                 if (tail[0])
1571                                         tok_err(config2context(config), "error: unsupported number suffix",
1572                                                 &$1);
1573                         }
1574                         }$
1575                 | STRING ${
1576                         $0 = new_pos(val, $1);
1577                         $0->val.type = Tstr;
1578                         {
1579                         char tail[3];
1580                         string_parse(&$1, '\\', &$0->val.str, tail);
1581                         if (tail[0])
1582                                 tok_err(config2context(config), "error: unsupported string suffix",
1583                                         &$1);
1584                         }
1585                         }$
1586                 | MULTI_STRING ${
1587                         $0 = new_pos(val, $1);
1588                         $0->val.type = Tstr;
1589                         {
1590                         char tail[3];
1591                         string_parse(&$1, '\\', &$0->val.str, tail);
1592                         if (tail[0])
1593                                 tok_err(config2context(config), "error: unsupported string suffix",
1594                                         &$1);
1595                         }
1596                         }$
1597
1598 ###### print exec cases
1599         case Xval:
1600         {
1601                 struct val *v = cast(val, e);
1602                 if (v->val.type == Tstr)
1603                         printf("\"");
1604                 print_value(v->val);
1605                 if (v->val.type == Tstr)
1606                         printf("\"");
1607                 break;
1608         }
1609
1610 ###### propagate exec cases
1611                 case Xval:
1612                 {
1613                         struct val *val = cast(val, prog);
1614                         if (!type_compat(type, val->val.type, rules)) {
1615                                 type_err(c, "error: expected %1%r found %2",
1616                                            prog, type, rules, val->val.type);
1617                                 *ok = 0;
1618                         }
1619                         return val->val.type;
1620                 }
1621
1622 ###### interp exec cases
1623         case Xval:
1624                 rv = dup_value(cast(val, e)->val);
1625                 break;
1626
1627 ###### ast functions
1628         static void free_val(struct val *v)
1629         {
1630                 if (!v)
1631                         return;
1632                 free_value(v->val);
1633                 free(v);
1634         }
1635
1636 ###### free exec cases
1637         case Xval: free_val(cast(val, e)); break;
1638
1639 ###### ast functions
1640         // Move all nodes from 'b' to 'rv', reversing the order.
1641         // In 'b' 'left' is a list, and 'right' is the last node.
1642         // In 'rv', left' is the first node and 'right' is a list.
1643         static struct binode *reorder_bilist(struct binode *b)
1644         {
1645                 struct binode *rv = NULL;
1646
1647                 while (b) {
1648                         struct exec *t = b->right;
1649                         b->right = rv;
1650                         rv = b;
1651                         if (b->left)
1652                                 b = cast(binode, b->left);
1653                         else
1654                                 b = NULL;
1655                         rv->left = t;
1656                 }
1657                 return rv;
1658         }
1659
1660 ### Variables
1661
1662 Just as we used a `val` to wrap a value into an `exec`, we similarly
1663 need a `var` to wrap a `variable` into an exec.  While each `val`
1664 contained a copy of the value, each `var` hold a link to the variable
1665 because it really is the same variable no matter where it appears.
1666 When a variable is used, we need to remember to follow the `->merged`
1667 link to find the primary instance.
1668
1669 ###### exec type
1670         Xvar,
1671
1672 ###### ast
1673         struct var {
1674                 struct exec;
1675                 struct variable *var;
1676         };
1677
1678 ###### Grammar
1679
1680         $*var
1681         VariableDecl -> IDENTIFIER : ${ {
1682                 struct variable *v = var_decl(config2context(config), $1.txt);
1683                 $0 = new_pos(var, $1);
1684                 $0->var = v;
1685                 if (v)
1686                         v->where_decl = $0;
1687                 else {
1688                         v = var_ref(config2context(config), $1.txt);
1689                         $0->var = v;
1690                         type_err(config2context(config), "error: variable '%v' redeclared",
1691                                  $0, Tnone, 0, Tnone);
1692                         type_err(config2context(config), "info: this is where '%v' was first declared",
1693                                  v->where_decl, Tnone, 0, Tnone);
1694                 }
1695         } }$
1696             | IDENTIFIER :: ${ {
1697                 struct variable *v = var_decl(config2context(config), $1.txt);
1698                 $0 = new_pos(var, $1);
1699                 $0->var = v;
1700                 if (v) {
1701                         v->where_decl = $0;
1702                         v->constant = 1;
1703                 } else {
1704                         v = var_ref(config2context(config), $1.txt);
1705                         $0->var = v;
1706                         type_err(config2context(config), "error: variable '%v' redeclared",
1707                                  $0, Tnone, 0, Tnone);
1708                         type_err(config2context(config), "info: this is where '%v' was first declared",
1709                                  v->where_decl, Tnone, 0, Tnone);
1710                 }
1711         } }$
1712             | IDENTIFIER : Type ${ {
1713                 struct variable *v = var_decl(config2context(config), $1.txt);
1714                 $0 = new_pos(var, $1);
1715                 $0->var = v;
1716                 if (v) {
1717                         v->where_decl = $0;
1718                         v->where_set = $0;
1719                         v->val = val_prepare($<3);
1720                 } else {
1721                         v = var_ref(config2context(config), $1.txt);
1722                         $0->var = v;
1723                         type_err(config2context(config), "error: variable '%v' redeclared",
1724                                  $0, Tnone, 0, Tnone);
1725                         type_err(config2context(config), "info: this is where '%v' was first declared",
1726                                  v->where_decl, Tnone, 0, Tnone);
1727                 }
1728         } }$
1729             | IDENTIFIER :: Type ${ {
1730                 struct variable *v = var_decl(config2context(config), $1.txt);
1731                 $0 = new_pos(var, $1);
1732                 $0->var = v;
1733                 if (v) {
1734                         v->where_decl = $0;
1735                         v->where_set = $0;
1736                         v->val = val_prepare($<3);
1737                         v->constant = 1;
1738                 } else {
1739                         v = var_ref(config2context(config), $1.txt);
1740                         $0->var = v;
1741                         type_err(config2context(config), "error: variable '%v' redeclared",
1742                                  $0, Tnone, 0, Tnone);
1743                         type_err(config2context(config), "info: this is where '%v' was first declared",
1744                                  v->where_decl, Tnone, 0, Tnone);
1745                 }
1746         } }$
1747
1748         $*exec
1749         Variable -> IDENTIFIER ${ {
1750                 struct variable *v = var_ref(config2context(config), $1.txt);
1751                 $0 = new_pos(var, $1);
1752                 if (v == NULL) {
1753                         /* This might be a label - allocate a var just in case */
1754                         v = var_decl(config2context(config), $1.txt);
1755                         if (v) {
1756                                 v->val = val_prepare(Tlabel);
1757                                 v->val.label = &v->val;
1758                                 v->where_set = $0;
1759                         }
1760                 }
1761                 cast(var, $0)->var = v;
1762         } }$
1763         ## variable grammar
1764
1765         $*type
1766         Type -> IDENTIFIER ${
1767                 $0 = find_type(config2context(config), $1.txt);
1768                 if (!$0) {
1769                         tok_err(config2context(config),
1770                                 "error: undefined type", &$1);
1771
1772                         $0 = Tnone;
1773                 }
1774         }$
1775         ## type grammar
1776
1777 ###### print exec cases
1778         case Xvar:
1779         {
1780                 struct var *v = cast(var, e);
1781                 if (v->var) {
1782                         struct binding *b = v->var->name;
1783                         printf("%.*s", b->name.len, b->name.txt);
1784                 }
1785                 break;
1786         }
1787
1788 ###### format cases
1789         case 'v':
1790                 if (loc->type == Xvar) {
1791                         struct var *v = cast(var, loc);
1792                         if (v->var) {
1793                                 struct binding *b = v->var->name;
1794                                 fprintf(stderr, "%.*s", b->name.len, b->name.txt);
1795                         } else
1796                                 fputs("???", stderr);
1797                 } else
1798                         fputs("NOTVAR", stderr);
1799                 break;
1800
1801 ###### propagate exec cases
1802
1803         case Xvar:
1804         {
1805                 struct var *var = cast(var, prog);
1806                 struct variable *v = var->var;
1807                 if (!v) {
1808                         type_err(c, "%d:BUG: no variable!!", prog, Tnone, 0, Tnone);
1809                         *ok = 0;
1810                         return Tnone;
1811                 }
1812                 if (v->merged)
1813                         v = v->merged;
1814                 if (v->constant && (rules & Rnoconstant)) {
1815                         type_err(c, "error: Cannot assign to a constant: %v",
1816                                  prog, NULL, 0, NULL);
1817                         type_err(c, "info: name was defined as a constant here",
1818                                  v->where_decl, NULL, 0, NULL);
1819                         *ok = 0;
1820                         return v->val.type;
1821                 }
1822                 if (v->val.type == NULL) {
1823                         if (type && *ok != 0) {
1824                                 v->val = val_prepare(type);
1825                                 v->where_set = prog;
1826                                 *ok = 2;
1827                         }
1828                         return type;
1829                 }
1830                 if (!type_compat(type, v->val.type, rules)) {
1831                         type_err(c, "error: expected %1%r but variable '%v' is %2", prog,
1832                                  type, rules, v->val.type);
1833                         type_err(c, "info: this is where '%v' was set to %1", v->where_set,
1834                                  v->val.type, rules, Tnone);
1835                         *ok = 0;
1836                 }
1837                 if (!type)
1838                         return v->val.type;
1839                 return type;
1840         }
1841
1842 ###### interp exec cases
1843         case Xvar:
1844         {
1845                 struct var *var = cast(var, e);
1846                 struct variable *v = var->var;
1847
1848                 if (v->merged)
1849                         v = v->merged;
1850                 lrv = &v->val;
1851                 break;
1852         }
1853
1854 ###### ast functions
1855
1856         static void free_var(struct var *v)
1857         {
1858                 free(v);
1859         }
1860
1861 ###### free exec cases
1862         case Xvar: free_var(cast(var, e)); break;
1863
1864 ### Expressions: Boolean
1865
1866 Our first user of the `binode` will be expressions, and particularly
1867 Boolean expressions.  As I haven't implemented precedence in the
1868 parser generator yet, we need different names for each precedence
1869 level used by expressions.  The outer most or lowest level precedence
1870 are Boolean `or` `and`, and `not` which form an `Expression` out of `BTerm`s
1871 and `BFact`s.
1872
1873 ###### Binode types
1874         And,
1875         Or,
1876         Not,
1877
1878 ###### Grammar
1879
1880         $*exec
1881         Expression -> Expression or BTerm ${ {
1882                         struct binode *b = new(binode);
1883                         b->op = Or;
1884                         b->left = $<1;
1885                         b->right = $<3;
1886                         $0 = b;
1887                 } }$
1888                 | BTerm ${ $0 = $<1; }$
1889
1890         BTerm -> BTerm and BFact ${ {
1891                         struct binode *b = new(binode);
1892                         b->op = And;
1893                         b->left = $<1;
1894                         b->right = $<3;
1895                         $0 = b;
1896                 } }$
1897                 | BFact ${ $0 = $<1; }$
1898
1899         BFact -> not BFact ${ {
1900                         struct binode *b = new(binode);
1901                         b->op = Not;
1902                         b->right = $<2;
1903                         $0 = b;
1904                 } }$
1905                 ## other BFact
1906
1907 ###### print binode cases
1908         case And:
1909                 print_exec(b->left, -1, 0);
1910                 printf(" and ");
1911                 print_exec(b->right, -1, 0);
1912                 break;
1913         case Or:
1914                 print_exec(b->left, -1, 0);
1915                 printf(" or ");
1916                 print_exec(b->right, -1, 0);
1917                 break;
1918         case Not:
1919                 printf("not ");
1920                 print_exec(b->right, -1, 0);
1921                 break;
1922
1923 ###### propagate binode cases
1924         case And:
1925         case Or:
1926         case Not:
1927                 /* both must be Tbool, result is Tbool */
1928                 propagate_types(b->left, c, ok, Tbool, 0);
1929                 propagate_types(b->right, c, ok, Tbool, 0);
1930                 if (type && type != Tbool) {
1931                         type_err(c, "error: %1 operation found where %2 expected", prog,
1932                                    Tbool, 0, type);
1933                         *ok = 0;
1934                 }
1935                 return Tbool;
1936
1937 ###### interp binode cases
1938         case And:
1939                 rv = interp_exec(b->left);
1940                 right = interp_exec(b->right);
1941                 rv.bool = rv.bool && right.bool;
1942                 break;
1943         case Or:
1944                 rv = interp_exec(b->left);
1945                 right = interp_exec(b->right);
1946                 rv.bool = rv.bool || right.bool;
1947                 break;
1948         case Not:
1949                 rv = interp_exec(b->right);
1950                 rv.bool = !rv.bool;
1951                 break;
1952
1953 ### Expressions: Comparison
1954
1955 Of slightly higher precedence that Boolean expressions are
1956 Comparisons.
1957 A comparison takes arguments of any type, but the two types must be
1958 the same.
1959
1960 To simplify the parsing we introduce an `eop` which can record an
1961 expression operator.
1962
1963 ###### ast
1964         struct eop {
1965                 enum Btype op;
1966         };
1967
1968 ###### ast functions
1969         static void free_eop(struct eop *e)
1970         {
1971                 if (e)
1972                         free(e);
1973         }
1974
1975 ###### Binode types
1976         Less,
1977         Gtr,
1978         LessEq,
1979         GtrEq,
1980         Eql,
1981         NEql,
1982
1983 ###### other BFact
1984         | Expr CMPop Expr ${ {
1985                         struct binode *b = new(binode);
1986                         b->op = $2.op;
1987                         b->left = $<1;
1988                         b->right = $<3;
1989                         $0 = b;
1990         } }$
1991         | Expr ${ $0 = $<1; }$
1992
1993 ###### Grammar
1994
1995         $eop
1996         CMPop ->   < ${ $0.op = Less; }$
1997                 |  > ${ $0.op = Gtr; }$
1998                 |  <= ${ $0.op = LessEq; }$
1999                 |  >= ${ $0.op = GtrEq; }$
2000                 |  == ${ $0.op = Eql; }$
2001                 |  != ${ $0.op = NEql; }$
2002
2003 ###### print binode cases
2004
2005         case Less:
2006         case LessEq:
2007         case Gtr:
2008         case GtrEq:
2009         case Eql:
2010         case NEql:
2011                 print_exec(b->left, -1, 0);
2012                 switch(b->op) {
2013                 case Less:   printf(" < "); break;
2014                 case LessEq: printf(" <= "); break;
2015                 case Gtr:    printf(" > "); break;
2016                 case GtrEq:  printf(" >= "); break;
2017                 case Eql:    printf(" == "); break;
2018                 case NEql:   printf(" != "); break;
2019                 default: abort();
2020                 }
2021                 print_exec(b->right, -1, 0);
2022                 break;
2023
2024 ###### propagate binode cases
2025         case Less:
2026         case LessEq:
2027         case Gtr:
2028         case GtrEq:
2029         case Eql:
2030         case NEql:
2031                 /* Both must match but not be labels, result is Tbool */
2032                 t = propagate_types(b->left, c, ok, NULL, Rnolabel);
2033                 if (t)
2034                         propagate_types(b->right, c, ok, t, 0);
2035                 else {
2036                         t = propagate_types(b->right, c, ok, NULL, Rnolabel);
2037                         if (t)
2038                                 t = propagate_types(b->left, c, ok, t, 0);
2039                 }
2040                 if (!type_compat(type, Tbool, 0)) {
2041                         type_err(c, "error: Comparison returns %1 but %2 expected", prog,
2042                                     Tbool, rules, type);
2043                         *ok = 0;
2044                 }
2045                 return Tbool;
2046
2047 ###### interp binode cases
2048         case Less:
2049         case LessEq:
2050         case Gtr:
2051         case GtrEq:
2052         case Eql:
2053         case NEql:
2054         {
2055                 int cmp;
2056                 left = interp_exec(b->left);
2057                 right = interp_exec(b->right);
2058                 cmp = value_cmp(left, right);
2059                 rv.type = Tbool;
2060                 switch (b->op) {
2061                 case Less:      rv.bool = cmp <  0; break;
2062                 case LessEq:    rv.bool = cmp <= 0; break;
2063                 case Gtr:       rv.bool = cmp >  0; break;
2064                 case GtrEq:     rv.bool = cmp >= 0; break;
2065                 case Eql:       rv.bool = cmp == 0; break;
2066                 case NEql:      rv.bool = cmp != 0; break;
2067                 default: rv.bool = 0; break;
2068                 }
2069                 break;
2070         }
2071
2072 ### Expressions: The rest
2073
2074 The remaining expressions with the highest precedence are arithmetic
2075 and string concatenation.  They are `Expr`, `Term`, and `Factor`.
2076 The `Factor` is where the `Value` and `Variable` that we already have
2077 are included.
2078
2079 `+` and `-` are both infix and prefix operations (where they are
2080 absolute value and negation).  These have different operator names.
2081
2082 We also have a 'Bracket' operator which records where parentheses were
2083 found.  This makes it easy to reproduce these when printing.  Once
2084 precedence is handled better I might be able to discard this.
2085
2086 ###### Binode types
2087         Plus, Minus,
2088         Times, Divide, Rem,
2089         Concat,
2090         Absolute, Negate,
2091         Bracket,
2092
2093 ###### Grammar
2094
2095         $*exec
2096         Expr -> Expr Eop Term ${ {
2097                         struct binode *b = new(binode);
2098                         b->op = $2.op;
2099                         b->left = $<1;
2100                         b->right = $<3;
2101                         $0 = b;
2102                 } }$
2103                 | Term ${ $0 = $<1; }$
2104
2105         Term -> Term Top Factor ${ {
2106                         struct binode *b = new(binode);
2107                         b->op = $2.op;
2108                         b->left = $<1;
2109                         b->right = $<3;
2110                         $0 = b;
2111                 } }$
2112                 | Factor ${ $0 = $<1; }$
2113
2114         Factor -> ( Expression ) ${ {
2115                         struct binode *b = new_pos(binode, $1);
2116                         b->op = Bracket;
2117                         b->right = $<2;
2118                         $0 = b;
2119                 } }$
2120                 | Uop Factor ${ {
2121                         struct binode *b = new(binode);
2122                         b->op = $1.op;
2123                         b->right = $<2;
2124                         $0 = b;
2125                 } }$
2126                 | Value ${ $0 = $<1; }$
2127                 | Variable ${ $0 = $<1; }$
2128
2129         $eop
2130         Eop ->    + ${ $0.op = Plus; }$
2131                 | - ${ $0.op = Minus; }$
2132
2133         Uop ->    + ${ $0.op = Absolute; }$
2134                 | - ${ $0.op = Negate; }$
2135
2136         Top ->    * ${ $0.op = Times; }$
2137                 | / ${ $0.op = Divide; }$
2138                 | % ${ $0.op = Rem; }$
2139                 | ++ ${ $0.op = Concat; }$
2140
2141 ###### print binode cases
2142         case Plus:
2143         case Minus:
2144         case Times:
2145         case Divide:
2146         case Concat:
2147         case Rem:
2148                 print_exec(b->left, indent, 0);
2149                 switch(b->op) {
2150                 case Plus:   fputs(" + ", stdout); break;
2151                 case Minus:  fputs(" - ", stdout); break;
2152                 case Times:  fputs(" * ", stdout); break;
2153                 case Divide: fputs(" / ", stdout); break;
2154                 case Rem:    fputs(" % ", stdout); break;
2155                 case Concat: fputs(" ++ ", stdout); break;
2156                 default: abort();
2157                 }
2158                 print_exec(b->right, indent, 0);
2159                 break;
2160         case Absolute:
2161                 printf("+");
2162                 print_exec(b->right, indent, 0);
2163                 break;
2164         case Negate:
2165                 printf("-");
2166                 print_exec(b->right, indent, 0);
2167                 break;
2168         case Bracket:
2169                 printf("(");
2170                 print_exec(b->right, indent, 0);
2171                 printf(")");
2172                 break;
2173
2174 ###### propagate binode cases
2175         case Plus:
2176         case Minus:
2177         case Times:
2178         case Rem:
2179         case Divide:
2180                 /* both must be numbers, result is Tnum */
2181         case Absolute:
2182         case Negate:
2183                 /* as propagate_types ignores a NULL,
2184                  * unary ops fit here too */
2185                 propagate_types(b->left, c, ok, Tnum, 0);
2186                 propagate_types(b->right, c, ok, Tnum, 0);
2187                 if (!type_compat(type, Tnum, 0)) {
2188                         type_err(c, "error: Arithmetic returns %1 but %2 expected", prog,
2189                                    Tnum, rules, type);
2190                         *ok = 0;
2191                 }
2192                 return Tnum;
2193
2194         case Concat:
2195                 /* both must be Tstr, result is Tstr */
2196                 propagate_types(b->left, c, ok, Tstr, 0);
2197                 propagate_types(b->right, c, ok, Tstr, 0);
2198                 if (!type_compat(type, Tstr, 0)) {
2199                         type_err(c, "error: Concat returns %1 but %2 expected", prog,
2200                                    Tstr, rules, type);
2201                         *ok = 0;
2202                 }
2203                 return Tstr;
2204
2205         case Bracket:
2206                 return propagate_types(b->right, c, ok, type, 0);
2207
2208 ###### interp binode cases
2209
2210         case Plus:
2211                 rv = interp_exec(b->left);
2212                 right = interp_exec(b->right);
2213                 mpq_add(rv.num, rv.num, right.num);
2214                 break;
2215         case Minus:
2216                 rv = interp_exec(b->left);
2217                 right = interp_exec(b->right);
2218                 mpq_sub(rv.num, rv.num, right.num);
2219                 break;
2220         case Times:
2221                 rv = interp_exec(b->left);
2222                 right = interp_exec(b->right);
2223                 mpq_mul(rv.num, rv.num, right.num);
2224                 break;
2225         case Divide:
2226                 rv = interp_exec(b->left);
2227                 right = interp_exec(b->right);
2228                 mpq_div(rv.num, rv.num, right.num);
2229                 break;
2230         case Rem: {
2231                 mpz_t l, r, rem;
2232
2233                 left = interp_exec(b->left);
2234                 right = interp_exec(b->right);
2235                 mpz_init(l); mpz_init(r); mpz_init(rem);
2236                 mpz_tdiv_q(l, mpq_numref(left.num), mpq_denref(left.num));
2237                 mpz_tdiv_q(r, mpq_numref(right.num), mpq_denref(right.num));
2238                 mpz_tdiv_r(rem, l, r);
2239                 rv = val_init(Tnum);
2240                 mpq_set_z(rv.num, rem);
2241                 mpz_clear(r); mpz_clear(l); mpz_clear(rem);
2242                 break;
2243         }
2244         case Negate:
2245                 rv = interp_exec(b->right);
2246                 mpq_neg(rv.num, rv.num);
2247                 break;
2248         case Absolute:
2249                 rv = interp_exec(b->right);
2250                 mpq_abs(rv.num, rv.num);
2251                 break;
2252         case Bracket:
2253                 rv = interp_exec(b->right);
2254                 break;
2255         case Concat:
2256                 left = interp_exec(b->left);
2257                 right = interp_exec(b->right);
2258                 rv.type = Tstr;
2259                 rv.str = text_join(left.str, right.str);
2260                 break;
2261
2262
2263 ###### value functions
2264
2265         static struct text text_join(struct text a, struct text b)
2266         {
2267                 struct text rv;
2268                 rv.len = a.len + b.len;
2269                 rv.txt = malloc(rv.len);
2270                 memcpy(rv.txt, a.txt, a.len);
2271                 memcpy(rv.txt+a.len, b.txt, b.len);
2272                 return rv;
2273         }
2274
2275
2276 ### Blocks, Statements, and Statement lists.
2277
2278 Now that we have expressions out of the way we need to turn to
2279 statements.  There are simple statements and more complex statements.
2280 Simple statements do not contain newlines, complex statements do.
2281
2282 Statements often come in sequences and we have corresponding simple
2283 statement lists and complex statement lists.
2284 The former comprise only simple statements separated by semicolons.
2285 The later comprise complex statements and simple statement lists.  They are
2286 separated by newlines.  Thus the semicolon is only used to separate
2287 simple statements on the one line.  This may be overly restrictive,
2288 but I'm not sure I ever want a complex statement to share a line with
2289 anything else.
2290
2291 Note that a simple statement list can still use multiple lines if
2292 subsequent lines are indented, so
2293
2294 ###### Example: wrapped simple statement list
2295
2296         a = b; c = d;
2297            e = f; print g
2298
2299 is a single simple statement list.  This might allow room for
2300 confusion, so I'm not set on it yet.
2301
2302 A simple statement list needs no extra syntax.  A complex statement
2303 list has two syntactic forms.  It can be enclosed in braces (much like
2304 C blocks), or it can be introduced by a colon and continue until an
2305 unindented newline (much like Python blocks).  With this extra syntax
2306 it is referred to as a block.
2307
2308 Note that a block does not have to include any newlines if it only
2309 contains simple statements.  So both of:
2310
2311         if condition: a=b; d=f
2312
2313         if condition { a=b; print f }
2314
2315 are valid.
2316
2317 In either case the list is constructed from a `binode` list with
2318 `Block` as the operator.  When parsing the list it is most convenient
2319 to append to the end, so a list is a list and a statement.  When using
2320 the list it is more convenient to consider a list to be a statement
2321 and a list.  So we need a function to re-order a list.
2322 `reorder_bilist` serves this purpose.
2323
2324 The only stand-alone statement we introduce at this stage is `pass`
2325 which does nothing and is represented as a `NULL` pointer in a `Block`
2326 list.  Other stand-alone statements will follow once the infrastructure
2327 is in-place.
2328
2329 ###### Binode types
2330         Block,
2331
2332 ###### Grammar
2333
2334         $void
2335         OptNL -> Newlines
2336                 |
2337
2338         Newlines -> NEWLINE
2339                 | Newlines NEWLINE
2340
2341         $*binode
2342         Open -> {
2343                 | NEWLINE {
2344         Close -> }
2345                 | NEWLINE }
2346         Block -> Open Statementlist Close ${ $0 = $<2; }$
2347                 | Open Newlines Statementlist Close ${ $0 = $<3; }$
2348                 | Open SimpleStatements } ${ $0 = reorder_bilist($<2); }$
2349                 | Open Newlines SimpleStatements } ${ $0 = reorder_bilist($<3); }$
2350                 | : Statementlist ${ $0 = $<2; }$
2351                 | : SimpleStatements ${ $0 = reorder_bilist($<2); }$
2352
2353         Statementlist -> ComplexStatements ${ $0 = reorder_bilist($<1); }$
2354
2355         ComplexStatements -> ComplexStatements ComplexStatement ${
2356                 $0 = new(binode);
2357                 $0->op = Block;
2358                 $0->left = $<1;
2359                 $0->right = $<2;
2360                 }$
2361                 | ComplexStatements NEWLINE ${ $0 = $<1; }$
2362                 | ComplexStatement ${
2363                 $0 = new(binode);
2364                 $0->op = Block;
2365                 $0->left = NULL;
2366                 $0->right = $<1;
2367                 }$
2368
2369         $*exec
2370         ComplexStatement -> SimpleStatements NEWLINE ${
2371                         $0 = reorder_bilist($<1);
2372                         }$
2373                 ## ComplexStatement Grammar
2374
2375         $*binode
2376         SimpleStatements -> SimpleStatements ; SimpleStatement ${
2377                         $0 = new(binode);
2378                         $0->op = Block;
2379                         $0->left = $<1;
2380                         $0->right = $<3;
2381                         }$
2382                 | SimpleStatement ${
2383                         $0 = new(binode);
2384                         $0->op = Block;
2385                         $0->left = NULL;
2386                         $0->right = $<1;
2387                         }$
2388                 | SimpleStatements ; ${ $0 = $<1; }$
2389
2390         SimpleStatement -> pass ${ $0 = NULL; }$
2391                 ## SimpleStatement Grammar
2392
2393 ###### print binode cases
2394         case Block:
2395                 if (indent < 0) {
2396                         // simple statement
2397                         if (b->left == NULL)
2398                                 printf("pass");
2399                         else
2400                                 print_exec(b->left, indent, 0);
2401                         if (b->right) {
2402                                 printf("; ");
2403                                 print_exec(b->right, indent, 0);
2404                         }
2405                 } else {
2406                         // block, one per line
2407                         if (b->left == NULL)
2408                                 do_indent(indent, "pass\n");
2409                         else
2410                                 print_exec(b->left, indent, bracket);
2411                         if (b->right)
2412                                 print_exec(b->right, indent, bracket);
2413                 }
2414                 break;
2415
2416 ###### propagate binode cases
2417         case Block:
2418         {
2419                 /* If any statement returns something other than Tnone
2420                  * or Tbool then all such must return same type.
2421                  * As each statement may be Tnone or something else,
2422                  * we must always pass NULL (unknown) down, otherwise an incorrect
2423                  * error might occur.  We never return Tnone unless it is
2424                  * passed in.
2425                  */
2426                 struct binode *e;
2427
2428                 for (e = b; e; e = cast(binode, e->right)) {
2429                         t = propagate_types(e->left, c, ok, NULL, rules);
2430                         if ((rules & Rboolok) && t == Tbool)
2431                                 t = NULL;
2432                         if (t && t != Tnone && t != Tbool) {
2433                                 if (!type)
2434                                         type = t;
2435                                 else if (t != type) {
2436                                         type_err(c, "error: expected %1%r, found %2",
2437                                                  e->left, type, rules, t);
2438                                         *ok = 0;
2439                                 }
2440                         }
2441                 }
2442                 return type;
2443         }
2444
2445 ###### interp binode cases
2446         case Block:
2447                 while (rv.type == Tnone &&
2448                        b) {
2449                         if (b->left)
2450                                 rv = interp_exec(b->left);
2451                         b = cast(binode, b->right);
2452                 }
2453                 break;
2454
2455 ### The Print statement
2456
2457 `print` is a simple statement that takes a comma-separated list of
2458 expressions and prints the values separated by spaces and terminated
2459 by a newline.  No control of formatting is possible.
2460
2461 `print` faces the same list-ordering issue as blocks, and uses the
2462 same solution.
2463
2464 ###### Binode types
2465         Print,
2466
2467 ###### SimpleStatement Grammar
2468
2469         | print ExpressionList ${
2470                 $0 = reorder_bilist($<2);
2471         }$
2472         | print ExpressionList , ${
2473                 $0 = new(binode);
2474                 $0->op = Print;
2475                 $0->right = NULL;
2476                 $0->left = $<2;
2477                 $0 = reorder_bilist($0);
2478         }$
2479         | print ${
2480                 $0 = new(binode);
2481                 $0->op = Print;
2482                 $0->right = NULL;
2483         }$
2484
2485 ###### Grammar
2486
2487         $*binode
2488         ExpressionList -> ExpressionList , Expression ${
2489                 $0 = new(binode);
2490                 $0->op = Print;
2491                 $0->left = $<1;
2492                 $0->right = $<3;
2493                 }$
2494                 | Expression ${
2495                         $0 = new(binode);
2496                         $0->op = Print;
2497                         $0->left = NULL;
2498                         $0->right = $<1;
2499                 }$
2500
2501 ###### print binode cases
2502
2503         case Print:
2504                 do_indent(indent, "print");
2505                 while (b) {
2506                         if (b->left) {
2507                                 printf(" ");
2508                                 print_exec(b->left, -1, 0);
2509                                 if (b->right)
2510                                         printf(",");
2511                         }
2512                         b = cast(binode, b->right);
2513                 }
2514                 if (indent >= 0)
2515                         printf("\n");
2516                 break;
2517
2518 ###### propagate binode cases
2519
2520         case Print:
2521                 /* don't care but all must be consistent */
2522                 propagate_types(b->left, c, ok, NULL, Rnolabel);
2523                 propagate_types(b->right, c, ok, NULL, Rnolabel);
2524                 break;
2525
2526 ###### interp binode cases
2527
2528         case Print:
2529         {
2530                 char sep = 0;
2531                 int eol = 1;
2532                 for ( ; b; b = cast(binode, b->right))
2533                         if (b->left) {
2534                                 if (sep)
2535                                         putchar(sep);
2536                                 left = interp_exec(b->left);
2537                                 print_value(left);
2538                                 free_value(left);
2539                                 if (b->right)
2540                                         sep = ' ';
2541                         } else if (sep)
2542                                 eol = 0;
2543                 left.type = Tnone;
2544                 if (eol)
2545                         printf("\n");
2546                 break;
2547         }
2548
2549 ###### Assignment statement
2550
2551 An assignment will assign a value to a variable, providing it hasn't
2552 be declared as a constant.  The analysis phase ensures that the type
2553 will be correct so the interpreter just needs to perform the
2554 calculation.  There is a form of assignment which declares a new
2555 variable as well as assigning a value.  If a name is assigned before
2556 it is declared, and error will be raised as the name is created as
2557 `Tlabel` and it is illegal to assign to such names.
2558
2559 ###### Binode types
2560         Assign,
2561         Declare,
2562
2563 ###### SimpleStatement Grammar
2564         | Variable = Expression ${
2565                         $0 = new(binode);
2566                         $0->op = Assign;
2567                         $0->left = $<1;
2568                         $0->right = $<3;
2569                 }$
2570         | VariableDecl = Expression ${
2571                         $0 = new(binode);
2572                         $0->op = Declare;
2573                         $0->left = $<1;
2574                         $0->right =$<3;
2575                 }$
2576
2577         | VariableDecl ${
2578                         if ($1->var->where_set == NULL) {
2579                                 type_err(config2context(config), "Variable declared with no type or value: %v",
2580                                          $1, NULL, 0, NULL);
2581                         } else {
2582                                 $0 = new(binode);
2583                                 $0->op = Declare;
2584                                 $0->left = $<1;
2585                                 $0->right = NULL;
2586                         }
2587                 }$
2588
2589 ###### print binode cases
2590
2591         case Assign:
2592                 do_indent(indent, "");
2593                 print_exec(b->left, indent, 0);
2594                 printf(" = ");
2595                 print_exec(b->right, indent, 0);
2596                 if (indent >= 0)
2597                         printf("\n");
2598                 break;
2599
2600         case Declare:
2601                 {
2602                 struct variable *v = cast(var, b->left)->var;
2603                 do_indent(indent, "");
2604                 print_exec(b->left, indent, 0);
2605                 if (cast(var, b->left)->var->constant) {
2606                         if (v->where_decl == v->where_set) {
2607                                 printf("::");
2608                                 type_print(v->val.type, stdout);
2609                                 printf(" ");
2610                         } else
2611                                 printf(" ::");
2612                 } else {
2613                         if (v->where_decl == v->where_set) {
2614                                 printf(":");
2615                                 type_print(v->val.type, stdout);
2616                                 printf(" ");
2617                         } else
2618                                 printf(" :");
2619                 }
2620                 if (b->right) {
2621                         printf("= ");
2622                         print_exec(b->right, indent, 0);
2623                 }
2624                 if (indent >= 0)
2625                         printf("\n");
2626                 }
2627                 break;
2628
2629 ###### propagate binode cases
2630
2631         case Assign:
2632         case Declare:
2633                 /* Both must match and not be labels,
2634                  * Type must support 'dup',
2635                  * For Assign, left must not be constant.
2636                  * result is Tnone
2637                  */
2638                 t = propagate_types(b->left, c, ok, NULL,
2639                                     Rnolabel | (b->op == Assign ? Rnoconstant : 0));
2640                 if (!b->right)
2641                         return Tnone;
2642
2643                 if (t) {
2644                         if (propagate_types(b->right, c, ok, t, 0) != t)
2645                                 if (b->left->type == Xvar)
2646                                         type_err(c, "info: variable '%v' was set as %1 here.",
2647                                                  cast(var, b->left)->var->where_set, t, rules, Tnone);
2648                 } else {
2649                         t = propagate_types(b->right, c, ok, NULL, Rnolabel);
2650                         if (t)
2651                                 propagate_types(b->left, c, ok, t,
2652                                                 (b->op == Assign ? Rnoconstant : 0));
2653                 }
2654                 if (t && t->dup == NULL) {
2655                         type_err(c, "error: cannot assign value of type %1", b, t, 0, NULL);
2656                         *ok = 0;
2657                 }
2658                 return Tnone;
2659
2660                 break;
2661
2662 ###### interp binode cases
2663
2664         case Assign:
2665                 lleft = linterp_exec(b->left);
2666                 right = interp_exec(b->right);
2667                 if (lleft) {
2668                         free_value(*lleft);
2669                         *lleft = right;
2670                 } else
2671                         free_value(right);
2672                 right.type = NULL;
2673                 break;
2674
2675         case Declare:
2676         {
2677                 struct variable *v = cast(var, b->left)->var;
2678                 if (v->merged)
2679                         v = v->merged;
2680                 if (b->right)
2681                         right = interp_exec(b->right);
2682                 else
2683                         right = val_init(v->val.type);
2684                 free_value(v->val);
2685                 v->val = right;
2686                 right.type = NULL;
2687                 break;
2688         }
2689
2690 ### The `use` statement
2691
2692 The `use` statement is the last "simple" statement.  It is needed when
2693 the condition in a conditional statement is a block.  `use` works much
2694 like `return` in C, but only completes the `condition`, not the whole
2695 function.
2696
2697 ###### Binode types
2698         Use,
2699
2700 ###### SimpleStatement Grammar
2701         | use Expression ${
2702                 $0 = new_pos(binode, $1);
2703                 $0->op = Use;
2704                 $0->right = $<2;
2705         }$
2706
2707 ###### print binode cases
2708
2709         case Use:
2710                 do_indent(indent, "use ");
2711                 print_exec(b->right, -1, 0);
2712                 if (indent >= 0)
2713                         printf("\n");
2714                 break;
2715
2716 ###### propagate binode cases
2717
2718         case Use:
2719                 /* result matches value */
2720                 return propagate_types(b->right, c, ok, type, 0);
2721
2722 ###### interp binode cases
2723
2724         case Use:
2725                 rv = interp_exec(b->right);
2726                 break;
2727
2728 ### The Conditional Statement
2729
2730 This is the biggy and currently the only complex statement.  This
2731 subsumes `if`, `while`, `do/while`, `switch`, and some parts of `for`.
2732 It is comprised of a number of parts, all of which are optional though
2733 set combinations apply.  Each part is (usually) a key word (`then` is
2734 sometimes optional) followed by either an expression or a code block,
2735 except the `casepart` which is a "key word and an expression" followed
2736 by a code block.  The code-block option is valid for all parts and,
2737 where an expression is also allowed, the code block can use the `use`
2738 statement to report a value.  If the code block does not report a value
2739 the effect is similar to reporting `True`.
2740
2741 The `else` and `case` parts, as well as `then` when combined with
2742 `if`, can contain a `use` statement which will apply to some
2743 containing conditional statement. `for` parts, `do` parts and `then`
2744 parts used with `for` can never contain a `use`, except in some
2745 subordinate conditional statement.
2746
2747 If there is a `forpart`, it is executed first, only once.
2748 If there is a `dopart`, then it is executed repeatedly providing
2749 always that the `condpart` or `cond`, if present, does not return a non-True
2750 value.  `condpart` can fail to return any value if it simply executes
2751 to completion.  This is treated the same as returning `True`.
2752
2753 If there is a `thenpart` it will be executed whenever the `condpart`
2754 or `cond` returns True (or does not return any value), but this will happen
2755 *after* `dopart` (when present).
2756
2757 If `elsepart` is present it will be executed at most once when the
2758 condition returns `False` or some value that isn't `True` and isn't
2759 matched by any `casepart`.  If there are any `casepart`s, they will be
2760 executed when the condition returns a matching value.
2761
2762 The particular sorts of values allowed in case parts has not yet been
2763 determined in the language design, so nothing is prohibited.
2764
2765 The various blocks in this complex statement potentially provide scope
2766 for variables as described earlier.  Each such block must include the
2767 "OpenScope" nonterminal before parsing the block, and must call
2768 `var_block_close()` when closing the block.
2769
2770 The code following "`if`", "`switch`" and "`for`" does not get its own
2771 scope, but is in a scope covering the whole statement, so names
2772 declared there cannot be redeclared elsewhere.  Similarly the
2773 condition following "`while`" is in a scope the covers the body
2774 ("`do`" part) of the loop, and which does not allow conditional scope
2775 extension.  Code following "`then`" (both looping and non-looping),
2776 "`else`" and "`case`" each get their own local scope.
2777
2778 The type requirements on the code block in a `whilepart` are quite
2779 unusal.  It is allowed to return a value of some identifiable type, in
2780 which case the loop aborts and an appropriate `casepart` is run, or it
2781 can return a Boolean, in which case the loop either continues to the
2782 `dopart` (on `True`) or aborts and runs the `elsepart` (on `False`).
2783 This is different both from the `ifpart` code block which is expected to
2784 return a Boolean, or the `switchpart` code block which is expected to
2785 return the same type as the casepart values.  The correct analysis of
2786 the type of the `whilepart` code block is the reason for the
2787 `Rboolok` flag which is passed to `propagate_types()`.
2788
2789 The `cond_statement` cannot fit into a `binode` so a new `exec` is
2790 defined.
2791
2792 ###### exec type
2793         Xcond_statement,
2794
2795 ###### ast
2796         struct casepart {
2797                 struct exec *value;
2798                 struct exec *action;
2799                 struct casepart *next;
2800         };
2801         struct cond_statement {
2802                 struct exec;
2803                 struct exec *forpart, *condpart, *dopart, *thenpart, *elsepart;
2804                 struct casepart *casepart;
2805         };
2806
2807 ###### ast functions
2808
2809         static void free_casepart(struct casepart *cp)
2810         {
2811                 while (cp) {
2812                         struct casepart *t;
2813                         free_exec(cp->value);
2814                         free_exec(cp->action);
2815                         t = cp->next;
2816                         free(cp);
2817                         cp = t;
2818                 }
2819         }
2820
2821         static void free_cond_statement(struct cond_statement *s)
2822         {
2823                 if (!s)
2824                         return;
2825                 free_exec(s->forpart);
2826                 free_exec(s->condpart);
2827                 free_exec(s->dopart);
2828                 free_exec(s->thenpart);
2829                 free_exec(s->elsepart);
2830                 free_casepart(s->casepart);
2831                 free(s);
2832         }
2833
2834 ###### free exec cases
2835         case Xcond_statement: free_cond_statement(cast(cond_statement, e)); break;
2836
2837 ###### ComplexStatement Grammar
2838         | CondStatement ${ $0 = $<1; }$
2839
2840 ###### Grammar
2841
2842         $*cond_statement
2843         // both ForThen and Whilepart open scopes, and CondSuffix only
2844         // closes one - so in the first branch here we have another to close.
2845         CondStatement -> ForThen WhilePart CondSuffix ${
2846                         $0 = $<3;
2847                         $0->forpart = $1.forpart; $1.forpart = NULL;
2848                         $0->thenpart = $1.thenpart; $1.thenpart = NULL;
2849                         $0->condpart = $2.condpart; $2.condpart = NULL;
2850                         $0->dopart = $2.dopart; $2.dopart = NULL;
2851                         var_block_close(config2context(config), CloseSequential);
2852                         }$
2853                 | WhilePart CondSuffix ${
2854                         $0 = $<2;
2855                         $0->condpart = $1.condpart; $1.condpart = NULL;
2856                         $0->dopart = $1.dopart; $1.dopart = NULL;
2857                         }$
2858                 | SwitchPart CondSuffix ${
2859                         $0 = $<2;
2860                         $0->condpart = $<1;
2861                         }$
2862                 | IfPart IfSuffix ${
2863                         $0 = $<2;
2864                         $0->condpart = $1.condpart; $1.condpart = NULL;
2865                         $0->thenpart = $1.thenpart; $1.thenpart = NULL;
2866                         // This is where we close an "if" statement
2867                         var_block_close(config2context(config), CloseSequential);
2868                         }$
2869
2870         CondSuffix -> IfSuffix ${
2871                         $0 = $<1;
2872                         // This is where we close scope of the whole
2873                         // "for" or "while" statement
2874                         var_block_close(config2context(config), CloseSequential);
2875                 }$
2876                 | CasePart CondSuffix ${
2877                         $0 = $<2;
2878                         $1->next = $0->casepart;
2879                         $0->casepart = $<1;
2880                 }$
2881
2882         $*casepart
2883         CasePart -> Newlines case Expression OpenScope Block ${
2884                         $0 = calloc(1,sizeof(struct casepart));
2885                         $0->value = $<3;
2886                         $0->action = $<5;
2887                         var_block_close(config2context(config), CloseParallel);
2888                 }$
2889                 | case Expression OpenScope Block ${
2890                         $0 = calloc(1,sizeof(struct casepart));
2891                         $0->value = $<2;
2892                         $0->action = $<4;
2893                         var_block_close(config2context(config), CloseParallel);
2894                 }$
2895
2896         $*cond_statement
2897         IfSuffix -> Newlines ${ $0 = new(cond_statement); }$
2898                 | Newlines else OpenScope Block ${
2899                         $0 = new(cond_statement);
2900                         $0->elsepart = $<4;
2901                         var_block_close(config2context(config), CloseElse);
2902                 }$
2903                 | else OpenScope Block ${
2904                         $0 = new(cond_statement);
2905                         $0->elsepart = $<3;
2906                         var_block_close(config2context(config), CloseElse);
2907                 }$
2908                 | Newlines else OpenScope CondStatement ${
2909                         $0 = new(cond_statement);
2910                         $0->elsepart = $<4;
2911                         var_block_close(config2context(config), CloseElse);
2912                 }$
2913                 | else OpenScope CondStatement ${
2914                         $0 = new(cond_statement);
2915                         $0->elsepart = $<3;
2916                         var_block_close(config2context(config), CloseElse);
2917                 }$
2918
2919
2920         $*exec
2921         // These scopes are closed in CondSuffix
2922         ForPart -> for OpenScope SimpleStatements ${
2923                         $0 = reorder_bilist($<3);
2924                 }$
2925                 |  for OpenScope Block ${
2926                         $0 = $<3;
2927                 }$
2928
2929         ThenPart -> then OpenScope SimpleStatements ${
2930                         $0 = reorder_bilist($<3);
2931                         var_block_close(config2context(config), CloseSequential);
2932                 }$
2933                 |  then OpenScope Block ${
2934                         $0 = $<3;
2935                         var_block_close(config2context(config), CloseSequential);
2936                 }$
2937
2938         ThenPartNL -> ThenPart OptNL ${
2939                         $0 = $<1;
2940                 }$
2941
2942         // This scope is closed in CondSuffix
2943         WhileHead -> while OpenScope Block ${
2944                 $0 = $<3;
2945                 }$
2946
2947         $cond_statement
2948         ForThen -> ForPart OptNL ThenPartNL ${
2949                         $0.forpart = $<1;
2950                         $0.thenpart = $<3;
2951                 }$
2952                 | ForPart OptNL ${
2953                         $0.forpart = $<1;
2954                 }$
2955
2956         // This scope is closed in CondSuffix
2957         WhilePart -> while OpenScope Expression Block ${
2958                         $0.type = Xcond_statement;
2959                         $0.condpart = $<3;
2960                         $0.dopart = $<4;
2961                 }$
2962                 | WhileHead OptNL do Block ${
2963                         $0.type = Xcond_statement;
2964                         $0.condpart = $<1;
2965                         $0.dopart = $<4;
2966                 }$
2967
2968         IfPart -> if OpenScope Expression OpenScope Block ${
2969                         $0.type = Xcond_statement;
2970                         $0.condpart = $<3;
2971                         $0.thenpart = $<5;
2972                         var_block_close(config2context(config), CloseParallel);
2973                 }$
2974                 | if OpenScope Block OptNL then OpenScope Block ${
2975                         $0.type = Xcond_statement;
2976                         $0.condpart = $<3;
2977                         $0.thenpart = $<7;
2978                         var_block_close(config2context(config), CloseParallel);
2979                 }$
2980
2981         $*exec
2982         // This scope is closed in CondSuffix
2983         SwitchPart -> switch OpenScope Expression ${
2984                         $0 = $<3;
2985                 }$
2986                 | switch OpenScope Block ${
2987                         $0 = $<3;
2988                 }$
2989
2990 ###### print exec cases
2991
2992         case Xcond_statement:
2993         {
2994                 struct cond_statement *cs = cast(cond_statement, e);
2995                 struct casepart *cp;
2996                 if (cs->forpart) {
2997                         do_indent(indent, "for");
2998                         if (bracket) printf(" {\n"); else printf(":\n");
2999                         print_exec(cs->forpart, indent+1, bracket);
3000                         if (cs->thenpart) {
3001                                 if (bracket)
3002                                         do_indent(indent, "} then {\n");
3003                                 else
3004                                         do_indent(indent, "then:\n");
3005                                 print_exec(cs->thenpart, indent+1, bracket);
3006                         }
3007                         if (bracket) do_indent(indent, "}\n");
3008                 }
3009                 if (cs->dopart) {
3010                         // a loop
3011                         if (cs->condpart && cs->condpart->type == Xbinode &&
3012                             cast(binode, cs->condpart)->op == Block) {
3013                                 if (bracket)
3014                                         do_indent(indent, "while {\n");
3015                                 else
3016                                         do_indent(indent, "while:\n");
3017                                 print_exec(cs->condpart, indent+1, bracket);
3018                                 if (bracket)
3019                                         do_indent(indent, "} do {\n");
3020                                 else
3021                                         do_indent(indent, "do:\n");
3022                                 print_exec(cs->dopart, indent+1, bracket);
3023                                 if (bracket)
3024                                         do_indent(indent, "}\n");
3025                         } else {
3026                                 do_indent(indent, "while ");
3027                                 print_exec(cs->condpart, 0, bracket);
3028                                 if (bracket)
3029                                         printf(" {\n");
3030                                 else
3031                                         printf(":\n");
3032                                 print_exec(cs->dopart, indent+1, bracket);
3033                                 if (bracket)
3034                                         do_indent(indent, "}\n");
3035                         }
3036                 } else {
3037                         // a condition
3038                         if (cs->casepart)
3039                                 do_indent(indent, "switch");
3040                         else
3041                                 do_indent(indent, "if");
3042                         if (cs->condpart && cs->condpart->type == Xbinode &&
3043                             cast(binode, cs->condpart)->op == Block) {
3044                                 if (bracket)
3045                                         printf(" {\n");
3046                                 else
3047                                         printf(":\n");
3048                                 print_exec(cs->condpart, indent+1, bracket);
3049                                 if (bracket)
3050                                         do_indent(indent, "}\n");
3051                                 if (cs->thenpart) {
3052                                         do_indent(indent, "then:\n");
3053                                         print_exec(cs->thenpart, indent+1, bracket);
3054                                 }
3055                         } else {
3056                                 printf(" ");
3057                                 print_exec(cs->condpart, 0, bracket);
3058                                 if (cs->thenpart) {
3059                                         if (bracket)
3060                                                 printf(" {\n");
3061                                         else
3062                                                 printf(":\n");
3063                                         print_exec(cs->thenpart, indent+1, bracket);
3064                                         if (bracket)
3065                                                 do_indent(indent, "}\n");
3066                                 } else
3067                                         printf("\n");
3068                         }
3069                 }
3070                 for (cp = cs->casepart; cp; cp = cp->next) {
3071                         do_indent(indent, "case ");
3072                         print_exec(cp->value, -1, 0);
3073                         if (bracket)
3074                                 printf(" {\n");
3075                         else
3076                                 printf(":\n");
3077                         print_exec(cp->action, indent+1, bracket);
3078                         if (bracket)
3079                                 do_indent(indent, "}\n");
3080                 }
3081                 if (cs->elsepart) {
3082                         do_indent(indent, "else");
3083                         if (bracket)
3084                                 printf(" {\n");
3085                         else
3086                                 printf(":\n");
3087                         print_exec(cs->elsepart, indent+1, bracket);
3088                         if (bracket)
3089                                 do_indent(indent, "}\n");
3090                 }
3091                 break;
3092         }
3093
3094 ###### propagate exec cases
3095         case Xcond_statement:
3096         {
3097                 // forpart and dopart must return Tnone
3098                 // thenpart must return Tnone if there is a dopart,
3099                 // otherwise it is like elsepart.
3100                 // condpart must:
3101                 //    be bool if there is no casepart
3102                 //    match casepart->values if there is a switchpart
3103                 //    either be bool or match casepart->value if there
3104                 //             is a whilepart
3105                 // elsepart and casepart->action must match the return type
3106                 //   expected of this statement.
3107                 struct cond_statement *cs = cast(cond_statement, prog);
3108                 struct casepart *cp;
3109
3110                 t = propagate_types(cs->forpart, c, ok, Tnone, 0);
3111                 if (!type_compat(Tnone, t, 0))
3112                         *ok = 0;
3113                 t = propagate_types(cs->dopart, c, ok, Tnone, 0);
3114                 if (!type_compat(Tnone, t, 0))
3115                         *ok = 0;
3116                 if (cs->dopart) {
3117                         t = propagate_types(cs->thenpart, c, ok, Tnone, 0);
3118                         if (!type_compat(Tnone, t, 0))
3119                                 *ok = 0;
3120                 }
3121                 if (cs->casepart == NULL)
3122                         propagate_types(cs->condpart, c, ok, Tbool, 0);
3123                 else {
3124                         /* Condpart must match case values, with bool permitted */
3125                         t = NULL;
3126                         for (cp = cs->casepart;
3127                              cp && !t; cp = cp->next)
3128                                 t = propagate_types(cp->value, c, ok, NULL, 0);
3129                         if (!t && cs->condpart)
3130                                 t = propagate_types(cs->condpart, c, ok, NULL, Rboolok);
3131                         // Now we have a type (I hope) push it down
3132                         if (t) {
3133                                 for (cp = cs->casepart; cp; cp = cp->next)
3134                                         propagate_types(cp->value, c, ok, t, 0);
3135                                 propagate_types(cs->condpart, c, ok, t, Rboolok);
3136                         }
3137                 }
3138                 // (if)then, else, and case parts must return expected type.
3139                 if (!cs->dopart && !type)
3140                         type = propagate_types(cs->thenpart, c, ok, NULL, rules);
3141                 if (!type)
3142                         type = propagate_types(cs->elsepart, c, ok, NULL, rules);
3143                 for (cp = cs->casepart;
3144                      cp && !type;
3145                      cp = cp->next)
3146                         type = propagate_types(cp->action, c, ok, NULL, rules);
3147                 if (type) {
3148                         if (!cs->dopart)
3149                                 propagate_types(cs->thenpart, c, ok, type, rules);
3150                         propagate_types(cs->elsepart, c, ok, type, rules);
3151                         for (cp = cs->casepart; cp ; cp = cp->next)
3152                                 propagate_types(cp->action, c, ok, type, rules);
3153                         return type;
3154                 } else
3155                         return NULL;
3156         }
3157
3158 ###### interp exec cases
3159         case Xcond_statement:
3160         {
3161                 struct value v, cnd;
3162                 struct casepart *cp;
3163                 struct cond_statement *c = cast(cond_statement, e);
3164
3165                 if (c->forpart)
3166                         interp_exec(c->forpart);
3167                 do {
3168                         if (c->condpart)
3169                                 cnd = interp_exec(c->condpart);
3170                         else
3171                                 cnd.type = Tnone;
3172                         if (!(cnd.type == Tnone ||
3173                               (cnd.type == Tbool && cnd.bool != 0)))
3174                                 break;
3175                         // cnd is Tnone or Tbool, doesn't need to be freed
3176                         if (c->dopart)
3177                                 interp_exec(c->dopart);
3178
3179                         if (c->thenpart) {
3180                                 rv = interp_exec(c->thenpart);
3181                                 if (rv.type != Tnone || !c->dopart)
3182                                         goto Xcond_done;
3183                                 free_value(rv);
3184                         }
3185                 } while (c->dopart);
3186
3187                 for (cp = c->casepart; cp; cp = cp->next) {
3188                         v = interp_exec(cp->value);
3189                         if (value_cmp(v, cnd) == 0) {
3190                                 free_value(v);
3191                                 free_value(cnd);
3192                                 rv = interp_exec(cp->action);
3193                                 goto Xcond_done;
3194                         }
3195                         free_value(v);
3196                 }
3197                 free_value(cnd);
3198                 if (c->elsepart)
3199                         rv = interp_exec(c->elsepart);
3200                 else
3201                         rv.type = Tnone;
3202         Xcond_done:
3203                 break;
3204         }
3205
3206 ## Complex types
3207
3208 Now that we have the shape of the interpreter in place we can add some
3209 complex types and connected them in to the data structures and the
3210 different phases of parse, analyse, print, interpret.
3211
3212 For now, just arrays.
3213
3214 ### Arrays
3215
3216 Arrays can be declared by giving a size and a type, as `[size]type' so
3217 `freq:[26]number` declares `freq` to be an array of 26 numbers.  The
3218 size can be an arbitrary expression which is evaluated when the name
3219 comes into scope.
3220
3221 Arrays cannot be assigned.  When pointers are introduced we will also
3222 introduce array slices which can refer to part or all of an array -
3223 the assignment syntax will create a slice.  For now, an array can only
3224 ever be referenced by the name it is declared with.  It is likely that
3225 a "`copy`" primitive will eventually be define which can be used to
3226 make a copy of an array with controllable depth.
3227
3228 ###### type union fields
3229
3230         struct {
3231                 int size;
3232                 struct variable *vsize;
3233                 struct type *member;
3234         } array;
3235
3236 ###### value union fields
3237         struct {
3238                 struct value *elmnts;
3239         } array;
3240
3241 ###### value functions
3242
3243         static struct value array_prepare(struct type *type)
3244         {
3245                 struct value ret;
3246
3247                 ret.type = type;
3248                 ret.array.elmnts = NULL;
3249                 return ret;
3250         }
3251
3252         static struct value array_init(struct type *type)
3253         {
3254                 struct value ret;
3255                 int i;
3256
3257                 ret.type = type;
3258                 if (type->array.vsize) {
3259                         mpz_t q;
3260                         mpz_init(q);
3261                         mpz_tdiv_q(q, mpq_numref(type->array.vsize->val.num),
3262                                    mpq_denref(type->array.vsize->val.num));
3263                         type->array.size = mpz_get_si(q);
3264                         mpz_clear(q);
3265                 }
3266                 ret.array.elmnts = calloc(type->array.size,
3267                                           sizeof(ret.array.elmnts[0]));
3268                 for (i = 0; ret.array.elmnts && i < type->array.size; i++)
3269                         ret.array.elmnts[i] = val_init(type->array.member);
3270                 return ret;
3271         }
3272
3273         static void array_free(struct value val)
3274         {
3275                 int i;
3276
3277                 if (val.array.elmnts)
3278                         for (i = 0; i < val.type->array.size; i++)
3279                                 free_value(val.array.elmnts[i]);
3280                 free(val.array.elmnts);
3281         }
3282
3283         static int array_compat(struct type *require, struct type *have)
3284         {
3285                 if (have->compat != require->compat)
3286                         return 0;
3287                 /* Both are arrays, so we can look at details */
3288                 if (!type_compat(require->array.member, have->array.member, 0))
3289                         return 0;
3290                 if (require->array.vsize == NULL && have->array.vsize == NULL)
3291                         return require->array.size == have->array.size;
3292
3293                 return require->array.vsize == have->array.vsize;
3294         }
3295
3296         static void array_print_type(struct type *type, FILE *f)
3297         {
3298                 fputs("[", f);
3299                 if (type->array.vsize) {
3300                         struct binding *b = type->array.vsize->name;
3301                         fprintf(f, "%.*s]", b->name.len, b->name.txt);
3302                 } else
3303                         fprintf(f, "%d]", type->array.size);
3304                 type_print(type->array.member, f);
3305         }
3306
3307         static struct type array_prototype = {
3308                 .prepare = array_prepare,
3309                 .init = array_init,
3310                 .print_type = array_print_type,
3311                 .compat = array_compat,
3312                 .free = array_free,
3313         };
3314
3315 ###### type grammar
3316
3317         | [ NUMBER ] Type ${
3318                 $0 = calloc(1, sizeof(struct type));
3319                 *($0) = array_prototype;
3320                 $0->array.member = $<4;
3321                 $0->array.vsize = NULL;
3322                 {
3323                 char tail[3];
3324                 mpq_t num;
3325                 if (number_parse(num, tail, $2.txt) == 0)
3326                         tok_err(config2context(config), "error: unrecognised number", &$2);
3327                 else if (tail[0])
3328                         tok_err(config2context(config), "error: unsupported number suffix", &$2);
3329                 else {
3330                         $0->array.size = mpz_get_ui(mpq_numref(num));
3331                         if (mpz_cmp_ui(mpq_denref(num), 1) != 0) {
3332                                 tok_err(config2context(config), "error: array size must be an integer",
3333                                         &$2);
3334                         } else if (mpz_cmp_ui(mpq_numref(num), 1UL << 30) >= 0)
3335                                 tok_err(config2context(config), "error: array size is too large",
3336                                         &$2);
3337                 }
3338                 }
3339         }$
3340
3341         | [ IDENTIFIER ] Type ${ {
3342                 struct variable *v = var_ref(config2context(config), $2.txt);
3343
3344                 if (!v)
3345                         tok_err(config2context(config), "error: name undeclared", &$2);
3346                 else if (!v->constant)
3347                         tok_err(config2context(config), "error: array size must be a constant", &$2);
3348
3349                 $0 = calloc(1, sizeof(struct type));
3350                 *($0) = array_prototype;
3351                 $0->array.member = $<4;
3352                 $0->array.size = 0;
3353                 $0->array.vsize = v;
3354         } }$
3355
3356 ###### Binode types
3357         Index,
3358
3359 ###### variable grammar
3360
3361         | Variable [ Expression ] ${ {
3362                 struct binode *b = new(binode);
3363                 b->op = Index;
3364                 b->left = $<1;
3365                 b->right = $<3;
3366                 $0 = b;
3367         } }$
3368
3369 ###### print binode cases
3370         case Index:
3371                 print_exec(b->left, -1, 0);
3372                 printf("[");
3373                 print_exec(b->right, -1, 0);
3374                 printf("]");
3375                 break;
3376
3377 ###### propagate binode cases
3378         case Index:
3379                 /* left must be an array, right must be a number,
3380                  * result is the member type of the array
3381                  */
3382                 propagate_types(b->right, c, ok, Tnum, 0);
3383                 t = propagate_types(b->left, c, ok, NULL, rules & Rnoconstant);
3384                 if (!t || t->compat != array_compat) {
3385                         type_err(c, "error: %1 cannot be indexed", prog, t, 0, NULL);
3386                         *ok = 0;
3387                         return NULL;
3388                 } else {
3389                         if (!type_compat(type, t->array.member, rules)) {
3390                                 type_err(c, "error: have %1 but need %2", prog,
3391                                          t->array.member, rules, type);
3392                                 *ok = 0;
3393                         }
3394                         return t->array.member;
3395                 }
3396                 break;
3397
3398 ###### interp binode cases
3399         case Index: {
3400                 mpz_t q;
3401                 long i;
3402
3403                 lleft = linterp_exec(b->left);
3404                 right = interp_exec(b->right);
3405                 mpz_init(q);
3406                 mpz_tdiv_q(q, mpq_numref(right.num), mpq_denref(right.num));
3407                 i = mpz_get_si(q);
3408                 mpz_clear(q);
3409
3410                 if (i >= 0 && i < lleft->type->array.size)
3411                         lrv = &lleft->array.elmnts[i];
3412                 else
3413                         rv = val_init(lleft->type->array.member);
3414                 break;
3415         }
3416
3417 ### Finally the whole program.
3418
3419 Somewhat reminiscent of Pascal a (current) Ocean program starts with
3420 the keyword "program" and a list of variable names which are assigned
3421 values from command line arguments.  Following this is a `block` which
3422 is the code to execute.
3423
3424 As this is the top level, several things are handled a bit
3425 differently.
3426 The whole program is not interpreted by `interp_exec` as that isn't
3427 passed the argument list which the program requires.  Similarly type
3428 analysis is a bit more interesting at this level.
3429
3430 ###### Binode types
3431         Program,
3432
3433 ###### Parser: grammar
3434
3435         $*binode
3436         Program -> program OpenScope Varlist Block OptNL ${
3437                 $0 = new(binode);
3438                 $0->op = Program;
3439                 $0->left = reorder_bilist($<3);
3440                 $0->right = $<4;
3441                 var_block_close(config2context(config), CloseSequential);
3442                 if (config2context(config)->scope_stack) abort();
3443                 }$
3444                 | ERROR ${
3445                         tok_err(config2context(config),
3446                                 "error: unhandled parse error", &$1);
3447                 }$
3448
3449         Varlist -> Varlist ArgDecl ${
3450                         $0 = new(binode);
3451                         $0->op = Program;
3452                         $0->left = $<1;
3453                         $0->right = $<2;
3454                 }$
3455                 | ${ $0 = NULL; }$
3456
3457         $*var
3458         ArgDecl -> IDENTIFIER ${ {
3459                 struct variable *v = var_decl(config2context(config), $1.txt);
3460                 $0 = new(var);
3461                 $0->var = v;
3462         } }$
3463
3464         ## Grammar
3465
3466 ###### print binode cases
3467         case Program:
3468                 do_indent(indent, "program");
3469                 for (b2 = cast(binode, b->left); b2; b2 = cast(binode, b2->right)) {
3470                         printf(" ");
3471                         print_exec(b2->left, 0, 0);
3472                 }
3473                 if (bracket)
3474                         printf(" {\n");
3475                 else
3476                         printf(":\n");
3477                 print_exec(b->right, indent+1, bracket);
3478                 if (bracket)
3479                         do_indent(indent, "}\n");
3480                 break;
3481
3482 ###### propagate binode cases
3483         case Program: abort();
3484
3485 ###### core functions
3486
3487         static int analyse_prog(struct exec *prog, struct parse_context *c)
3488         {
3489                 struct binode *b = cast(binode, prog);
3490                 int ok = 1;
3491
3492                 if (!b)
3493                         return 0;
3494                 do {
3495                         ok = 1;
3496                         propagate_types(b->right, c, &ok, Tnone, 0);
3497                 } while (ok == 2);
3498                 if (!ok)
3499                         return 0;
3500
3501                 for (b = cast(binode, b->left); b; b = cast(binode, b->right)) {
3502                         struct var *v = cast(var, b->left);
3503                         if (!v->var->val.type) {
3504                                 v->var->where_set = b;
3505                                 v->var->val = val_prepare(Tstr);
3506                         }
3507                 }
3508                 b = cast(binode, prog);
3509                 do {
3510                         ok = 1;
3511                         propagate_types(b->right, c, &ok, Tnone, 0);
3512                 } while (ok == 2);
3513                 if (!ok)
3514                         return 0;
3515
3516                 /* Make sure everything is still consistent */
3517                 propagate_types(b->right, c, &ok, Tnone, 0);
3518                 return !!ok;
3519         }
3520
3521         static void interp_prog(struct exec *prog, char **argv)
3522         {
3523                 struct binode *p = cast(binode, prog);
3524                 struct binode *al;
3525                 struct value v;
3526
3527                 if (!prog)
3528                         return;
3529                 al = cast(binode, p->left);
3530                 while (al) {
3531                         struct var *v = cast(var, al->left);
3532                         struct value *vl = &v->var->val;
3533
3534                         if (argv[0] == NULL) {
3535                                 printf("Not enough args\n");
3536                                 exit(1);
3537                         }
3538                         al = cast(binode, al->right);
3539                         free_value(*vl);
3540                         *vl = parse_value(vl->type, argv[0]);
3541                         if (vl->type == NULL)
3542                                 exit(1);
3543                         argv++;
3544                 }
3545                 v = interp_exec(p->right);
3546                 free_value(v);
3547         }
3548
3549 ###### interp binode cases
3550         case Program: abort();
3551
3552 ## And now to test it out.
3553
3554 Having a language requires having a "hello world" program. I'll
3555 provide a little more than that: a program that prints "Hello world"
3556 finds the GCD of two numbers, prints the first few elements of
3557 Fibonacci, and performs a binary search for a number.
3558
3559 ###### File: oceani.mk
3560         tests :: sayhello
3561         sayhello : oceani
3562                 @echo "===== TEST ====="
3563                 ./oceani --section "test: hello" oceani.mdc 55 33
3564
3565 ###### test: hello
3566
3567         program A B:
3568                 print "Hello World, what lovely oceans you have!"
3569                 /* When a variable is defined in both branches of an 'if',
3570                  * and used afterwards, the variables are merged.
3571                  */
3572                 if A > B:
3573                         bigger := "yes"
3574                 else:
3575                         bigger := "no"
3576                 print "Is", A, "bigger than", B,"? ", bigger
3577                 /* If a variable is not used after the 'if', no
3578                  * merge happens, so types can be different
3579                  */
3580                 if A > B * 2:
3581                         double:string = "yes"
3582                         print A, "is more than twice", B, "?", double
3583                 else:
3584                         double := B*2
3585                         print "double", B, "is", double
3586
3587                 a : number
3588                 a = A;
3589                 b:number = B
3590                 if a > 0 and b > 0:
3591                         while a != b:
3592                                 if a < b:
3593                                         b = b - a
3594                                 else:
3595                                         a = a - b
3596                         print "GCD of", A, "and", B,"is", a
3597                 else if a <= 0:
3598                         print a, "is not positive, cannot calculate GCD"
3599                 else:
3600                         print b, "is not positive, cannot calculate GCD"
3601
3602                 for:
3603                         togo := 10
3604                         f1 := 1; f2 := 1
3605                         print "Fibonacci:", f1,f2,
3606                 then togo = togo - 1
3607                 while togo > 0:
3608                         f3 := f1 + f2
3609                         print "", f3,
3610                         f1 = f2
3611                         f2 = f3
3612                 print ""
3613
3614                 /* Binary search... */
3615                 for:
3616                         lo:= 0; hi := 100
3617                         target := 77
3618                 while:
3619                         mid := (lo + hi) / 2
3620                         if mid == target:
3621                                 use Found
3622                         if mid < target:
3623                                 lo = mid
3624                         else:
3625                                 hi = mid
3626                         if hi - lo < 1:
3627                                 use GiveUp
3628                         use True
3629                 do: pass
3630                 case Found:
3631                         print "Yay, I found", target
3632                 case GiveUp:
3633                         print "Closest I found was", mid
3634
3635                 size::=55
3636                 list:[size]number
3637                 list[0] = 1234
3638                 for i:=1; then i = i + 1; while i < size:
3639                         n := list[i-1] * list[i-1]
3640                         list[i] = (n / 100) % 10000
3641
3642                 print "Before sort:"
3643                 for i:=0; then i = i + 1; while i < size:
3644                         print "list[",i,"]=",list[i]
3645
3646                 for i := 1; then i=i+1; while i < size:
3647                         for j:=i-1; then j=j-1; while j >= 0:
3648                                 if list[j] > list[j+1]:
3649                                         t:= list[j]
3650                                         list[j] = list[j+1]
3651                                         list[j+1] = t
3652                 print "After sort:"
3653                 for i:=0; then i = i + 1; while i < size:
3654                         print "list[",i,"]=",list[i]