]> ocean-lang.org Git - ocean/blob - csrc/scanner.mdc
scanner: fix handling of indents in sub-nodes
[ocean] / csrc / scanner.mdc
1 # Lexical Scanner #
2
3 ## The Task at Hand ##
4
5 The main task of the lexical scanner is to convert a stream of
6 characters into a stream of tokens.  The tokens are then typically
7 used by a parser to extract the syntactic structure.
8
9 The stream of characters are assumed to be in memory identified by a
10 linked list of blocks, such as provided by the "[mdcode][]" literate
11 program extractor.  A single token may never cross a block boundary.
12
13 [mdcode]: mdcode.html
14
15 ###### includes
16         #include "mdcode.h"
17
18 The text is assumed to be UTF-8 though some matching assumes the
19 ASCII subset.  If the text provided does not conform to UTF-8 an error
20 will be reported and some number of bytes will be skipped.
21
22 ###### public types
23         #include <wchar.h>
24         #include <wctype.h>
25         #include <unicode/uchar.h>
26
27 Tokens are returned by successive calls to the main interface
28 function: `token_next()` which has a `state` structure to keep track
29 of where it is up to.  Each token carries not just a numeric
30 identifier but also the code block, the line and character within that
31 block, and the actual start and length using the `struct text` from
32 "mdcode".
33
34 ###### public types
35         struct token {
36                 int               num;
37                 struct code_node *node;
38                 struct text       txt;
39                 int               line, col;
40         };
41         struct token_state;
42
43 ###### private types
44         struct token_state {
45                 ## state fields
46         };
47
48 ###### exported functions
49         struct token token_next(struct token_state *state);
50
51 ###### main functions
52         struct token token_next(struct token_state *state)
53         {
54                 ## token_next init
55                 while (1) {
56                         wint_t ch;
57                         struct token tk;
58
59                         ## one token
60                 }
61         }
62
63 The `line` and `col` offsets are useful for reporting errors.
64 The `txt` provides the content when that is important.
65
66 ### Token types and configuration ##
67
68 The scanner is not completely general, yet not completely specified.
69 There are a fixed set of token types, though particular tokens within
70 those types can be distinguish via configuration.
71
72 Most token types may be explicitly ignored, as typically comments
73 would be.  The exact consequence of ignoring each token type varies
74 from token to token.
75
76 ###### public types
77         struct token_config {
78                 int ignored;    // bit set of ignored tokens.
79                 ## token config parameters
80         };
81
82 ###### state fields
83         struct token_config *conf;
84
85 ###### token_next init
86         int ignored = state->conf->ignored;
87
88 The different tokens are numbers, words, marks, strings, comments,
89 newlines, EOF, and indents, each of which is examined in detail below.
90
91 There are various cases where no token can be found in part of the
92 input.  All of these will be reported as a `TK_error` token.
93
94 It is possible to declare a number of strings which form distinct
95 tokens (rather than being grouped as e.g. 'word').  These are given
96 token numbers from `TK_reserved` upwards.
97
98 ###### public types
99         enum token_num {
100                 TK_error,
101                 ## token types
102                 TK_reserved
103         };
104
105 ### Numbers
106
107 Numbers are the messiest tokens to parse, primarily because they can
108 contain characters that also have meaning outside of numbers and,
109 particularly, immediately after numbers.
110
111 The obvious example is the '`-`' sign.  It can come inside a number for
112 a negative exponent, or after a number as a subtraction operator.  To
113 be sure we have parsed as best as possible we need to only allow the
114 '`-`' inside a number if it is after an exponent character.  This can be
115 `e` or `p` (for hex exponents), but `e` can also be a hexadecimal
116 digit, so we don't allow '`-`' after just any `e`.
117
118 To make matters worse, our language designer has decided to experiment
119 with allowing commas to be used as the decimal indicator, and spaces
120 to be used to separate groups of digits in large numbers.  Both of
121 these can reasonably be restricted to appear between two digits, so we
122 have to add that condition to our tests.  For consistency we require
123 every non-alpha-numeric to appear between two hex digits, with the
124 exception that a sign can appear only after a 'p' or 'e', and a space
125 can only appear between decimal digits.  Allowing a space before a
126 letter easily leads to confusion, such a in `a < 3 and b < 4`.
127
128 So we cannot just treat numbers as starting with a digit and being
129 followed by some set of characters.  We need more structure than that.
130
131 So:
132
133 - Numbers must start with a digit.
134 - If the first digit is zero, the next character should be a base
135   signifier (one of `xob`) or a decimal marker (`.` or `,`) (though this isn't
136   enforced at this stage)
137   In the first case the only first `p` or `P` may be followed by a sign.
138 - If the number doesn't start with `0` followed by one of `xob`, the
139   first `e` may be followed by a sign.
140 - A sign must always be followed by a digit.
141 - Any digit may be followed by a space or underscore and any hex digit
142   maybe followed by an underscore, providing that the subsequence character
143   is also a digit (for space) or hex digit (for underscore).
144   This rule will require an extra level of 'unget' to be
145   supported when handling characters.
146 - Otherwise any digits or ASCII letters are allowed.  We do not at
147   this point check that the digits given are permitted by the base.
148   That will happen when the token is converted to a number.
149
150 To allow easy configuration, the various non alphanumeric characters
151 are only permitted if they are listed in a configuration parameter.
152
153 ###### token config parameters
154         char *number_chars;
155
156 Note that numbers may not start with a period, so `.75` is not a
157 number.  This is not the norm, but is not unheard of.  Excluding these
158 numbers simplifies the rule at very little cost.
159
160 ###### token types
161         TK_number,
162
163 If TK_number is ignored, digits will result in an error unless they
164 are declared to be a start character for words.
165
166 ###### includes
167
168         #include <string.h>
169
170 ###### parse number
171
172         if (iswdigit(ch) && !(ignored & (1<<TK_number))) {
173                 int prev = 0;
174                 int expect_p = 0;
175                 int decimal_mark = 0;
176                 if (ch == '0') {
177                         wchar_t ch2 = get_char(state);
178                         if (strchr("xobXOB", ch2) != NULL)
179                                 expect_p = 1;
180                         unget_char(state);
181                 }
182                 while (1) {
183                         int sign_ok = 0;
184                         switch(expect_p) {
185                         case 0:
186                                 if (ch == 'e' || ch == 'E') {
187                                         sign_ok = 1;
188                                         decimal_mark = 1;
189                                 }
190                                 break;
191                         case 1:
192                                 if (ch == 'p' || ch == 'P') {
193                                         sign_ok = 1;
194                                         decimal_mark = 1;
195                                 }
196                                 break;
197                         }
198                         save_unget_state(state);
199                         prev = ch;
200                         ch = get_char(state);
201
202                         if (!iswalnum(prev)) {
203                                 /* special characters, like separators and decimal marks
204                                  * and signs, must be followed by a hexdigit, and the
205                                  * space and signs must be followed by a decimal digit.
206                                  */
207                                 if (!iswxdigit(ch) ||
208                                    ((prev == '-' || prev == '+') && !iswdigit(ch)) ||
209                                    (prev == ' ' && !iswdigit(ch))) {
210                                         /* don't want the new char or the special */
211                                         restore_unget_state(state);
212                                         break;
213                                 }
214                         }
215                         if (iswalnum(ch))
216                                 continue;
217
218                         if (!strchr(state->conf->number_chars, ch)) {
219                                 /* non-number char */
220                                 break;
221                         }
222                         if (ch == '+' || ch == '-') {
223                                 /* previous must be 'e' or 'p' in appropraite context */
224                                 if (!sign_ok)
225                                         break;
226                                 expect_p = -1;
227                         } else if (ch == ' ') {
228                                 /* previous must be a digit */
229                                 if (!iswdigit(prev))
230                                         break;
231                         } else {
232                                 /* previous must be a hex digit */
233                                 if (!iswxdigit(prev))
234                                         break;
235                         }
236                         if (ch == '.' || ch == ',') {
237                                 /* only one of these permitted */
238                                 if (decimal_mark)
239                                         break;
240                                 decimal_mark = 1;
241                         }
242                 }
243                 /* We seem to have a "number" token */
244                 unget_char(state);
245                 close_token(state, &tk);
246                 tk.num = TK_number;
247                 return tk;
248         }
249
250 ### Words
251 Words start with a "start" character followed by the longest
252 sequence of "continue" characters.  The Unicode ID_START and
253 ID_CONTINUE sets are always permitted, but other ASCII characters
254 can be added to these sets.
255
256 ###### token config parameters
257         char *word_start;
258         char *word_cont;
259
260 ###### internal functions
261         static int is_word_start(wchar_t ch, struct token_config *conf)
262         {
263                 return iswalpha(ch) ||
264                        strchr(conf->word_start, ch) != NULL ||
265                        u_hasBinaryProperty(ch, UCHAR_ID_START);
266         }
267
268         static int is_word_continue(wchar_t ch, struct token_config *conf)
269         {
270                 return iswalnum(ch) ||
271                        strchr(conf->word_cont, ch) != NULL ||
272                        u_hasBinaryProperty(ch, UCHAR_ID_CONTINUE);
273         }
274
275 Words can be either known or unknown.  Known words are referred to as
276 "reserved words" and get a unique token number.  Unknown words are
277 "identifiers" and are syntactically a single token.
278
279 ###### token types
280         TK_ident,
281
282 A list of known words must be provided.  This list is shared with the
283 "marks" which are described next.  The list must be lexically sorted
284 and the length of the list must be given (`known_count`).
285 Tokens matching these known words are reported as the index of the
286 list added to `TK_reserved`.
287
288 If identifiers are ignored, then any word which is not listed as a
289 known word results in an error.
290
291 ###### token config parameters
292         const char **words_marks;
293         int known_count;
294
295 ###### parse word
296
297         if (is_word_start(ch, state->conf)) {
298                 int n;
299                 /* A word: identifier or reserved */
300                 do
301                         ch = get_char(state);
302                 while (is_word_continue(ch, state->conf));
303                 unget_char(state);
304                 close_token(state, &tk);
305                 tk.num = TK_ident;
306                 if (ignored & (1<<TK_ident))
307                         tk.num = TK_error;
308                 n = find_known(state->conf, tk.txt);
309                 if (n >= 0)
310                         tk.num = TK_reserved + n;
311                 return tk;
312         }
313
314 ### Marks
315
316 Marks are generally one or more punctuation marks joined together.  It
317 would be nice to use the term "symbol" for these, but that causes
318 confusion in a subsequent discussion of the grammar, which has terminal
319 symbols and non-terminal symbols which are conceptually quite
320 different.  So strings of punctuation characters will be marks.
321
322 A "mark" consists of ASCII characters that are not white space, are not
323 "start" characters for words, and are not digits.
324 These will collectively be called mark characters.
325
326 ###### internal functions
327         static int is_mark(wchar_t ch, struct token_config *conf)
328         {
329                 return ch > ' ' &&
330                        ch < 0x7f &&
331                        !iswalnum(ch) &&
332                        strchr(conf->word_start, ch) == NULL;
333         }
334
335 As with words, there can be known and unknown marks, though the rules
336 are slightly different.
337
338 Two marks do not need to be separated by a non-mark characters.  This
339 is different from words which do need to be separated by at least one
340 non-continue character.
341
342 The scanner will normally prefer longer sequences of mark characters,
343 but will more strongly prefer known marks over unknown marks.  So if
344 it finds a known mark where adding one more character does not result
345 in a known mark, it will return that first known mark.
346
347 If no known mark is found we will test against strings and comments
348 below before giving up and assuming an unknown mark.
349
350 If an unknown mark contains a quote character or a comment marker, and
351 that token is not being ignored, then we terminate the unknown mark
352 before that quote or comment.  This ensures that an unknown mark
353 immediately before a string is handled correctly.
354
355 If the first character of a comment marker (i.e. '/') is a known mark,
356 the above rules would suggest that the start of a comment would be
357 parsed as that mark, which is not what is wanted.  So the introductory
358 sequences for a comment ("//" and "/*") are treated as
359 partially-known.  They prevent the leading "/" from being a mark by
360 itself, but do not actually constitute a stand-alone mark.
361
362 If `TK_mark` is ignored, then unknown marks are returned as errors.
363
364 ###### token types
365         TK_mark,
366
367 Known marks are included in the same list as the list of known words.
368
369 ###### parse mark
370         tk.num = TK_error;
371         while (is_mark(ch, state->conf)) {
372                 int n;
373                 wchar_t prev;
374                 close_token(state, &tk);
375                 n = find_known(state->conf, tk.txt);
376                 if (n >= 0)
377                         tk.num = TK_reserved + n;
378                 else if (tk.num != TK_error) {
379                         /* found a longest-known-mark, still need to
380                          * check for comments
381                          */
382                         if (tk.txt.len == 2 && tk.txt.txt[0] == '/' &&
383                             (ch == '/' || ch == '*')) {
384                                 /* Yes, this is a comment, not a '/' */
385                                 restore_unget_state(state);
386                                 tk.num = TK_error;
387                                 break;
388                         }
389                         unget_char(state);
390                         close_token(state, &tk);
391                         return tk;
392                 }
393                 prev = ch;
394                 save_unget_state(state);
395                 ch = get_char(state);
396                 if (!(ignored & (1<<TK_string)) && n < 0 &&is_quote(ch) && !is_quote(prev))
397                         /* If strings are allowed, a quote (Which isn't a known mark)
398                          * mustn't be treated as part of an unknown mark.  It can be
399                          * part of a multi-line srtings though.
400                          */
401                         break;
402                 if (prev == '#' && n < 0)
403                         /* '#' is not a known mark, so assume it is a comment */
404                         break;
405                 if (prev == '/' && ch == '/' && tk.txt.len == 1 && n < 0) {
406                         close_token(state, &tk);
407                         restore_unget_state(state);
408                         break;
409                 }
410                 if (prev == '/' && ch == '*' && tk.txt.len == 1 && n < 0) {
411                         close_token(state, &tk);
412                         restore_unget_state(state);
413                         break;
414                 }
415         }
416         unget_char(state);
417         if (tk.num != TK_error) {
418                 close_token(state, &tk);
419                 return tk;
420         }
421
422 If we don't find a known mark, we will check for strings and comments
423 before assuming that we have an unknown mark
424
425 ###### parse mark
426         ## parse string
427         ## parse comment
428         ## unknown mark
429
430 ### Strings
431
432 Strings start with one of single quote, double quote, or back quote
433 and continue until a matching character on the same line.  Any of
434 these characters can be included in the list of known marks and then
435 they will not be used for identifying strings.
436
437 Immediately following the close quote, one or two ASCII letters may
438 appear.  These are somewhat like the arbitrary letters allowed in
439 "Numbers" above.  They can be used by the language in various ways.
440
441 If 3 identical quote characters appear in a row and are
442 followed by a newline, then this forms a multi-line string which
443 continues until an identical triple quote appears on a line preceded
444 only by whitespace and followed immediately by 0-2 ASCII letters and a newline.
445
446 Multi-line strings may not extend beyond the end of the `code_node` in
447 which they start.
448
449 Normal strings and multi-line strings are encoded as two different
450 token types.
451
452 ###### token types
453         TK_string,
454         TK_multi_string,
455
456 ###### internal functions
457         static int is_quote(wchar_t ch)
458         {
459                 return ch == '\'' || ch == '"' || ch == '`'; // "
460         }
461
462 #### Multi-line strings
463
464 The multi-line string is checked for first.  If they are being
465 ignored, we fall through and treat a triple quote as an empty string
466 followed by the start of a new string.
467
468 ###### parse string
469         if (tk.txt.len == 3 &&
470             !(ignored & (1 << TK_multi_string)) &&
471             is_quote(tk.txt.txt[0]) &&
472             memcmp(tk.txt.txt, tk.txt.txt+1, 2) == 0 &&
473             is_newline(tk.txt.txt[3])) {
474                 // triple quote
475                 wchar_t first = tk.txt.txt[0];
476                 int qseen = 0;
477                 int at_sol = 1;
478                 while (!at_eon(state) && qseen < 3) {
479                         ch = get_char(state);
480                         if (is_newline(ch)) {
481                                 at_sol = 1;
482                                 qseen = 0;
483                         } else if (at_sol && ch == first) {
484                                 qseen += 1;
485                         } else if (ch != ' ' && ch != '\t') {
486                                 at_sol = 0;
487                                 qseen = 0;
488                         }
489                 }
490                 if (qseen != 3) {
491                         /* Hit end of node - error.
492                          * unget so the newline is seen,
493                          * but return rest of string as an error.
494                          */
495                         if (is_newline(ch))
496                                 unget_char(state);
497                         close_token(state, &tk);
498                         tk.num = TK_error;
499                         return tk;
500                 }
501                 /* 2 letters are allowed */
502                 ch = get_char(state);
503                 if (iswalpha(ch))
504                         ch = get_char(state);
505                 if (iswalpha(ch))
506                         ch = get_char(state);
507                 /* Now we must have a newline, but we don't return it
508                  * whatever it is.*/
509                 unget_char(state);
510                 close_token(state, &tk);
511                 tk.num = TK_multi_string;
512                 if (!is_newline(ch))
513                         tk.num = TK_error;
514                 return tk;
515         }
516
517 #### Single-line strings
518
519 The sequence of marks collected may be more than a single-line
520 string, so we reset to the start and collect characters until
521 we find a close quote or a newline.
522
523 If `TK_string` is ignored, then quote characters will appear as `TK_mark`s.
524
525 ###### parse string
526         if (tk.txt.len && is_quote(tk.txt.txt[0]) &&
527             !(ignored & (1<<TK_string))) {
528                 wchar_t first = tk.txt.txt[0];
529                 reset_token(state, &tk);
530                 ch = get_char(state);
531                 tk.num = TK_error;
532                 while (!at_eon(state) && !is_newline(ch)) {
533                         ch = get_char(state);
534                         if (ch == first) {
535                                 tk.num = TK_string;
536                                 break;
537                         }
538                         if (is_newline(ch)) {
539                                 unget_char(state);
540                                 break;
541                         }
542                 }
543                 while (!at_eon(state) && (ch = get_char(state)) &&
544                                           iswalpha(ch))
545                         ;
546                 unget_char(state);
547                 close_token(state, &tk);
548                 return tk;
549         }
550
551 ### Comments
552
553 Single line comments may start with '`//`' or '`#`' providing that these
554 are not known marks.  They continue to the end of the line.
555
556 Block comments start with '`/*`' if this is not a known mark.  They
557 continue to the first occurrence of '`*/`' and may not contain any
558 occurrence of '`/*`'.
559
560 Block comments can be wholly within one line or can continue over
561 multiple lines.  The multi-line version should be followed immediately
562 by a newline.  The Linux kernel contains over 285000 multi-line
563 comments are only 34 are followed by characters other than white space
564 (which should be removed) or a backslash (only needed in macros).  So
565 it would not suffer from this rule.
566
567 These two comment types are reported as two separate token types, and
568 consequently can be ignored separately.  When ignored a comment is
569 still parsed, but is discarded.
570
571 ###### token types
572         TK_line_comment,
573         TK_block_comment,
574
575 ###### internal functions
576         static int is_line_comment(struct text txt)
577         {
578                 return (txt.len >= 1 && txt.txt[0] == '#') ||
579                        (txt.len >= 2 && txt.txt[0] == '/' &&
580                                         txt.txt[1] == '/');
581         }
582
583         static int is_block_comment(struct text txt)
584         {
585                 return txt.len >= 2 && txt.txt[0] == '/' &&
586                        txt.txt[1] == '*';
587         }
588
589 #### Single line comments
590
591 A single-line comment continues up to, but not including the newline
592 or end of node.
593
594 ###### parse comment
595
596         if (is_line_comment(tk.txt)) {
597                 while (!is_newline(ch) && !at_eon(state))
598                         ch = get_char(state);
599                 if (is_newline(ch))
600                         unget_char(state);
601                 close_token(state, &tk);
602                 tk.num = TK_line_comment;
603                 if (ignored & (1 << TK_line_comment))
604                         continue;
605                 return tk;
606         }
607
608 #### Block comments
609
610 The token text collected so far could exceed the comment, so we need
611 to reset it first.
612
613 If we find an embedded `/*` we reset to just before the '/' and report
614 an error.  That way the next thing to be parsed will be the rest of
615 the comment.  This requires a double unget, so we need to save/restore
616 the unget state (explained later).
617
618 ###### parse comment
619
620         if (is_block_comment(tk.txt)) {
621                 wchar_t prev;
622                 int newlines = 0;
623                 reset_token(state, &tk);
624                 get_char(state);
625                 get_char(state);
626                 save_unget_state(state);
627                 ch = get_char(state);
628                 prev = 0;
629                 while (!at_eon(state) &&
630                        (prev != '/' || ch != '*') &&
631                        (prev != '*' || ch != '/')) {
632                         if (is_newline(ch))
633                                 newlines = 1;
634                         prev = ch;
635                         save_unget_state(state);
636                         ch = get_char(state);
637                 }
638                 close_token(state, &tk);
639                 if (at_eon(state)) {
640                         tk.num = TK_error;
641                         return tk;
642                 }
643                 if (prev == '/') {
644                         /* embedded.  Need to unget twice! */
645                         restore_unget_state(state);
646                         unget_char(state);
647                         tk.num = TK_error;
648                         return tk;
649                 }
650                 tk.num = TK_block_comment;
651                 if (newlines && !(ignored & (1<<TK_newline))) {
652                         /* next char must be newline */
653                         ch = get_char(state);
654                         unget_char(state);
655                         if (!is_newline(ch))
656                                 tk.num = TK_error;
657                 }
658                 if (tk.num == TK_error ||
659                     !(ignored & (1 << TK_block_comment)))
660                         return tk;
661                 continue;
662         }
663
664 ### Indents, Newlines, and White Space.
665
666 Normally white space is ignored.  However newlines can be important as
667 can indents, which are either after a newline or at the start of a
668 node (detected by `at_son()`);
669
670 ###### exported functions
671         static inline int is_newline(wchar_t ch)
672         {
673                 return ch == '\n' || ch == '\f' || ch == '\v';
674         }
675
676 ###### white space
677         if (ch <= ' ' && !is_newline(ch)
678             && ! at_son(state))
679                 continue;
680
681 If a line starts with more white-space than the previous non-blank
682 line - or if the first non-blank line in the document starts with any
683 white-space - then an "IN" is reported at the start of the line.
684
685 Before the next non-blank line which starts with less white space, or
686 at the latest at the end of the document, a matching "OUT" token
687 is reported.  There will always be an exact match between "IN" and
688 "OUT" tokens.
689
690 It is possible for "OUT" to be followed (almost) immediately by an
691 "IN".  This happens if, for example, the indent of three consecutive
692 lines are 0, 8, 4 spaces.  Before the second line we report an
693 "IN".  Before the third line we must report an "OUT", as 4 is less
694 than 8, then also an Ident as 4 is greater than 0.
695
696 ###### token types
697         TK_in,
698         TK_out,
699
700 For the purpose of measuring the length of white space, a tab adds at
701 least one space, and rounds up to a multiple of 8.
702
703 ###### exported functions
704         static inline int indent_tab(int indent)
705         {
706                 return (indent|7)+1;
707         }
708
709 We need to track the current levels of indent.  This requires some
710 sort of stack as indent levels are pushed on and popped off.  In
711 practice this stack is unlikely to often exceed 5 so we will used a
712 fixed stack of 20 indent levels.  More than this will be silently
713 ignored.
714
715 ###### state fields
716         int     indent_level;
717         int     indent_sizes[20];
718
719 `indent_sizes[0]` will always be zero - this simplifies some code.
720
721 #### Newlines
722
723 Newlines can optionally be reported.  Newlines within a block comment
724 or a multi-line string are not reported separately, but each of these
725 must be followed immediately by a newline so these constructs cannot
726 hide the fact that a newline was present.
727
728 When indents are being reported, the Newline which would normally be
729 reported immediately before the "IN" is delayed until after the
730 matching "OUT".  This makes an indented section act like a
731 continuation of the previous line to some extent.
732
733 A blank line would normally be reported simply as two consecutive Newline
734 tokens.  However if the subsequent line is indented (and indents are being
735 reported) then the right thing to do is less obvious as Newlines should be
736 delayed - but how many Newlines?
737
738 The approach we will take is to report the extra Newlines immediately after
739 the IN token, so the blank line is treated as though it were an indented
740 blank line.
741
742 ###### token types
743         TK_newline,
744
745 If we find a newline or white space at the start of a block, we keep
746 collecting spaces, tabs, and newlines until we find some real text.
747 Then depending on the indent we generate some number of tokens.  These
748 will be a sequence of "Newline OUT" pairs representing a decrease
749 in indent, then either a Newline or an IN depending on whether the
750 next line is indented, then zero or more Newlines representing all the
751 blank lines that have been skipped.
752
753 When a Newline leads to the next block of code there is a question of
754 whether the various Newline and OUT/IN tokens should appear to
755 belong to the earlier or later block.  This is addressed by processing
756 the tokens in two stages based on the relative indent levels of the
757 two blocks (each block has a base indent to which the actual indents
758 are added).
759
760 Any "Newline OUT" pairs needed to reduce the current indent to the
761 maximum of the base indents of the old and new blocks are generated
762 against the old block.  Then if the next block does not have an
763 increased indent, one more "Newline" is generated.
764
765 If further "Newline OUT" pairs are needed to get to the indent
766 level of the 'next' block, they are generated against that block,
767 though the first Newline is suppressed (it having already been
768 generated).
769
770 Finally the Newline or IN for the first line of the new block is
771 generated, unless the Newline needs to be suppressed because it
772 appeared at the end of the previous block.
773
774 This means that a block may start with an OUT or an IN, but
775 will only start with a Newline if it actually starts with a blank
776 line.
777
778 We will need to represent in the `token_state` where in this sequence
779 of delayed tokens we are.  As `state.col` records the target indent we
780 don't need to record how many OUTs or INs are needed.  We do
781 need to record the number of blank lines, and which of Newline and
782 OUT is needed next in the initial sequence of pairs.
783
784 For this we store one more than the number of blank lines as
785 `delayed_lines` and a flag for `out_next`.
786
787 ###### state fields
788         int check_indent;
789         int delayed_lines;
790         int out_next;
791
792 Generating these tokens involves two separate pieces of code.
793
794 Firstly we need to recognise white space and count the indents and
795 newlines.  These are recorded in the above state fields.
796
797 Separately we need, on each call to `token_next`, to check if
798 there are some delayed tokens and if so we need to advance the state
799 information and return one token.
800
801 ###### internal functions
802         static int state_indent(struct token_state *state)
803         {
804                 if (state->node == NULL)
805                         return state->col;
806                 return state->node->indent - state->node->needs_strip + state->col;
807         }
808
809 ###### white space
810         if (is_newline(ch) || (at_son(state) && ch <= ' ')) {
811                 int newlines = 0;
812                 int was_son = at_son(state);
813                 if (ignored & (1<<TK_in)) {
814                         if (!is_newline(ch))
815                                 continue;
816                         if (ignored & (1<<TK_newline))
817                                 continue;
818                         tk.num = TK_newline;
819                         close_token(state, &tk);
820                         return tk;
821                 }
822                 // Indents are needed, so check all white space.
823                 while (ch <= ' ' && !at_eon(state)) {
824                         if (is_newline(ch))
825                                 newlines += 1;
826                         ch = get_char(state);
827                 }
828                 if (at_eon(state)) {
829                         newlines += 1;
830                 } else
831                         unget_char(state);
832                 state->delayed_lines = newlines;
833                 state->out_next = was_son;
834                 state->check_indent = 1;
835                 continue;
836         }
837
838 ###### delayed tokens
839
840         if (state->check_indent || state->delayed_lines) {
841                 if (state_indent(state) < state->indent_sizes[state->indent_level]) {
842                         if (!state->out_next &&
843                             !(ignored & (1<<TK_newline))) {
844                                 state->out_next = 1;
845                                 tk.num = TK_newline;
846                                 return tk;
847                         }
848                         state->indent_level -= 1;
849                         state->out_next = 0;
850                         tk.num = TK_out;
851                         return tk;
852                 }
853                 if (state_indent(state) > state->indent_sizes[state->indent_level] &&
854                     state->indent_level < sizeof(state->indent_sizes)-1) {
855                         state->indent_level += 1;
856                         state->indent_sizes[state->indent_level] = state_indent(state);
857                         state->delayed_lines -= 1;
858                         tk.num = TK_in;
859                         return tk;
860                 }
861                 state->check_indent = 0;
862                 if (state->delayed_lines && !(ignored & (1<<TK_newline))) {
863                         tk.num = TK_newline;
864                         state->delayed_lines -= 1;
865                         return tk;
866                 }
867                 state->delayed_lines = 0;
868                 continue;
869         }
870
871 ### End of File
872
873 After the last newline in the file has been processed, a special
874 end-of-file token will be returned.  any further attempts to get more
875 tokens will continue to return the same end-of-file token.
876
877 ###### token types
878         TK_eof,
879
880 ###### white space
881         if (ch == WEOF) {
882                 if (state->col) {
883                         state->col = 0;
884                         state->check_indent = 1;
885                         continue;
886                 }
887                 tk.num = TK_eof;
888                 return tk;
889         }
890
891 ### Unknown Marks, or errors.
892
893 We have now handled all the possible known mark-like tokens.
894 If the token we have is not empty and `TK_mark` is allowed,
895 we have an unknown mark, otherwise this must be an error.
896
897 ###### unknown mark
898
899         /* one unknown mark character */
900         if (tk.txt.len) {
901                 close_token(state, &tk);
902                 if (ignored & (1<<TK_mark))
903                         tk.num = TK_error;
904                 else
905                         tk.num = TK_mark;
906                 return tk;
907         }
908         /* Completely unrecognised character is next, possibly
909          * a digit and we are ignoring numbers.
910          * What ever it is, make it an error.
911          */
912         get_char(state);
913         close_token(state, &tk);
914         tk.num = TK_error;
915         return tk;
916
917 ## Tools For The Task
918
919 You may have noticed that are few gaps we left in the above -
920 functions used without first defining them.  Doing so above would have
921 broken the flow.
922
923 ### Character by character
924
925 As we walk through the various `code_node`s we need to process whole
926 Unicode codepoints, and keep track of which line and column we are on.
927 We will assume for now that any printing character uses one column,
928 though that is not true in general.
929
930 As the text in a `code_node` may include an indent that identifies it as
931 being code, we need to be careful to strip that.  The `code_node` has
932 a flag that tells us whether or not we need to strip.
933
934 ###### includes
935         #include <memory.h>
936
937 ###### state fields
938         struct code_node *node;
939         int    offset;
940         int    line;
941         int    col;
942         int    strip_offset;
943
944 ###### internal functions
945
946         static void do_strip(struct token_state *state)
947         {
948                 int indent = 0;
949                 if (state->node->needs_strip) {
950                         int n = 4;
951                         while (n && state->node->code.txt[state->offset] == ' ') {
952                                 indent += 1;
953                                 state->offset += 1;
954                                 n -= 1;
955                         }
956                         while (n == 4 && state->node->code.txt[state->offset] == '\t') {
957                                 indent = indent_tab(indent);
958                                 state->offset += 1;
959                                 n -= 4;
960                         }
961                 }
962         }
963
964         static wint_t get_char(struct token_state *state)
965         {
966                 wchar_t next;
967                 size_t n;
968                 mbstate_t mbstate;
969
970                 if (state->node == NULL)
971                         return WEOF;
972                 if (state->node->code.len <= state->offset) {
973                         do
974                                 state->node = state->node->next;
975                         while (state->node && state->node->code.txt == NULL);
976                         state->offset = 0;
977                         if (state->node == NULL)
978                                 return WEOF;
979                         state->line = state->node->line_no;
980                         do_strip(state);
981                         state->col = state->node->needs_strip;
982                         state->strip_offset = state->offset;
983                 }
984
985                 ## before get_char
986
987                 memset(&mbstate, 0, sizeof(mbstate));
988
989                 n = mbrtowc(&next, state->node->code.txt + state->offset,
990                             state->node->code.len - state->offset,
991                             &mbstate);
992                 if (n == -2 || n == 0) {
993                         /* Not enough bytes - not really possible */
994                         next = '\n';
995                         state->offset = state->node->code.len;
996                 } else if (n == -1) {
997                         /* error */
998                         state->offset += 1;
999                         next = 0x7f; // an illegal character
1000                 } else
1001                         state->offset += n;
1002
1003                 if (next >= ' ') {
1004                         state->col += 1;
1005                 } else if (is_newline(next)) {
1006                         state->line += 1;
1007                         do_strip(state);
1008                         state->col = state->node->needs_strip;
1009                 } else if (next == '\t') {
1010                         state->col = indent_tab(state->col);
1011                 }
1012                 return next;
1013         }
1014
1015 We will sometimes want to "unget" the last character as it needs to be
1016 considered again as part of the next token.  So we need to store a
1017 'previous' version of all metadata.
1018
1019 ###### state fields
1020         int    prev_offset;
1021         int    prev_line;
1022         int    prev_col;
1023
1024 ###### before get_char
1025         state->prev_offset = state->offset;
1026         state->prev_line   = state->line;
1027         state->prev_col    = state->col;
1028
1029 ###### internal functions
1030
1031         static void unget_char(struct token_state *state)
1032         {
1033                 if (state->node) {
1034                         state->offset = state->prev_offset;
1035                         state->line   = state->prev_line;
1036                         state->col    = state->prev_col;
1037                 }
1038         }
1039
1040 We occasionally need a double-unget, particularly for numbers and
1041 block comments.  We don't impose this cost on all scanning, but
1042 require those code sections that need it to call `save_unget_state`
1043 before each `get_char`, and then `restore_unget_state` when a
1044 double-unget is needed.
1045
1046 ###### state fields
1047         int     prev_offset2;
1048         int     prev_line2;
1049         int     prev_col2;
1050
1051 ###### internal functions
1052         static void save_unget_state(struct token_state *state)
1053         {
1054                 state->prev_offset2 = state->prev_offset;
1055                 state->prev_line2 = state->prev_line;
1056                 state->prev_col2 = state->prev_col;
1057         }
1058
1059         static void restore_unget_state(struct token_state *state)
1060         {
1061                 state->prev_offset = state->prev_offset2;
1062                 state->prev_line = state->prev_line2;
1063                 state->prev_col = state->prev_col2;
1064         }
1065
1066 At the start of a token we don't want to be at the end of a code block
1067 if we can help it.  To avoid this possibility, we 'get' and 'unget' a
1068 single character.  This will move into the next non-empty code block
1069 and leave the current pointer at the start of it.
1070
1071 This has to happen _after_ dealing with delayed tokens as some of them
1072 must appear in the previous node.  When we do this, we need to reset
1073 the data in the token.
1074
1075 ###### delayed tokens
1076         if (at_eon(state)) {
1077                 get_char(state);
1078                 unget_char(state);
1079                 tk.node = state->node;
1080                 if (state->node)
1081                         tk.txt.txt = state->node->code.txt + state->offset;
1082                 tk.line = state->line;
1083                 tk.col = state->col;
1084                 tk.txt.len = 0;
1085         }
1086
1087 ### Managing tokens
1088
1089 The current token is initialized to line up with the first character
1090 that we 'get' for each token.  When we have, or might have, a full
1091 token we can call `close_token` to set the `len` of the token
1092 appropriately.  This can safely be called multiple times.
1093
1094 Finally we occasionally (for single-line strings and block comments)
1095 need to reset to the beginning of the current token as we might have
1096 parsed too much already.  For that there is `reset_token`.
1097
1098 ###### one token
1099         tk.node = state->node;
1100         if (state->node)
1101                 tk.txt.txt = state->node->code.txt + state->offset;
1102         tk.line = state->line;
1103         tk.col = state->col;
1104         tk.txt.len = 0;
1105
1106 ###### internal functions
1107
1108         static void close_token(struct token_state *state,
1109                                 struct token *tk)
1110         {
1111                 if (state->node != tk->node)
1112                         tk->txt.len = tk->node->code.len - (tk->txt.txt - tk->node->code.txt);
1113                 else
1114                         tk->txt.len = (state->node->code.txt + state->offset)
1115                                       - tk->txt.txt;
1116         }
1117
1118         static void reset_token(struct token_state *state, struct token *tok)
1119         {
1120                 state->prev_line = tok->line;
1121                 state->prev_col = tok->col;
1122                 state->prev_offset = tok->txt.txt - state->node->code.txt;
1123                 unget_char(state);
1124                 tok->txt.len = 0;
1125         }
1126
1127 Tokens may not cross into the next `code_node`, and some tokens can
1128 include the newline at the and of a `code_node`, we must be able to
1129 easily check if we have reached the end.  Equally we need to know if
1130 we are at the start of a node, as white space is treated a little
1131 differently there.
1132
1133 ###### internal functions
1134
1135         static int at_son(struct token_state *state)
1136         {
1137                 return state->prev_offset <= state->strip_offset;
1138         }
1139
1140         static int at_eon(struct token_state *state)
1141         {
1142                 // at end-of-node ??
1143                 return state->node == NULL ||
1144                        state->offset >= state->node->code.len;
1145         }
1146
1147 ### Find a known word
1148
1149 As the known-word list is sorted we can use a simple binary search.
1150 Following the pattern established in "mdcode", we will use a `struct
1151 text` with start and length to represent the code fragment we are
1152 searching for.
1153
1154 ###### internal functions
1155         static int find_known(struct token_config *conf, struct text txt)
1156         {
1157                 int lo = 0;
1158                 int hi = conf->known_count;
1159
1160                 while (lo + 1 < hi) {
1161                         int mid = (lo + hi) / 2;
1162                         int cmp = strncmp(conf->words_marks[mid],
1163                                           txt.txt, txt.len);
1164                         if (cmp == 0 && conf->words_marks[mid][txt.len])
1165                                 cmp = 1;
1166                         if (cmp <= 0)
1167                                 lo = mid;
1168                         else
1169                                 hi = mid;
1170                 }
1171                 if (strncmp(conf->words_marks[lo],
1172                            txt.txt, txt.len) == 0
1173                     && conf->words_marks[lo][txt.len] == 0)
1174                         return lo;
1175                 else
1176                         return -1;
1177         }
1178
1179 ### Bringing it all together
1180
1181 Now we have all the bits there is just one section missing:  combining
1182 all the token parsing code into one block.
1183
1184 The handling of delayed tokens (Newlines, INs, OUTs) must come
1185 first before we try getting another character.
1186
1187 Then we parse all the test, making sure that we check for known marks
1188 before strings and comments, but unknown marks after strings and comments.
1189
1190 This block of code will either return a token, or will choose to
1191 ignore one, in which case it will `continue` around to the top of the
1192 loop.
1193
1194 ###### one token
1195         ## delayed tokens
1196
1197         ch = get_char(state);
1198
1199         ## white space
1200         ## parse number
1201         ## parse word
1202         ## parse mark
1203
1204 ### Start and stop
1205
1206 As well as getting tokens, we need to be able to create the
1207 `token_state` to start with, and discard it later.
1208
1209 ###### includes
1210         #include <malloc.h>
1211
1212 ###### main functions
1213         struct token_state *token_open(struct code_node *code, struct
1214                                        token_config *conf)
1215         {
1216                 struct token_state *state = malloc(sizeof(*state));
1217                 memset(state, 0, sizeof(*state));
1218                 state->node = code;
1219                 state->line = code->line_no;
1220                 do_strip(state);
1221                 state->col = state->node->needs_strip;
1222                 state->strip_offset = state->offset;
1223                 state->conf = conf;
1224                 return state;
1225         }
1226         void token_close(struct token_state *state)
1227         {
1228                 free(state);
1229         }
1230
1231 ###### exported functions
1232         struct token_state *token_open(struct code_node *code, struct
1233                                        token_config *conf);
1234         void token_close(struct token_state *state);
1235
1236 ### Trace tokens
1237
1238 Getting tokens is the main thing but it is also useful to be able to
1239 print out token information, particularly for tracing and testing.
1240
1241 Known tokens are printed verbatim.  Other tokens are printed as
1242 `type(content)` where content is truncated to a given number of characters.
1243
1244 The function for printing a truncated string (`text_dump`) is also exported
1245 so that it can be used to tracing processed strings too.
1246
1247 ###### includes
1248         #include <stdio.h>
1249
1250 ###### exported functions
1251         void token_trace(FILE *f, struct token tok, int max);
1252         void text_dump(FILE *f, struct text t, int max);
1253
1254 ###### main functions
1255
1256         void text_dump(FILE *f, struct text txt, int max)
1257         {
1258                 int i;
1259                 if (txt.len > max)
1260                         max -= 2;
1261                 else
1262                         max = txt.len;
1263                 for (i = 0; i < max; i++) {
1264                         char c = txt.txt[i];
1265                         if (c < ' ' || c > '~')
1266                                 fprintf(f, "\\x%02x", c & 0xff);
1267                         else if (c == '\\')
1268                                 fprintf(f, "\\\\");
1269                         else
1270                                 fprintf(f, "%c", c);
1271                 }
1272                 if (i < txt.len)
1273                         fprintf(f, "..");
1274         }
1275
1276         void token_trace(FILE *f, struct token tok, int max)
1277         {
1278                 static char *types[] = {
1279                         [TK_ident] = "ident",
1280                         [TK_mark] = "mark",
1281                         [TK_number] = "number",
1282                         [TK_string] = "string",
1283                         [TK_multi_string] = "mstring",
1284                         [TK_line_comment] = "lcomment",
1285                         [TK_block_comment] = "bcomment",
1286                         [TK_in] = "in",
1287                         [TK_out] = "out",
1288                         [TK_newline] = "newline",
1289                         [TK_eof] = "eof",
1290                         [TK_error] = "ERROR",
1291                         };
1292
1293                 switch (tok.num) {
1294                 default: /* known word or mark */
1295                         fprintf(f, "%.*s", tok.txt.len, tok.txt.txt);
1296                         break;
1297                 case TK_in:
1298                 case TK_out:
1299                 case TK_newline:
1300                 case TK_eof:
1301                         /* No token text included */
1302                         fprintf(f, "%s()", types[tok.num]);
1303                         break;
1304                 case TK_ident:
1305                 case TK_mark:
1306                 case TK_number:
1307                 case TK_string:
1308                 case TK_multi_string:
1309                 case TK_line_comment:
1310                 case TK_block_comment:
1311                 case TK_error:
1312                         fprintf(f, "%s(", types[tok.num]);
1313                         text_dump(f, tok.txt, max);
1314                         fprintf(f, ")");
1315                         break;
1316                 }
1317         }
1318
1319 ### And there we have it
1320
1321 We now have all the library functions defined for reading and printing
1322 tokens.  Now we just need C files to store them, and a mk file to make them.
1323
1324 ###### File: scanner.h
1325         ## public types
1326         ## exported functions
1327
1328 ###### File: libscanner.c
1329         ## includes
1330         #include "scanner.h"
1331         ## private types
1332         ## internal functions
1333         ## main functions
1334
1335 ###### File: scanner.mk
1336
1337         CFLAGS += -Wall -g
1338         all ::
1339         scanner.mk scanner.h libscanner.c : scanner.mdc
1340                 ./md2c scanner.mdc
1341         all :: libscanner.o
1342         libscanner.o : libscanner.c
1343                 $(CC) $(CFLAGS) -c libscanner.c
1344
1345 ## Processing numbers
1346
1347 Converting a `TK_number` token to a numerical value is a slightly
1348 higher level task than lexical analysis, and slightly lower than
1349 grammar parsing, so put it here - as an appendix if you like.
1350
1351 Importantly it will be used by the same testing rig that is used for
1352 testing the token scanner.
1353
1354 The numeric value that we will convert all numbers into is the `mpq_t`
1355 from the GNU high precision number library "libgmp".
1356
1357 ###### number includes
1358         #include <gmp.h>
1359         #include "mdcode.h"
1360
1361 Firstly we need to be able to parse a string of digits in a given base
1362 and possibly with a decimal marker.  We store this in an `mpz_t`
1363 integer and report the number of digits after the decimal mark.
1364
1365 On error we return zero and ensure that the 'mpz_t' has been freed, or
1366 had never been initialised.
1367
1368 ###### number functions
1369
1370         static int parse_digits(mpz_t num, struct text tok, int base,
1371                                 int *placesp)
1372         {
1373                 /* Accept digits up to 'base', ignore '_' and
1374                  * (for base 10) ' ' if they appear between two
1375                  * legal digits, and if `placesp` is not NULL,
1376                  * allow a single '.' or ',' and report the number
1377                  * of digits beyond there.
1378                  * Return number of characters processed (p),
1379                  * or 0 if something illegal was found.
1380                  */
1381                 int p;
1382                 int decimal = -1; // digits after marker
1383                 enum {Digit, Space, Other} prev = Other;
1384                 int digits = 0;
1385
1386                 for (p = 0; p < tok.len; p++) {
1387                         int dig;
1388                         char c = tok.txt[p];
1389
1390                         if (c == '_' || (c == ' ' && base == 10)) {
1391                                 if (prev != Digit)
1392                                         goto bad;
1393                                 prev = Space;
1394                                 continue;
1395                         }
1396                         if (c == '.' || c == ',') {
1397                                 if (prev != Digit)
1398                                         goto bad;
1399                                 if (!placesp || decimal >= 0)
1400                                         return p-1;
1401                                 decimal = 0;
1402                                 prev = Other;
1403                                 continue;
1404                         }
1405                         if (isdigit(c))
1406                                 dig = c - '0';
1407                         else if (isupper(c))
1408                                 dig = 10 + c - 'A';
1409                         else if (islower(c))
1410                                 dig = 10 + c - 'a';
1411                         else
1412                                 dig = base;
1413                         if (dig >= base) {
1414                                 if (prev == Space)
1415                                         p--;
1416                                 break;
1417                         }
1418                         prev = Digit;
1419                         if (digits)
1420                                 mpz_mul_ui(num, num, base);
1421                         else
1422                                 mpz_init(num);
1423                         digits += 1;
1424                         mpz_add_ui(num, num, dig);
1425                         if (decimal >= 0)
1426                                 decimal++;
1427                 }
1428                 if (digits == 0)
1429                         return 0;
1430                 if (placesp) {
1431                         if (decimal >= 0)
1432                                 *placesp = decimal;
1433                         else
1434                                 *placesp = 0;
1435                 }
1436                 return p;
1437         bad:
1438                 if (digits)
1439                         mpz_clear(num);
1440                 return 0;
1441         }
1442
1443 ###### number includes
1444         #include <ctype.h>
1445
1446 To parse a full number we need to consider the optional base, the
1447 mantissa, and the optional exponent.  We will treat these one at a
1448 time.
1449
1450 The base is indicated by a letter after a leading zero, which must be
1451 followed by a base letter or a period.  The base also determines the
1452 character which will mark an exponent.
1453
1454 ###### number vars
1455         int base = 10;
1456         char expc = 'e';
1457
1458 ###### parse base
1459
1460         if (tok.txt[0] == '0' && tok.len > 1) {
1461                 int skip = 0;
1462                 switch(tok.txt[1]) {
1463                 case 'x':
1464                 case 'X':
1465                         base = 16;
1466                         skip = 2;
1467                         expc = 'p';
1468                         break;
1469                 case 'o':
1470                 case 'O':
1471                         base = 8;
1472                         skip = 2;
1473                         expc = 'p';
1474                         break;
1475                 case 'b':
1476                 case 'B':
1477                         base = 2;
1478                         skip = 2;
1479                         expc = 'p';
1480                         break;
1481                 case '0':
1482                 case '1':
1483                 case '2':
1484                 case '3':
1485                 case '4':
1486                 case '5':
1487                 case '6':
1488                 case '7':
1489                 case '8':
1490                 case '9':
1491                 case '_':
1492                 case ' ':
1493                         // another digit is not permitted
1494                         // after a zero.
1495                         return 0;
1496                 default:
1497                         // must be decimal marker or trailing
1498                         // letter, which are OK;
1499                         break;
1500                 }
1501                 tok.txt += skip;
1502                 tok.len -= skip;
1503         }
1504
1505 After the base is the mantissa, which may contain a decimal mark, so
1506 we need to record the number of places.  We won't impose the number of
1507 places until we have the exponent as well.
1508
1509 ###### number vars
1510         int places = 0;
1511         mpz_t mant;
1512         int d;
1513
1514 ###### parse mantissa
1515
1516         d = parse_digits(mant, tok, base, &places);
1517         if (d == 0)
1518                 return 0;
1519         tok.txt += d;
1520         tok.len -= d;
1521         mpq_init(num);
1522         mpq_set_z(num, mant);
1523         mpz_clear(mant);
1524
1525 After the mantissa number may come an exponent which may be positive
1526 or negative.  We assume at this point that we have seen the exponent
1527 character `expc`.
1528
1529 ###### number vars
1530         long lexp = 0;
1531         mpz_t exp;
1532         int esign = 1;
1533
1534 ###### parse exponent
1535         if (tok.len > 1) {
1536                 if (tok.txt[0] == '+') {
1537                         tok.txt++;
1538                         tok.len--;
1539                 } else if (tok.txt[0] == '-') {
1540                         esign = -1;
1541                         tok.txt++;
1542                         tok.len--;
1543                 }
1544         }
1545         d = parse_digits(exp, tok, 10, NULL);
1546         if (d == 0) {
1547                 mpq_clear(num);
1548                 return 0;
1549         }
1550         if (!mpz_fits_slong_p(exp)) {
1551                 mpq_clear(num);
1552                 mpz_clear(exp);
1553                 return 0;
1554         }
1555         lexp = mpz_get_si(exp) * esign;
1556         mpz_clear(exp);
1557         tok.txt += d;
1558         tok.len -= d;
1559
1560 Now that we have the mantissa and the exponent we can multiply them
1561 together, also allowing for the number of digits after the decimal
1562 mark.
1563
1564 For base 10, we simply subtract the decimal places from the exponent.
1565 For the other bases, as the exponent is alway based on 2, even for
1566 octal and hex, we need a bit more detail.
1567 We then recover the sign from the exponent, as division is quite
1568 different from multiplication.
1569
1570 ###### calc exponent
1571         switch (base) {
1572         case 10:
1573         case 2:
1574                 lexp -= places;
1575                 break;
1576         case 16:
1577                 lexp -= 4*places;
1578                 break;
1579         case 8:
1580                 lexp -= 3*places;
1581                 break;
1582         }
1583         if (lexp < 0) {
1584                 lexp = -lexp;
1585                 esign = -1;
1586         } else
1587                 esign = 1;
1588
1589 Imposing the exponent on the number is also very different for base 10
1590 than for the others.  For the binary shift `gmp` provides a simple
1591 function.  For base 10 we use something like Russian Peasant
1592 Multiplication.
1593
1594 ###### calc exponent
1595         if (expc == 'e') {
1596                 mpq_t tens;
1597                 mpq_init(tens);
1598                 mpq_set_ui(tens, 10, 1);
1599                 while (1) {
1600                         if (lexp & 1) {
1601                                 if (esign > 0)
1602                                         mpq_mul(num, num, tens);
1603                                 else
1604                                         mpq_div(num, num, tens);
1605                         }
1606                         lexp >>= 1;
1607                         if (lexp == 0)
1608                                 break;
1609                         mpq_mul(tens, tens, tens);
1610                 }
1611                 mpq_clear(tens);
1612         } else {
1613                 if (esign > 0)
1614                         mpq_mul_2exp(num, num, lexp);
1615                 else
1616                         mpq_div_2exp(num, num, lexp);
1617         }
1618
1619 Now we are ready to parse a number: the base, mantissa, and exponent.
1620 If all goes well we check for the possible trailing letters and
1621 return.  Return value is 1 for success and 0 for failure.
1622
1623 ###### number functions
1624         int number_parse(mpq_t num, char tail[3], struct text tok)
1625         {
1626                 ## number vars
1627                 int i;
1628
1629                 ## parse base
1630                 ## parse mantissa
1631                 if (tok.len > 1 && (tok.txt[0] == expc ||
1632                                     tok.txt[0] == toupper(expc))) {
1633                         tok.txt++;
1634                         tok.len--;
1635                         ## parse exponent
1636                 }
1637                 ## calc exponent
1638
1639                 for (i = 0; i < 2; i++) {
1640                         if (tok.len <= i)
1641                                 break;
1642                         if (!isalpha(tok.txt[i]))
1643                                 goto err;
1644                         tail[i] = tok.txt[i];
1645                 }
1646                 tail[i] = 0;
1647                 if (i == tok.len)
1648                         return 1;
1649         err:
1650                 mpq_clear(num);
1651                 return 0;
1652         }
1653
1654 Number parsing goes in `libnumber.c`
1655
1656 ###### File: libnumber.c
1657
1658         #include <unistd.h>
1659         #include <stdlib.h>
1660
1661         ## number includes
1662         ## number functions
1663
1664 ###### File: number.h
1665         int number_parse(mpq_t num, char tail[3], struct text tok);
1666
1667 ###### File: scanner.mk
1668         all :: libnumber.o
1669         libnumber.o : libnumber.c
1670                 $(CC) $(CFLAGS) -c libnumber.c
1671
1672 ## Processing strings
1673
1674 Both `TK_string` and `TK_multi_string` require post-processing which
1675 can be one of two types: literal or with escapes processed.
1676 Even literal processing is non-trivial as the file may contain indents
1677 which need to be stripped.
1678
1679 Errors can only occur when processing escapes.  Any unrecognised
1680 character following the escape character will cause an error.
1681
1682 Processing escapes and striping indents can only make the string
1683 shorter, not longer, so we allocate a buffer which is the same size as
1684 the string and process into that.
1685
1686 To request escape processing, we pass the character we want to use for
1687 quoting, usually '`\`'.  To avoid escape processing we pass a zero.
1688
1689 ###### string main
1690         int string_parse(struct token *tok, char escape,
1691                          struct text *str, char tail[3])
1692         {
1693                 ## string vars
1694                 struct text t = tok->txt;
1695
1696                 str->txt = NULL;
1697                 ## strip tail
1698                 if (tok->num == TK_string) {
1699                         ## strip single
1700                 } else {
1701                         ## strip multi
1702                 }
1703                 str->txt = malloc(t.len);
1704                 str->len = 0;
1705
1706                 ## process string
1707                 return 1;
1708         err:
1709                 free(str->txt);
1710                 str->txt = NULL;
1711                 return 0;
1712         }
1713
1714 ### strip tail
1715
1716 The tail of the string can be 0, 1, or 2 letters
1717
1718         i = t.len;
1719         if (i >= 0 && isalpha(t.txt[i-1]))
1720                 i -= 1;
1721         if (i >= 0 && isalpha(t.txt[i-1]))
1722                 i -= 1;
1723         strncpy(tail, t.txt+i, t.len-i);
1724         tail[t.len-i] = 0;
1725         t.len = i;
1726
1727 ###### string vars
1728         int i;
1729
1730 ### strip single
1731
1732 Stripping the quote of a single-line string is trivial.
1733 The only part that is at all interesting is that quote character must
1734 be remembered.
1735
1736         quote = t.txt[0];
1737         if (t.txt[t.len-1] != quote)
1738                 goto err;
1739         t.txt += 1;
1740         t.len -= 2;
1741
1742 ###### string vars
1743         char quote;
1744
1745 ### strip multi
1746
1747 For a multi-line string we have a little more work to do.  We need to
1748 remove 3 quotes, not 1, and need to count the indent of the close
1749 quote as it will need to be stripped from all lines.
1750
1751         quote = t.txt[0];
1752         if (t.len < 7 ||
1753             t.txt[1] != quote || t.txt[2] != quote ||
1754             !is_newline(t.txt[3]))
1755                 goto err;
1756         t.txt += 4;
1757         t.len -= 4;
1758         i = t.len;
1759         if (i <= 0 || t.txt[i-1] != quote)
1760                 goto err;
1761         i -= 1;
1762         if (i <= 0 || t.txt[i-1] != quote)
1763                 goto err;
1764         i -= 1;
1765         if (i <= 0 || t.txt[i-1] != quote)
1766                 goto err;
1767         i -= 1;
1768         t.len = i;
1769         while (i > 0 && !is_newline(t.txt[i-1]))
1770                 i--;
1771         indent = 0;
1772         while (i < t.len) {
1773                 if (t.txt[i] == ' ')
1774                         indent += 1;
1775                 if (t.txt[i] == '\t')
1776                         indent = indent_tab(indent);
1777                 i++;
1778         }
1779
1780 ###### string vars
1781         int indent = 0;
1782
1783 ### process string
1784
1785 Now we just take one byte at a time. trans-ASCII unicode won't look
1786 like anything we are interested in so it will just be copied byte by
1787 byte.
1788
1789         cp = str->txt;
1790         at_sol = 1;
1791         for (i = 0; i < t.len; i++) {
1792                 char c;
1793                 if (at_sol) {
1794                         at_sol = 0;
1795                         ## strip indent
1796                         if (i >= t.len)
1797                                 break;
1798                 }
1799                 c = t.txt[i];
1800                 if (c != escape) {
1801                         *cp = c;
1802                         cp += 1;
1803                         if (is_newline(c))
1804                                 at_sol = 1;
1805                 } else if (i+1 >= t.len) {
1806                         // escape and end of string
1807                         goto err;
1808                 } else {
1809                         i += 1;
1810                         c = t.txt[i];
1811                         ## parse escape
1812                 }
1813         }
1814         str->len = cp - str->txt;
1815
1816 ###### string vars
1817         char *cp;
1818         int at_sol;
1819
1820 ### strip indent
1821
1822 Every time we find a start of line, we strip spaces and tabs until the
1823 required indent is found.
1824
1825         int skipped = 0;
1826         while (i < t.len && skipped < indent) {
1827                 c = t.txt[i];
1828                 if (c == ' ')
1829                         skipped += 1;
1830                 else if (c == '\t')
1831                         skipped = indent_tab(skipped);
1832                 else
1833                         break;
1834                 i+= 1;
1835         }
1836
1837 ### parse escape
1838         switch (c) {
1839         case 'n':
1840                 *cp++ = '\n'; break;
1841         case 'r':
1842                 *cp++ = '\r'; break;
1843         case 't':
1844                 *cp++ = '\t'; break;
1845         case 'b':
1846                 *cp++ = '\b'; break;
1847         case 'q':
1848                 *cp++ = quote; break;
1849         case 'f':
1850                 *cp++ = '\f'; break;
1851         case 'v':
1852                 *cp++ = '\v'; break;
1853         case 'a':
1854                 *cp++ = '\a'; break;
1855         case '0':
1856         case '1':
1857         case '2':
1858         case '3':
1859                 // 3 digit octal number
1860                 if (i+2 >= t.len)
1861                         goto err;
1862                 if (t.txt[i+1] < '0' || t.txt[i+1] > '7' ||
1863                     t.txt[i+2] < '0' || t.txt[i+1] > '7')
1864                         goto err;
1865                 n = (t.txt[i  ]-'0') * 64 +
1866                     (t.txt[i+1]-'0') *  8 +
1867                     (t.txt[i+2]-'0') *  1;
1868                 *cp++ = n;
1869                 i += 2;
1870                 break;
1871         case 'x':
1872                 // 2 hex digits
1873                 n = take_hex(2, t.txt+i+1, t.len-i-1);
1874                 if (n < 0)
1875                         goto err;
1876                 *cp++ = n;
1877                 i += 2;
1878                 break;
1879         case 'u':
1880         case 'U':
1881                 // 4 or 8 hex digits for unicode
1882                 n = take_hex(c == 'u'?4:8, t.txt+i+1, t.len-i-1);
1883                 if (n < 0)
1884                         goto err;
1885                 memset(&pstate, 0, sizeof(pstate));
1886                 n = wcrtomb(cp, n, &pstate);
1887                 if (n <= 0)
1888                         goto err;
1889                 cp += n;
1890                 i += c == 'u' ? 4 : 8;
1891                 break;
1892         default:
1893                 if (c == escape)
1894                         *cp++ = c;
1895                 else if (is_newline(c))
1896                         at_sol = 1;
1897                 else
1898                         goto err;
1899         }
1900
1901 ###### string vars
1902         long n;
1903         mbstate_t pstate;
1904
1905 For `\x` `\u` and `\U` we need to collect a specific number of
1906 hexadecimal digits
1907
1908 ###### string functions
1909
1910         static long take_hex(int digits, char *cp, int l)
1911         {
1912                 long n = 0;
1913                 if (l < digits)
1914                         return -1;
1915                 while (digits) {
1916                         char  c = *cp;
1917                         int d;
1918                         if (!isxdigit(c))
1919                                 return -1;
1920                         if (isdigit(c))
1921                                 d = c - '0';
1922                         else if (isupper(c))
1923                                 d = 10 + c - 'A';
1924                         else
1925                                 d = 10 + c - 'a';
1926                         n = n * 16 + d;
1927                         digits--;
1928                         cp++;
1929                 }
1930                 return n;
1931         }
1932
1933 #### File: libstring.c
1934
1935 String parsing goes in `libstring.c`
1936
1937         #include <unistd.h>
1938         #include <stdlib.h>
1939         #include <stdio.h>
1940         #include <string.h>
1941         #include <ctype.h>
1942         #include <wchar.h>
1943         #include "mdcode.h"
1944         #include "scanner.h"
1945         ## string functions
1946         ## string main
1947
1948 ###### File: string.h
1949         int string_parse(struct token *tok, char escape,
1950                          struct text *str, char tail[3]);
1951
1952 ###### File: scanner.mk
1953         all :: libstring.o
1954         libstring.o : libstring.c
1955                 $(CC) $(CFLAGS) -c libstring.c
1956
1957 ## Testing
1958
1959 As "untested code is buggy code" we need a program to easily test
1960 the scanner library.  This will simply parse a given file and report
1961 the tokens one per line.
1962
1963 ###### File: scanner.c
1964
1965         #include <unistd.h>
1966         #include <stdlib.h>
1967         #include <fcntl.h>
1968         #include <errno.h>
1969         #include <sys/mman.h>
1970         #include <string.h>
1971         #include <stdio.h>
1972         #include <gmp.h>
1973         #include <locale.h>
1974         #include <getopt.h>
1975         #include "mdcode.h"
1976         #include "scanner.h"
1977         #include "number.h"
1978         #include "string.h"
1979
1980         static int errs;
1981         static void pr_err(char *msg)
1982         {
1983                 errs++;
1984                 fprintf(stderr, "%s\n", msg);
1985         }
1986
1987         static int kcmp(const void *ap, const void *bp)
1988         {
1989                 char * const *a = ap;
1990                 char * const *b = bp;
1991                 return strcmp(*a, *b);
1992         }
1993
1994         int main(int argc, char *argv[])
1995         {
1996                 int fd;
1997                 int len;
1998                 char *file;
1999                 char *filename = NULL;
2000                 struct token_state *state;
2001                 const char *known[] = {
2002                         "==",
2003                         "else",
2004                         "if",
2005                         "then",
2006                         "while",
2007                         "{",
2008                         "}",
2009                 };
2010                 struct token_config conf = {
2011                         .word_start = "_$",
2012                         .word_cont = "",
2013                         .words_marks = known,
2014                         .number_chars = "., _+-",
2015                         .known_count = sizeof(known)/sizeof(known[0]),
2016                         .ignored = 0,
2017                 };
2018                 static const struct option long_options[] = {
2019                         { "word-start",         1, NULL, 'W'},
2020                         { "word-cont",          1, NULL, 'w'},
2021                         { "number-chars",       1, NULL, 'n'},
2022                         { "ignore-numbers",     0, NULL, 'N'},
2023                         { "ignore-ident",       0, NULL, 'I'},
2024                         { "ignore-marks",       0, NULL, 'M'},
2025                         { "ignore-strings",     0, NULL, 'S'},
2026                         { "ignore-multi-strings",0, NULL, 'z'},
2027                         { "ignore-line-comment",0, NULL, 'c'},
2028                         { "ignore-newline",     0, NULL, 'l'},
2029                         { "ignore-block-comment", 0, NULL, 'C'},
2030                         { "ignore-indent",      0, NULL, 'i'},
2031                         { "file",               1, NULL, 'f'},
2032                         { NULL,                 0, NULL, 0},
2033                 };
2034                 static const char options[] = "W:w:n:NIMSzclCif:";
2035
2036                 struct section *table, *s, *prev;
2037                 int opt;
2038
2039                 setlocale(LC_ALL,"");
2040                 while ((opt = getopt_long(argc, argv, options, long_options, NULL))
2041                        != -1) {
2042                         switch(opt) {
2043                         case 'W': conf.word_start = optarg; break;
2044                         case 'w': conf.word_cont = optarg; break;
2045                         case 'n': conf.number_chars = optarg; break;
2046                         case 'N': conf.ignored |= 1 << TK_number; break;
2047                         case 'I': conf.ignored |= 1 << TK_ident; break;
2048                         case 'M': conf.ignored |= 1 << TK_mark; break;
2049                         case 'S': conf.ignored |= 1 << TK_string; break;
2050                         case 'z': conf.ignored |= 1 << TK_multi_string; break;
2051                         case 'c': conf.ignored |= 1 << TK_line_comment; break;
2052                         case 'C': conf.ignored |= 1 << TK_block_comment; break;
2053                         case 'l': conf.ignored |= 1 << TK_newline; break;
2054                         case 'i': conf.ignored |= 1 << TK_in; break;
2055                         case 'f': filename = optarg; break;
2056                         default: fprintf(stderr, "scanner: unknown option '%c'.\n",
2057                                          opt);
2058                                 exit(1);
2059                         }
2060                 }
2061
2062                 if (optind < argc) {
2063                         const char **wm = calloc(argc - optind, sizeof(char*));
2064                         int i;
2065                         for (i = optind; i < argc; i++)
2066                                 wm[i - optind] = argv[i];
2067                         qsort(wm, argc-optind, sizeof(char*), kcmp);
2068                         conf.words_marks = wm;
2069                         conf.known_count = argc - optind;
2070                 }
2071
2072                 if (filename)
2073                         fd = open(filename, O_RDONLY);
2074                 else
2075                         fd = 0;
2076                 if (fd < 0) {
2077                         fprintf(stderr, "scanner: cannot open %s: %s\n",
2078                                 filename, strerror(errno));
2079                         exit(1);
2080                 }
2081                 len = lseek(fd, 0, 2);
2082                 if (len <= 0) {
2083                         fprintf(stderr,"scanner: %s is empty or not seekable\n",
2084                                 filename ?: "stdin");
2085                         exit(1);
2086                 }
2087                 file = mmap(NULL, len, PROT_READ, MAP_SHARED, fd, 0);
2088                 table = code_extract(file, file+len, pr_err);
2089
2090                 for (s = table; s;
2091                         (code_free(s->code), prev = s, s = s->next, free(prev))) {
2092                         printf("Tokenizing: %.*s\n", s->section.len,
2093                                 s->section.txt);
2094                         state = token_open(s->code, &conf);
2095                         while(1) {
2096                                 struct token tk = token_next(state);
2097                                 printf("%d:%d ", tk.line, tk.col);
2098                                 token_trace(stdout, tk, 20);
2099                                 if (tk.num == TK_number) {
2100                                         mpq_t num;
2101                                         char tail[3];
2102                                         if (number_parse(num, tail,tk.txt)) {
2103                                                 printf(" %s ", tail);
2104                                                 mpq_out_str(stdout, 10, num);
2105                                                 mpq_clear(num);
2106                                         } else
2107                                                 printf(" BAD NUMBER");
2108                                 }
2109                                 if (tk.num == TK_string ||
2110                                     tk.num == TK_multi_string) {
2111                                         char esc = '\\';
2112                                         struct text str;
2113                                         char tail[3];
2114                                         if (tk.txt.txt[0] == '`')
2115                                                 esc = 0;
2116                                         if (string_parse(&tk, esc,
2117                                                          &str, tail)) {
2118                                                 printf(" %s ", tail);
2119                                                 text_dump(stdout, str, 20);
2120                                                 free(str.txt);
2121                                         } else
2122                                                 printf(" BAD STRING");
2123                                 }
2124                                 printf("\n");
2125                                 if (tk.num == TK_error)
2126                                         errs = 1;
2127                                 if (tk.num == TK_eof)
2128                                         break;
2129                         }
2130                         token_close(state);
2131                 }
2132                 if (conf.words_marks != known)
2133                         free(conf.words_marks);
2134                 exit(!!errs);
2135         }
2136 ###### File: scanner.mk
2137         scanner.c : scanner.mdc
2138                 ./md2c scanner.mdc
2139         all :: scanner
2140         scanner : scanner.o scanner.h libscanner.o libmdcode.o mdcode.h
2141                 $(CC) $(CFLAGS) -o scanner scanner.o libscanner.o \
2142                         libmdcode.o libnumber.o libstring.o -licuuc -lgmp
2143         scanner.o : scanner.c
2144                 $(CC) $(CFLAGS) -c scanner.c