Rocksolid Light

groups  faq  privacy  How to post  login

Message-ID:  

As to the Adjective: when in doubt, strike it out. -- Mark Twain, "Pudd'nhead Wilson's Calendar"


rocksolid / de.comp.text.misc / Re: Normalisierung? - Was geschieht hierbei? - do not ignore

SubjectAuthor
* Re: Normalisierung? - Was geschieht hierbei? - do not ignoreThomas Barghahn
`- Re: Normalisierung? - Was geschieht hierbei? - do not ignoreMarcel Logen

1
Subject: Re: Normalisierung? - Was geschieht hierbei? - do not ignore
From: Thomas Barghahn
Newsgroups: de.test, de.comp.text.misc
Followup: de.comp.text.misc
Organization: 🐹 𝓗𝓪𝓶𝓼𝓽𝓮𝓻-𝓒𝓵𝓾𝓫 🐹
Date: Sun, 2 Jul 2023 14:56 UTC
References: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Path: i2pn2.org!i2pn.org!news.swapon.de!fu-berlin.de!uni-berlin.de!individual.net!not-for-mail
From: Th.Bargh...@t-online.de (Thomas Barghahn)
Newsgroups: de.test,de.comp.text.misc
Subject: Re: Normalisierung? - Was geschieht hierbei? - do not ignore
Supersedes: <b034.d19e.dt.1182flnews@barghahn-online.de>
Followup-To: de.comp.text.misc
Date: Sun, 02 Jul 2023 16:56:10 +0200 (CEST)
Organization: 🐹 𝓗𝓪𝓶𝓼𝓽𝓮𝓻
-𝓒𝓵𝓾𝓫 🐹
Lines: 39
Message-ID: <b034.d209/dt/1flnews@barghahn-online.de>
References: <01l2nj-r6h4.ln1@martin.dont-email.me> <tmm2nj-g5p4.ln1@martin.dont-email.me> <0045nj-3275.ln1@martin.dont-email.me> <3q55nj-g285.ln1@martin.dont-email.me> <b033.8dbe.dt.1176tin@barghahn-online.de> <c7d5nj-nia5.ln1@martin.dont-email.me> <20230701sa142419@o15.ybtra.de> <dl56nj-hkg6.ln1@martin.dont-email.me> <20230701sa181217@o15.ybtra.de> <52o7nj-fm2.ln1@martin.dont-email.me> <20230702su090059@o15.ybtra.de> <AABkoXymtIsAAAqB.A3.flnews@WStation7.micha.freeshell.org> <b034.c538.dt.1180flnews@barghahn-online.de> <u7s8fb.9pc.1@ID-23555.user.uni-berlin.de>
Reply-To: Thomas Barghahn <Th.Barghahn@gmx.de>
Mime-Version: 1.0
Content-Type: text/plain; charset=UTF-8; format=fixed
Content-Transfer-Encoding: quoted-printable
X-Trace: individual.net 3CPiI4prgznCu7t/3LWElQmvB6QtOVrYNQDyS3Y2HfVdlFrz3U
Summary: flnews im Stresstest!
Keywords: do not ignore
X-Orig-Path: not-for-mail
Cancel-Lock: sha256:Xc9KS3Gns+SnZNeUk2GvGb1EH8UMU48aLRXGIDOD/QI= sha1:XwJlKXwV8PLkDFCl0o3zLyiUX2U=
Cancel-Key: sha256:VID1+rNaMu/GsTRV/5wutoZfv76L5iTufl0mAZ7rikM= sha1:ew5M0UkJa+AmVZUu8+T7j8RKLCA=
X-Face: (y:zJ'_E(Act\bwx<_nkjnlHzRng'!y*AE1DT56;>z=5r0k@%}Nw&W0fw.7Z5!>Ljhd+&c#o
4}THmzIMfI(FY=%$R8NL,]kPR8ia{a`z3I+}Q$K^ihPBkK>~:;2 [#VeH.&fUU>V-t1`cgOW{xZAU%
M/9/%*[PE"{W#LJ8p{06E
Face: iVBORw0KGgoAAAANSUhEUgAAADAAAAAwBAMAAAClLOS0AAAAB3RJTUUH5gEcDicQ5oocowAAAA
lwSFlzAAAOwwAADsMBx2+oZAAAAARnQU1BAACxjwv8YQUAAAAwUExUReDw8P8AANzv78fW1oyWlpump
qi0tLjGxgAAACksLD1CQk1TU1xjY2lxcXuEhB0gID0CTKcAAAGrSURBVHjatZS9SwNBEMU3dyYGjKL+
BYeVHxFSiIhYiBiwUgkptJOAQStTBivRGFajSSNoKkGbFBaWKSWVlYggxEKwsLCyUBBL397s7iSSAxu
nmdv73ey8fbt7QgRFaKBj9ItQ5+//BUgVOSGiSDstIFr6xptlIcJINy1gSRUcoGIc+YVBlz9TKSHEGB
UasOGDYzwNS1nJWeC8YXj1/IjHKczoWeDi83LC1B6y3AjAA6lYkPKIgeo9S+BWygKDOElRUZNy34Dw6
xN6370vqi5Y554BMakDarqRPrxfQKlRjlyYimkNlJo+5HsDtjQoC6pOGbB6jlGlWv3C3D1kPoHJdYxO
stmMR9Mm7Doc3RGxSVZpoBy5JrBC5mtgpCBgc4Er4mxVU8oiH4YRgDX/vVMnRzRQu0a74dbaQB7A80E
EHl4yUFKG7KFocHNIKXsWpLiiTrumhecYmI5CzLQB90zKXQLbcCRhgXLkU5jDU2Kgdq1hrSIZPugFmL
OgyPcjxo4028Co3hzIqLeBvAXq8JwymEin07RwN5mcz/z1cjpBwAsAvwrEYPBPJih+ADZUvqgi7t6PA
AAAAElFTkSuQmCC
Injection-Date: Sun, 2 Jul 2023 14:56:09 -0000
User-Agent: flnews/1.2.1pre1 (for GNU/Linux & WINDOWS-11/WSL2/Ubuntu) Hamster/2.1.0.1548
X-AGE-Key: age13g97x9g7m0r2q8dlyp83udr4lhxcgqertq34ncqde25fp0nrqcnq6pfufe
X-PGP-Key: 0xEC9030A9DB2ECA49BF8E235B8B8FD40FB8967772
X-PGP-Hash: SHA512
X-PGP-Sig: GnuPG_v2.4.0_(MingW32) Subject,Newsgroups,User-Agent,Message-ID,Date,From
iQEzBAEBCgAdFiEE7JAwqdsuykm/jiNbi4/UD7iWd3IFAmShkAkACgkQi4/UD7iW
d3LMRggAwW70BGavpca0S2dFr6pIBtwNcVIuZ6dlOLGs9cPVurupvSjxLR839W4n
VGvSBQp9Yleh5QFG2KrexNpZEay4D7d6U7RLOEgwUfCxGgMKEQOU4fJBy7OooLbb
NlKN1GeQW5ViO/t1ieMip9nhneGrC8Py4DZnyQClNaILz1fW7uYbv55VRWwCrmGh
b7M33xddQbStqUwcss8C+FNiKiWIn8ZeyT5qBiPim+YdSOCUdlZ2jIdyNvYsvHTp
SlqDQ6t8T+BJz/QN1aAcgWGk0YDHVXBIbbhpNdaJeAJ4uGwb8jt4FWsU7YUR92rX
Njb6xL0UIa/UqPgDGIN0bd6GuOENyg==
=ux4t
View all headers

*Heiko Rost* meinte:
> Thomas Barghahn schrieb:

>> Bei solchen Schritten (Normalisierung) muss ich dann wirklich immer
>> ehrlich bleiben und zugeben, dass ich es (noch) nicht richtig verstanden
>> habe! Was genau passiert bei einer Normalisierung eigentlich und was ist
>> das Ziel einer solchen Normalisierung?

> Zum Beispiel um ö und ö (wird hoffentlich richtig verschickt) als den
> selben Buchstaben zu interpretieren. Das erste ist der im deutschen
> üblicherweise benutze Umlaut, das andere sind zwei Unicodepoints: ein o
> und das diakritische Zeichen U+0308 (also nur die Punkte darüber).

Soweit ist es mir klar. Stelle ich bspw. einen Satz auf den Kopf, dann
nutze auch ich diese Vorgehensweise.

Beispiel: „uǝso̤l ǝqɐƃɟnⱯ ǝuı̣ǝ„

In diesem Beispiel besteht das auf dem Kopf stehende "ö" aos /zwei/
Zeichen.
Was ist denn nun aber die Normalisierung? ;-)

Vielleicht will der Autor ja, dass seine Umlaute grundsätzlich aus zwei
Zeichen bestehen. Hmm ...

[Supersedes] aufgrund von Fehlern und/oder Ergänzungen! ;-)

Thomas 😷

F'up to :<news:de.comp.text.misc>
--
31,52 48,14 72,05 73,07 49,67 49,67 55,58 98,90 65,24 41,27
48,14 41,20 21,22 48,20 41,20 85,71 48,20 21,22 41,20 21,22
65,62 48,14 76,24 61,60 16,37 14,72 61,60 16,37 41,20 53,30
48,14 22,87 49,31 15,57 48,14 31,52

Subject: Re: Normalisierung? - Was geschieht hierbei? - do not ignore
From: Marcel Logen
Newsgroups: de.comp.text.misc
Organization: Bureau Logen
Date: Sun, 2 Jul 2023 15:15 UTC
References: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Path: i2pn2.org!i2pn.org!weretis.net!feeder8.news.weretis.net!reader5.news.weretis.net!news.tota-refugium.de!.POSTED!not-for-mail
From: 33320000...@ybtra.de (Marcel Logen)
Newsgroups: de.comp.text.misc
Subject: Re: Normalisierung? - Was geschieht hierbei? - do not ignore
Date: Sun, 2 Jul 2023 17:15:32 +0200
Organization: Bureau Logen
Message-ID: <20230702su151532@o15.ybtra.de>
References: <01l2nj-r6h4.ln1@martin.dont-email.me> <tmm2nj-g5p4.ln1@martin.dont-email.me> <0045nj-3275.ln1@martin.dont-email.me> <3q55nj-g285.ln1@martin.dont-email.me> <b033.8dbe.dt.1176tin@barghahn-online.de> <c7d5nj-nia5.ln1@martin.dont-email.me> <20230701sa142419@o15.ybtra.de> <dl56nj-hkg6.ln1@martin.dont-email.me> <20230701sa181217@o15.ybtra.de> <52o7nj-fm2.ln1@martin.dont-email.me> <20230702su090059@o15.ybtra.de> <AABkoXymtIsAAAqB.A3.flnews@WStation7.micha.freeshell.org> <b034.c538.dt.1180flnews@barghahn-online.de> <u7s8fb.9pc.1@ID-23555.user.uni-berlin.de> <b034.d209/dt/1flnews@barghahn-online.de>
Mime-Version: 1.0
Content-Type: text/plain; charset=UTF-8; format=fixed
Content-Transfer-Encoding: 8bit
Injection-Info: tota-refugium.de;
logging-data="2170845"; mail-complaints-to="abuse@news.tota-refugium.de"
User-Agent: flnews/1.2.1pre0testml (for GNU/Linux)
Cancel-Lock: sha1:eQRFPYFvjo85+HnstX34p6NhAFA=
X-User-ID: eJwNysEBwCAIA8CVUiEg4wjI/iPYex/FPitXoymHE2c7nJ430iCOKcRORaGFN85/KlaP9LqEPBPBEQo=
X-Face: DW+R)DD7))n=I&k!(Tz#[+uCgy*8;fz[so-_H!)Y[A>A)6f*.Cw$L?=]t#Bm$p5\uza(3,;jEp?BKGRXlg.T8}G=s)>!Y|4c^P8hVsU^5dpT32{1,C&o#Y_a$-2/0~0WMJ|v>p#f`8uxv/T}D_2bh'8A
Face: iVBORw0KGgoAAAANSUhEUgAAADAAAAAwAgMAAAAqbBEUAAAADFBMVEXM/8wA1TNlvvDIAAAhneH2AAAAcUlEQVR4nGMIRQIMDgxwwDhYOf8/IDjMB2wQHH4ghHNsGGyQDUDSA9SExOFHNtoGmfOBAdkeBmR7GJDtYUZw7P//J8U/WqtWIctwIXM0kDkLkDhMDUgcLgZcMih6UE3DZY8Gsh6uVSimEeUfXBzkJAYAXDkju+7Eu2oAAAAASUVORK5CYII=
View all headers

Thomas Barghahn in de.test,de.comp.text.misc:

>*Heiko Rost* meinte:
>> Thomas Barghahn schrieb:

>>> Bei solchen Schritten (Normalisierung) muss ich dann wirklich immer
>>> ehrlich bleiben und zugeben, dass ich es (noch) nicht richtig verstanden
>>> habe! Was genau passiert bei einer Normalisierung eigentlich und was ist
>>> das Ziel einer solchen Normalisierung?

Was passiert? Codepoints werden nach bestimmten Regeln
(z. B. NFC oder NFD) umsortiert.

Das Ziel? Anschließend kann man verschiedene Unicode-
Strings byteweise vergleichen.

>> Zum Beispiel um ö und ö (wird hoffentlich richtig verschickt) als den
>> selben Buchstaben zu interpretieren. Das erste ist der im deutschen
>> üblicherweise benutze Umlaut, das andere sind zwei Unicodepoints: ein o
>> und das diakritische Zeichen U+0308 (also nur die Punkte darüber).
>
>Soweit ist es mir klar. Stelle ich bspw. einen Satz auf den Kopf, dann
>nutze auch ich diese Vorgehensweise.
>
>Beispiel: „uǝso̤l ǝqɐƃɟnⱯ ǝuı̣ǝ„
>
>In diesem Beispiel besteht das auf dem Kopf stehende "ö" aos /zwei/
>Zeichen.
>Was ist denn nun aber die Normalisierung? ;-)

Normalisierung nach NFD wäre hier die Zwei-Codepoint-
Variante: <U+006F><U+0308>.

Normalisierung nach NFC (composed) wäre die
Ein-Codepoint-Variante: <U+00F6>.

Siehe auch in der UnicodeData.txt:

| 006F;LATIN SMALL LETTER O;Ll;0;L;;;;;N;;;004F;;004F
| 00F6;LATIN SMALL LETTER O WITH DIAERESIS;Ll;0;L;006F 0308;;;;N;LATIN SMALL LETTER O DIAERESIS;;00D6;;00D6
| 0308;COMBINING DIAERESIS;Mn;230;NSM;;;;;N;NON-SPACING DIAERESIS;;;;

>Vielleicht will der Autor ja, dass seine Umlaute grundsätzlich aus zwei
>Zeichen bestehen. Hmm ...

Kann sein, aber das ist für einen String-Vergleich evtl.
schlecht. Deshalb die Umformung in einen definierten Zu-
satnd - das ist die Normalisierung.

Marcel
--
╭────╮ ╭──────╮ ..50..╭────╮ ╭────────╮
╭───────╯ ╭─╯ ╰───╮ │ ..50..╰──╮ ╰─╯ ╭─────╯
│ ╭───╯ ╭─╮ ╭───╮ │ ╰───────────╮ ╭──╮ ╭──╮ ╭─╯..60..╰──────
╯ ╰─────╯ ╰─╯ ╰─╯ ╰─────╯ ╰───╯ ╰─╯ ..67..


rocksolid / de.comp.text.misc / Re: Normalisierung? - Was geschieht hierbei? - do not ignore

1
server_pubkey.txt

rocksolid light 0.9.12
clearnet tor